Show simple item record

dc.contributor.advisorYücel Demirel, Eylem
dc.contributor.advisorEnsari, Tolga
dc.contributor.authorKurt, Mehmet Salih
dc.date.accessioned2020-12-07T11:59:45Z
dc.date.available2020-12-07T11:59:45Z
dc.date.submitted2018
dc.date.issued2018-11-23
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/142818
dc.description.abstractGünümüzde bilgiye erişmek için internet ağı üzerinde milyonlarca web sitesi yaygın olarak kullanılmaktadır. Sayıları her geçen gün artan web sayfalarının daha etkin kullanılabilmesi için iyi bir şekilde kategorize edilmeleri önem kazanmıştır.Bu tez çalışmasında 15 kategoriye ayrılmış olan web sayfalarını içeren veri kümesinden makine öğrenmesi yöntemleriyle sınıflandırma modelleri oluşturulmuştur. Web sayfası sınıflandırma çalışmalarında yaygın olarak kullanılan n-gram modellerinden farklı olarak derin öğrenme modelleri kullanılmıştır. Web sayfalarını sınıflandırmak için veri kümesindeki URL'ler ve ait oldukları kategoriler kullanılmıştır. URL bilgilerinden web sayfalarının metinleri elde edilerek eğitim veri kümesi oluşturulmuştur. Oluşturulan eğitim veri kümesi metin sınıflandırma yöntemleriyle sınıflandırılmıştır. Çalışmamızda metin sınıflandırma alanında en başarılı derin öğrenme modellerinden olan CNN (Konvolüsyonel yapay sinir ağları) ve LSTM (Uzun kısa vadeli hafıza ağları) modelleri kullanılmıştır. Hem CNN modeli hem de LSTM modeli için parametre optimizasyonları yapılmış ve en iyi sonuçları veren parametreler belirlenmiştir. Modellerin değerlendirmeleri f1 skorları ve karmaşıklık matrisleri ile yapılmıştır. Her iki derin öğrenme modeli için de hem ikili hem de çoklu sınıflandırma modelleri oluşturulmuştur. CNN ve LSTM ile oluşturulan tüm modellerin başarıları birbirleriyle karşılaştırılmıştır. Oluşturduğumuz ikili sınıflandırma modeli aynı veri kümesiyle web sayfası sınıflandırma yapan başka bir çalışmayla da karşılaştırılmıştır ve n-gram modellerine göre daha başarılı sınıflandırma modelleri elde edilmiştir.
dc.description.abstractNowadays, millions of websites are widely used on the internet network to access information. The classification of these web pages, whose numbers are increasing day by day, has become important in order to used more effectively.In this thesis, classification models were created by using machine learning methods from the data set containing web pages which are divided into 15 categories. In our study, differently from N-gram models, which are widely used in web page classification studies, deep learning models are used. The URLs in the dataset and the categories they belong to are used to classify web pages. Training data set was created by extracting texts of web pages from URL information. The generated training data set is classified by text classification methods. In our study, CNN (Convolutional Neural Network) and LSTM (Long Short Term Memory) models, which are successful deep learning models in the field of text classification, are used. Parameter optimizations have been performed for both the CNN model and the LSTM model. The parameters, which give the best results, have been determined. Evalution of models were made with f1 scores and complexity matrices. Binary and multi-class classification models have been created for both deep learning approaches. The successes of all models created with CNN and LSTM are compared with each other. The binary classification model we created is also compared with another study that classifies the web page with the same data set and more successful classification models than n-gram models were obtained.en_US
dc.languageTurkish
dc.language.isotr
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontroltr_TR
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.titleDerin öğrenme modelleri ile web sayfası sınıflandırma
dc.title.alternativeWeb page classification with deep learning models
dc.typemasterThesis
dc.date.updated2018-11-23
dc.contributor.departmentBilgisayar Mühendisliği Anabilim Dalı
dc.subject.ytmText categorization
dc.subject.ytmArtificial neural networks
dc.identifier.yokid10195559
dc.publisher.instituteFen Bilimleri Enstitüsü
dc.publisher.universityİSTANBUL ÜNİVERSİTESİ
dc.identifier.thesisid520338
dc.description.pages49
dc.publisher.disciplineBilgisayar Mühendisliği Bilim Dalı


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess