Show simple item record

dc.contributor.advisorParlak, İsmail Burak
dc.contributor.authorFranko, Semuel
dc.date.accessioned2020-12-04T13:10:10Z
dc.date.available2020-12-04T13:10:10Z
dc.date.submitted2018
dc.date.issued2018-12-03
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/86901
dc.description.abstractMetin sınıflandırma ve kümeleme; doğal dil işleme uygulamaları içerisindeki en popüler araştırma alanlarındandır. Bu iki alan, otomatik metin analizi başlığındaki uygulamalarda derlem dinamiklerini ölçecek metriklerin belirlenmesinde araştırmacılara farklı olanaklar sunmaktadır. Metin analizi uygulamalarında geliştirilen İngilizce tabanlı sistemlerin en çok konuşulan ikinci dil olarak gösterilen İspanyolca için yeteri kadar incelenmediği gözlemlenmektedir. Özellikle, çok sınıflı metin sınıflandırması konusunda yapılan çalışma sayılarının İngilizce ile karşılaştırıldığında oldukça az olduğu görülmektedir. Bu çalışmanın amacı, İspanyolca metin sınıflandırma için kullanılabilecek bir derlem üzerinde, makine öğrenmesi yöntemleri ile sınıflandırıcılar geliştirmek ve farklı parametreler üzerinden karşılaştırmalı analizini gerçekleştirmektir. Bunun yanında duyarlılık analizi uygulanarak yöntemler içerisindeki kritik parametre değerleri ölçülerek optimum performans etkilerinin hesaplanması da amaçlanmıştır. 10 farklı konudan oluşan bir derlem hazırlanarak oluşturulan İspanyolca derlem içerisinde; elektronik gazete ve dergilerdeki metinler, gerekli ön işlem adımları uygulandıktan sonra konularına göre dizinlenerek makine öğrenmesi için hazırlanmıştır. Naive Bayes, Karar Ağaçları (Decision Trees), Maksimum Entropi ve Karar Destek Vektör Makineleri kullanılmıştır. Sınıflandırıcıların performansa etki eden temel parametreleri incelenmiş ve en çok etki edenler üzerinde analiz yapılmıştır. Yapılan 1800'den fazla testin sonuçları ilgili metotların başarıyla konu sınıflandırma yapabildiğini göstermektedir. Duyarlılık analizi sınıflandırıcının doğruluk değerinde %2 ile %16 arasında iyileşme sağlamaktadır. En iyi performansı veren metotlar konu tahmin konusunda %89, %88 ve %87 gibi bir doğruluğa ulaşmaktadır. Test sonuçları doğruluk, kesinlik ve anmanın yanında, sınıflandırıcı modeli hazırlanması için gerekli işlem süresi yönünden de incelenerek optimum sınıflandırıcı için yorum yapılmıştır.
dc.description.abstractText classification and clustering; are one of the most popular areas of research in natural language processing applications. These areas offer different possibilities to the researchers for determining the metrics that can measure corpora dynamics in the automatic text analysis applications. It is observed that English-based systems developed for the text analysis applications were not studied extensively for Spanish, which is the second most spoken language. In particular, it seems that the number of studies on multi-class text classification is very small compared to English language. The purpose of this work is to develop classifiers with machine learning methods on a corpus that can be used for Spanish text classification and to perform comparative analysis over different parameters. It is also aimed to calculate the optimum performance effects by measuring the critical parameter values in the methods by applying sensitivity analysis. Spanish corpus was created by preparing a set of 10 different topics from texts of electronic newspapers and magazines. The indexing was achieved according to the topics where the pre-processing steps were completed for the machine learning methods. Naive Bayes, Decision Trees, Maximum Entropy and Decision Support Vector Machines are used. The basic parameters affecting the performance of the classifiers were examined and analyzed. The results of more than 1800 tests indicate that the methods can successfully classify the topics. Sensitivity analysis improves the accuracy of the classifier from 2% to 16%. The methods that yield the best performance have reached an accuracy of 89%, 88% and 87%, respectively. In addition to the accuracy, precision and recall of the test results, the computation time has been integrated to the analysis where the classifier models have been computed.en_US
dc.languageEnglish
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontroltr_TR
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.titleMulticlass analysis of automatic text classification techniques
dc.title.alternativeOtomatik metin sınıflandırma tekniklerinin çok sınıflı analizi
dc.typemasterThesis
dc.date.updated2018-12-03
dc.contributor.departmentBilgisayar Mühendisliği Anabilim Dalı
dc.subject.ytmNatural language processing
dc.subject.ytmText categorization
dc.identifier.yokid10195752
dc.publisher.instituteFen Bilimleri Enstitüsü
dc.publisher.universityGALATASARAY ÜNİVERSİTESİ
dc.identifier.thesisid521266
dc.description.pages81
dc.publisher.disciplineDiğer


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess