Show simple item record

dc.contributor.advisorBorandağ, Emin
dc.contributor.advisorÖzçift, Akın
dc.contributor.authorKaygusuz, Yeşim
dc.date.accessioned2023-09-22T12:33:57Z
dc.date.available2023-09-22T12:33:57Z
dc.date.submitted2021-11-11
dc.date.issued2021
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/741597
dc.description.abstractTeknolojinin her alanda yaygınlaşması, kullanılması ve internete erişimin kolaylaşması ile içerikler üretilmesi, paylaşılması ve depolanması kolaylaşmıştır. Bu interaktif eylemler sonucunda ise geçmişten günümüze depolanan veri miktarlarında büyük oranlarda artışlar gözlemlenmiştir. Depolanan verilerin ise oldukça büyük bir kısmı ise metinlerden oluşmaktadır. Veri miktarlarının artmasıyla birlikte depolama maliyetlerinde de artışlar olmuştur. Veri boyutlarının, ciddi oranda ve irrasyonel şekilde artması sonucunda verilerin iyi bir şekilde yönetilmesi gerektiği gözler önüne serilmiştir. Üstelik, veriler kullanılarak yapılan çalışmalardaki, öznitelik sayısının fazla olması da maliyeti yükselten ve başarımı düşüren etmenlerdendir. Ayrıca, iyi bir analiz bu verilerden sektör bağımsız kazanımlar elde etmek de mümkündür. Metinlerin, yüksek boyutlu olması sebebi ile ortaya çıkan maliyet ve başarım sorunlarından kurtulmak ve tahmin başarım oranlarını artırmak için öznitelikler arasında seçim yapılması gerekmektedir. Bu noktada ise öznitelik seçim yöntemleri devreye girmelidir. Bu çalışmada, Türkçe metinleri sınıflandırmak amacı ile melez bir öznitelik seçim yöntemi üzerine çalışılmıştır. Çalışmada kullanılan yöntemin amacı bilgi kazancı, simetrik belirsizlik, korelasyona dayalı öznitelik seçimi gibi zayıf filtreleri birleştirmek için çoğunluk oyu ve sıralama tahsisi ile tüm öznitelikler arasında özniteliklerin kalitesini ölçen melez bir öznitelik seçim yöntemi oluşturmaktır. Elde edilen öznitelikler ise Saf Bayes, J48, DVM, Rastgele Orman gibi algoritmalara ile test edilmiş ve sonuçlar gözlemlenmiştir. Elde edilen sonuçlara göre, diğer filtreleme yöntemlerine göre daha olumlu sonuçlar elde edilmiştir.
dc.description.abstractWith the spread and use of technology in every field and the ease of access to the internet, it has become easier to produce, share and store content. As a result of these interactive actions, large increases have been observed in the amount of data stored from past to present. Most of the stored data consists of texts. With the increase in the amount of data, there has been an increase in storage costs.As a result of the significant and irrational increase in data sizes, it has emerged that data should be managed well. In addition, the high number of features in studies using data is one of the factors that increase the cost and decrease the performance. With a good analysis, it is also possible to obtain sector-independent gains from these data.In order to get rid of the cost and performance problems caused by the high dimensionality of the texts and to increase the prediction success rates, it is necessary to choose among the features. At this point, feature selection methods should come into play. In this study, a hybrid feature selection method has been studied for the classification of Turkish texts. The aim of the method used in the study is to create a hybrid feature selection method that measures the quality of the features with the majority of votes and rank allocation among all features in order to combine weak filters such as information gain, symmetric uncertainty and correlation based. Attribute Selection. Obtained features were tested with algorithms such as Naive Bayes, J48, Support Vector Machine, Random Forest and the results were observed.According to the results obtained, more positive results were obtained compared to other filtering methods.en_US
dc.languageTurkish
dc.language.isotr
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontroltr_TR
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.subjectBilim ve Teknolojitr_TR
dc.subjectScience and Technologyen_US
dc.titleTürkçe metinlerin sınıflandırılmasında kullanılmak için geliştirilen melez bir öz nitelik seçim yöntemi
dc.title.alternativeA hybrid feature selection method developed for use in the classification of turkish texts
dc.typemasterThesis
dc.date.updated2021-11-11
dc.contributor.departmentYazılım Mühendisliği Ana Bilim Dalı
dc.subject.ytmFeature selection
dc.subject.ytmTurkish texts
dc.subject.ytmData mining
dc.subject.ytmText mining
dc.identifier.yokid10302889
dc.publisher.instituteFen Bilimleri Enstitüsü
dc.publisher.universityMANİSA CELÂL BAYAR ÜNİVERSİTESİ
dc.identifier.thesisid691593
dc.description.pages69
dc.publisher.disciplineYazılım Mühendisliği Bilim Dalı


Files in this item

FilesSizeFormatView

There are no files associated with this item.

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess