Türkçe metinlerin sınıflandırılmasında kullanılmak için geliştirilen melez bir öz nitelik seçim yöntemi
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Teknolojinin her alanda yaygınlaşması, kullanılması ve internete erişimin kolaylaşması ile içerikler üretilmesi, paylaşılması ve depolanması kolaylaşmıştır. Bu interaktif eylemler sonucunda ise geçmişten günümüze depolanan veri miktarlarında büyük oranlarda artışlar gözlemlenmiştir. Depolanan verilerin ise oldukça büyük bir kısmı ise metinlerden oluşmaktadır. Veri miktarlarının artmasıyla birlikte depolama maliyetlerinde de artışlar olmuştur. Veri boyutlarının, ciddi oranda ve irrasyonel şekilde artması sonucunda verilerin iyi bir şekilde yönetilmesi gerektiği gözler önüne serilmiştir. Üstelik, veriler kullanılarak yapılan çalışmalardaki, öznitelik sayısının fazla olması da maliyeti yükselten ve başarımı düşüren etmenlerdendir. Ayrıca, iyi bir analiz bu verilerden sektör bağımsız kazanımlar elde etmek de mümkündür. Metinlerin, yüksek boyutlu olması sebebi ile ortaya çıkan maliyet ve başarım sorunlarından kurtulmak ve tahmin başarım oranlarını artırmak için öznitelikler arasında seçim yapılması gerekmektedir. Bu noktada ise öznitelik seçim yöntemleri devreye girmelidir. Bu çalışmada, Türkçe metinleri sınıflandırmak amacı ile melez bir öznitelik seçim yöntemi üzerine çalışılmıştır. Çalışmada kullanılan yöntemin amacı bilgi kazancı, simetrik belirsizlik, korelasyona dayalı öznitelik seçimi gibi zayıf filtreleri birleştirmek için çoğunluk oyu ve sıralama tahsisi ile tüm öznitelikler arasında özniteliklerin kalitesini ölçen melez bir öznitelik seçim yöntemi oluşturmaktır. Elde edilen öznitelikler ise Saf Bayes, J48, DVM, Rastgele Orman gibi algoritmalara ile test edilmiş ve sonuçlar gözlemlenmiştir. Elde edilen sonuçlara göre, diğer filtreleme yöntemlerine göre daha olumlu sonuçlar elde edilmiştir. With the spread and use of technology in every field and the ease of access to the internet, it has become easier to produce, share and store content. As a result of these interactive actions, large increases have been observed in the amount of data stored from past to present. Most of the stored data consists of texts. With the increase in the amount of data, there has been an increase in storage costs.As a result of the significant and irrational increase in data sizes, it has emerged that data should be managed well. In addition, the high number of features in studies using data is one of the factors that increase the cost and decrease the performance. With a good analysis, it is also possible to obtain sector-independent gains from these data.In order to get rid of the cost and performance problems caused by the high dimensionality of the texts and to increase the prediction success rates, it is necessary to choose among the features. At this point, feature selection methods should come into play. In this study, a hybrid feature selection method has been studied for the classification of Turkish texts. The aim of the method used in the study is to create a hybrid feature selection method that measures the quality of the features with the majority of votes and rank allocation among all features in order to combine weak filters such as information gain, symmetric uncertainty and correlation based. Attribute Selection. Obtained features were tested with algorithms such as Naive Bayes, J48, Support Vector Machine, Random Forest and the results were observed.According to the results obtained, more positive results were obtained compared to other filtering methods.
Collections