Genetik algoritma ve K-en yakın komşu kullanarak metin belgelerinin sınıflandırılması
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Metin Madenciliği büyük miktardaki metinsel verilerden, önceden bilinmeyen bilgilerin elde edilmesini amaçlayan veri madenciliğinin bir dalıdır. Sınıflandırma, kümeleme ve tahmin, Metin Madenciliğinin önemli bir parçasıdır. Başarılı bir Metin Madenciliği yine başarılı bir sınıflandırma işlemine bağlıdır. Sınıflandırma sisteminin başarısını ve verimini artırmak için genellikle boyut azaltma işlemi gerçekleştirilir. Bu çalışmada metin belgelerinin sınıflandırılmasında boyut azaltma işlemi gerçekleştirilmiştir. Bunun için iki yöntem kullanılmıştır. Bunlardan ilki özellik çıkarımı, diğeri ise özellik seçimidir. Özellik çıkarımı için Temel Bileşen Analizi yöntemi kullanılmıştır. Özellik seçiminden sonra seçilen özellikleri için katsayı ile ağırlıklandırma kullanılmıştır. Özellik seçimi aşaması için ve özellik çıkarımından sonra en iyi kat sayıların seçimi için Genetik Algoritma kullanılmıştır. Deneysel sonuçlara göre özellik seçimi sınıflandırma başarısını kısmen azaltmıştır. Özellik çıkarımı ve bu aşamadan sonra eklenen katsayı ağırlıklandırma işlemi sınıflandırma başarısını önemli ölçüde artırmıştır. Text Mining is a branch of data mining that aims to obtain previously unknown information from large quantities of textual data. Classification, clustering and estimation are some important piece of Text Mining. An important part of a successful Text Mining is the successful classification process. Dimension reduction is usually performed to improve the success and efficiency of the classification system. In this study, the dimension reduction process was performed in the classification of text documents. Two methods have been used for this. One of them is feature selection and the other is feature extraction. Principial Component Analysis method is used for feature extraction. Weighting with coefficients is used for selected features after feature selection. Genetic Algorithm is used for the feature selection phase and for the selection of the best coefficients after feature extraction. According to the experimental results, the feature selection partially reduced the classification success. Feature extraction and coefficient weighting added after this step significantly increased the classification success.
Collections