Trigram özellik veri seti kullanılarak sınıflandırma yöntemleriyle dil tanıma
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Doküman anlamanın birinci adımı doküman dilinin tanınmasıdır. Dil tanımanın amacı; dili bilinmeyen metinleri işlemek ve onları tanımlamaktır. Dokümanlar için dil bulma işlemi bir bakıma üst veri üretimi olarakta görülebilir. Dil tanıma sırasında; dokümanları sunacak sınıfları elde edebilmek için dokümandaki kelimelerin frekans değerleri kullanılır. Ayrıca dili bilinmeyen test dokümanlarının dilini bulmak için de dokümanın terim-doküman matrisi ile dil arasındaki benzerlikler bulunur. En yüksek benzerliği veren sınıf yeni dokümanın sınıfı olarak belirlenir. Böylece dil tanıma işlemi tamamlanmış olur. İstatistiksel dil tanıma olarak bilinen bu yöntem metin içeriğinden bağımsız dil tanımayı destekler. Dil tanıma, dilin ayırt edici özelliklerine sınıflandırma algoritmaları uygulanması ile gerçekleştirilmektedir. Bu kapsamda; dili tanımlayan, dilin özelliklerini sunmada ve özellikler arası ilişkilerin açığa çıkarılmasında kullanılan temel iki yöntem vardır, bunlar, dilbilimsel yöntemler ve istatistiksel yöntemlerdir (harf kombinasyonları, n-gram yöntemi, markov modelleri, bayesian ve vektör uzayı). Bunlardan istatistiksel yöntemde, dilin istatistiksel özellikleri kullanılır, dilbilimsel yöntemde ise dillere ait karakteristik özellikler kullanılır.Sınıflandırma ve kümeleme algoritmalarıyla metin tabanlı dil tanımadaki performans analizini öneren sistemimiz eğitimi ve testi için, European Corpus Initiative (ECI) adı verilen uluslar arası kabul görmüş, çok dilli bir külliyat kullanılmıştır. Eğitim için ECI CDROM külliyatından, 1 KB ile 100 KB arasında uzunluklarda 15 dil için (Türkçe, İngilizce, Almanca, Hollandaca, Fransızca, İtalyanca, Cezayirce, İspanyolca, Portekizce, Norveççe, Maltaca, Latince, Litvanyaca, İsveççe, Andoa Dili) alt külliyatlar kullanılmıştır.Bu çalışmada doküman dili tanıma için n-gram tabanlı istatistiksel bir yöntem kullanılmaktadır. Yöntem; n-gram sıklıklarının dokümanın dilini tanımada kullanılabileceği temeline dayanmaktadır ve 26 harfi esas alan, trigram özellik kümesi ile çalışarak 300 öznitelik frekans değeri yöntemlere giriş olarak kullanılmıştır. Dolayısıyla Latin alfabesini kullanan diller ve Avrupa dillerinin tanınması için bir çözüm geliştirilmeye çalışılmıştır. Bu çalışmada, trigram seçimi, eğitim seti boyutu ve seçilen sınıflandırma algoritmalarının başarısı gibi parametreler esas alınarak test çalışmaları yapılmıştır. Eğitim setinin oluşturulmasında kullanılan N-Gram Özellik Seçimi Yöntemi, Profil Tabanlı Yöntem, Örnek Tabanlı Yöntem, Centroid Tabanlı Sınflayıcı, Bulanık C Ortalamalar Algoritması C# ortamında implemente edilirken, Yapay Sinir Ağları ve Destek Vektör Makinaları sınıflandırma algoritmaları ise Tanagra ve Weka veri madenciliği yazılımları kullanılarak eğitilerek test edilmiş ve sınflandırma başarıları doğruluk oranlarına göre verilmiştir.Anahtar Kelimeler: Dil Tanıma, N-gram Özellik Çıkarım Metodu, YSA, DVM, BCO, K-Ortalamalar Algortiması. The first step of understanding the documents is identifying the language. The purpose of identifying the language, processing and describing unknown texts. Finding language for documents can be seen as the production of metadata. During the language identification; to obtain the During the language identification; to obtain the class which will present the documents use the frequencies. In addition, for finding unknown documents' language, obtain similarity between term-documents matrix and language. The highest similarity is as the class a new document class and so language identification process is completed. This method is known as statistical language identification, text support, regardless of content.Language identification, obtains with applying the algorithms to languages' distinctive features. In this context, describing of the language, providing the features and specifications for the removal of the basic relations between the two methods that are linguistic methods, and statistical methods (combination of letters, the n-gram method, markov models, bayesian classifier, and vector space). In statistical method is used statistical properties of language but linguistic method is used characteristics of languages.Our proposed method for training and testing, the European Corpus Initiative (ECI) which the internationally recognized name, used in a multilingual corpus. For training CD-ROM for the ECI corpus, lengths between 1 KB and 100 KB for the language of 15 (in Turkish, English, German, Dutch, French, Italian, Cezayirce, Spanish, Portuguese, Norwegian, Maltese, Latin, Lithuanian, Swedish, Andoa Language) sub-digests used.In this study,using n-gram based method for language identification. Method, n-gram frequencies can be used in identifying the language of the document is based on and 26 letters is based on for working with trigram feature set. Therefore, a solution has been developed for languages using the Latin alphabet and European languages. In this study, the trigram selection, training set size and classification tests success are conducted on the basis of parameters. Tanagra and Weka's data mining software used in testing and training procedures. For preparation training set is used of N-Gram Feature Selection Method, Profile-Based Method, Example-Based Method, Centroid-Based Classify, Fuzzy C Means Algorithm is implemented C# programming language, Artificial Neural Networks and Support Vector Machines classification algorithms in the Tanagra and the Weka data mining software using the training of the classification success rates have been tested and is based on accuracy.Keywords: Language Identification, N-Gram Based Feature Extraction Method, ANN,SVM,FCM,K-OrtalamalarAlgortihms.
Collections