Trigram özellik veri seti kullanılarak sınıflandırma yöntemleriyle dil tanıma

Bayrak, Şengül

dc.contributor.advisor	Eminli, Mübariz
dc.contributor.advisor	Takcı, Hidayet
dc.contributor.author	Bayrak, Şengül
dc.date.accessioned	2020-12-04T14:29:05Z
dc.date.available	2020-12-04T14:29:05Z
dc.date.submitted	2011
dc.date.issued	2018-08-06
dc.identifier.uri	https://acikbilim.yok.gov.tr/handle/20.500.12812/89182
dc.description.abstract	Doküman anlamanın birinci adımı doküman dilinin tanınmasıdır. Dil tanımanın amacı; dili bilinmeyen metinleri işlemek ve onları tanımlamaktır. Dokümanlar için dil bulma işlemi bir bakıma üst veri üretimi olarakta görülebilir. Dil tanıma sırasında; dokümanları sunacak sınıfları elde edebilmek için dokümandaki kelimelerin frekans değerleri kullanılır. Ayrıca dili bilinmeyen test dokümanlarının dilini bulmak için de dokümanın terim-doküman matrisi ile dil arasındaki benzerlikler bulunur. En yüksek benzerliği veren sınıf yeni dokümanın sınıfı olarak belirlenir. Böylece dil tanıma işlemi tamamlanmış olur. İstatistiksel dil tanıma olarak bilinen bu yöntem metin içeriğinden bağımsız dil tanımayı destekler. Dil tanıma, dilin ayırt edici özelliklerine sınıflandırma algoritmaları uygulanması ile gerçekleştirilmektedir. Bu kapsamda; dili tanımlayan, dilin özelliklerini sunmada ve özellikler arası ilişkilerin açığa çıkarılmasında kullanılan temel iki yöntem vardır, bunlar, dilbilimsel yöntemler ve istatistiksel yöntemlerdir (harf kombinasyonları, n-gram yöntemi, markov modelleri, bayesian ve vektör uzayı). Bunlardan istatistiksel yöntemde, dilin istatistiksel özellikleri kullanılır, dilbilimsel yöntemde ise dillere ait karakteristik özellikler kullanılır.Sınıflandırma ve kümeleme algoritmalarıyla metin tabanlı dil tanımadaki performans analizini öneren sistemimiz eğitimi ve testi için, European Corpus Initiative (ECI) adı verilen uluslar arası kabul görmüş, çok dilli bir külliyat kullanılmıştır. Eğitim için ECI CDROM külliyatından, 1 KB ile 100 KB arasında uzunluklarda 15 dil için (Türkçe, İngilizce, Almanca, Hollandaca, Fransızca, İtalyanca, Cezayirce, İspanyolca, Portekizce, Norveççe, Maltaca, Latince, Litvanyaca, İsveççe, Andoa Dili) alt külliyatlar kullanılmıştır.Bu çalışmada doküman dili tanıma için n-gram tabanlı istatistiksel bir yöntem kullanılmaktadır. Yöntem; n-gram sıklıklarının dokümanın dilini tanımada kullanılabileceği temeline dayanmaktadır ve 26 harfi esas alan, trigram özellik kümesi ile çalışarak 300 öznitelik frekans değeri yöntemlere giriş olarak kullanılmıştır. Dolayısıyla Latin alfabesini kullanan diller ve Avrupa dillerinin tanınması için bir çözüm geliştirilmeye çalışılmıştır. Bu çalışmada, trigram seçimi, eğitim seti boyutu ve seçilen sınıflandırma algoritmalarının başarısı gibi parametreler esas alınarak test çalışmaları yapılmıştır. Eğitim setinin oluşturulmasında kullanılan N-Gram Özellik Seçimi Yöntemi, Profil Tabanlı Yöntem, Örnek Tabanlı Yöntem, Centroid Tabanlı Sınflayıcı, Bulanık C Ortalamalar Algoritması C# ortamında implemente edilirken, Yapay Sinir Ağları ve Destek Vektör Makinaları sınıflandırma algoritmaları ise Tanagra ve Weka veri madenciliği yazılımları kullanılarak eğitilerek test edilmiş ve sınflandırma başarıları doğruluk oranlarına göre verilmiştir.Anahtar Kelimeler: Dil Tanıma, N-gram Özellik Çıkarım Metodu, YSA, DVM, BCO, K-Ortalamalar Algortiması.
dc.description.abstract	The first step of understanding the documents is identifying the language. The purpose of identifying the language, processing and describing unknown texts. Finding language for documents can be seen as the production of metadata. During the language identification; to obtain the During the language identification; to obtain the class which will present the documents use the frequencies. In addition, for finding unknown documents' language, obtain similarity between term-documents matrix and language. The highest similarity is as the class a new document class and so language identification process is completed. This method is known as statistical language identification, text support, regardless of content.Language identification, obtains with applying the algorithms to languages' distinctive features. In this context, describing of the language, providing the features and specifications for the removal of the basic relations between the two methods that are linguistic methods, and statistical methods (combination of letters, the n-gram method, markov models, bayesian classifier, and vector space). In statistical method is used statistical properties of language but linguistic method is used characteristics of languages.Our proposed method for training and testing, the European Corpus Initiative (ECI) which the internationally recognized name, used in a multilingual corpus. For training CD-ROM for the ECI corpus, lengths between 1 KB and 100 KB for the language of 15 (in Turkish, English, German, Dutch, French, Italian, Cezayirce, Spanish, Portuguese, Norwegian, Maltese, Latin, Lithuanian, Swedish, Andoa Language) sub-digests used.In this study,using n-gram based method for language identification. Method, n-gram frequencies can be used in identifying the language of the document is based on and 26 letters is based on for working with trigram feature set. Therefore, a solution has been developed for languages using the Latin alphabet and European languages. In this study, the trigram selection, training set size and classification tests success are conducted on the basis of parameters. Tanagra and Weka's data mining software used in testing and training procedures. For preparation training set is used of N-Gram Feature Selection Method, Profile-Based Method, Example-Based Method, Centroid-Based Classify, Fuzzy C Means Algorithm is implemented C# programming language, Artificial Neural Networks and Support Vector Machines classification algorithms in the Tanagra and the Weka data mining software using the training of the classification success rates have been tested and is based on accuracy.Keywords: Language Identification, N-Gram Based Feature Extraction Method, ANN,SVM,FCM,K-OrtalamalarAlgortihms.	en_US
dc.language	Turkish
dc.language.iso	tr
dc.rights	info:eu-repo/semantics/openAccess
dc.rights	Attribution 4.0 United States	tr_TR
dc.rights.uri	https://creativecommons.org/licenses/by/4.0/
dc.subject	Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol	tr_TR
dc.subject	Computer Engineering and Computer Science and Control	en_US
dc.title	Trigram özellik veri seti kullanılarak sınıflandırma yöntemleriyle dil tanıma
dc.title.alternative	Language identification with classification methods using trigram feature data set
dc.type	masterThesis
dc.date.updated	2018-08-06
dc.contributor.department	Bilgisayar Mühendisliği Anabilim Dalı
dc.subject.ytm	Language learning methods
dc.identifier.yokid	406423
dc.publisher.institute	Fen Bilimleri Enstitüsü
dc.publisher.university	HALİÇ ÜNİVERSİTESİ
dc.identifier.thesisid	299282
dc.description.pages	77
dc.publisher.discipline	Diğer

Files in this item

Name:: yokAcikBilim_406423.pdf
Size:: 1.951Mb
Format:: PDF
Description:: File_406423

View/Open

This item appears in the following Collection(s)

TEZLER

Show simple item record

Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess