Prefix suffix based statistical language models of Turkish
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
ÖZET TÜRKÇE'NİN ÖNEK-SONEK TABANLI İSTATİSTİKSEL MODELLERİ Umut Topkara Bilgisayar Mühendisliği, Yüksek Lisans Tez Yöneticisi: Yard. Doç. Dr. İlyas Çiçekli Temmuz, 2001 Teknolojik gelişmelerle beraber büyük derlemlerin ortaya çıkmasından sonra dil hakkındaki nicel bilgilerin özlü bir halde saklanması ve bu bilgi üzerinde çıkarımlar yapılması çekici bir bilimsel araştırma alanı haline geldi, istatistik sel dil modelleri u dil birimlerinden oluşan büyük derlemleri ürettiği varsayılan ve bilinmeyen bir P(u) olasılık dağılımını tahmin etmekte kullanılırlar. Bulu nan bu olasılık dağılımı tahmini, aralarında konuşma tanıma(speech recogni tion), yazım ve gramer hatalarını düzeltme, otomatik belge tercümesi ve otomatik belge sınıflandırmanın da bulunduğu birçok doğal dil işleme uygulamasının başarımını artırmak için kullanılabilir, istatistiksel dil modelleme, İngilizce'ye başarıyla uygulanmıştır, ancak istatistiksel modellerin bu başarısı Türkçe'nin is tatistiksel modellerine Türkçe'nin belirli özelliklerinden dolayı yeterince yansıma maktadır. Türkçe üretken sondan eklemeli bir dil yapısına sahiptir, yani bir ke lime kökünden arka arkaya eklemeler yoluyla binlerce kelime üretmek mümkün olmaktadır. Kelime birimleri üzerinden istatistiksel modeller kullanıldığında Türkçe'nin üretken sözlük yapısı genel olarak veri yetersizliğine ve konuşma tanıma gibi zaman-yer kritik uygulamalarda ciddi yer ve zaman problemleri oluşturmaktadır. Yakın zamanda tamamlanan Hakkani-Tür'e ait doktora tezindeki bulgu lara göre, Türkçe için konuşma tanıma uygulamalarının ürettiği aday lis telerinin yeniden değerlendirilmesinde, kelimelerin sabit büyüklükteki önek ve sonek birimleri üzerinden yapılan n-birimli istatiksel modeller kelime birimleri üzerinden yapılan n-birimli modellere göre daha iyi başarı sağlamaktadırlar. Bu başarılı sonuçlardan sonra, kelimeden küçük birimler üzerinden Türkçe'nin istatis tiksel modelleri konusunda daha fazla araştırma yaptık. Çalışmalarımızda önekVI ve sonek kısımları için sabit sayıda hece kullanılan çeşitli istatistiksel modeller denedik. Yaklaşımlarımızın güçlülüğünü değerlendirebilmek için önek ve sonek dağarcığımızı kısıtlı tuttuk. Ayrıca 2 kelime birimi bağlandı önek sonek modellerimizin başarımını kelime birimleri üzerinde 2-birimli istatistiksel modellerle karşılaştırdık. Araştırmalarımızın sonunda 2 kelime bağlamda kelime tabanlı dil modeliyle aynı perfor mansı gösteren, ancak yarı boyutta olan bir dil modeli geliştirdik. Anahtar sözcükler: istatistiksel Dil Modelleme, Doğal Dil İşleme, Sondan Ek lemeli Diller, Konuşma Tanıma, Aday Listesi Değerlendirme, n-birimli Dil Mod elleri, Önek Sonek Dil Modelleri. ABSTRACT PREFIX-SUFFIX BASED STATISTICAL LANGUAGE MODELS OF TURKISH Umut Topkara M.S. in Computer Engineering Supervisor: Asst. Prof. Dr. Ilyas Çiçekli July, 2001 As large amount of online text became available, concisely representing quan titative information about language and doing inference on this information for natural language applications have become an attractive research area. Statisti cal language models try to estimate the unknown probability distribution P(u) that is assumed to have produced large text corpora of linguistic units u. This probability distribution estimate is used to improve the performance of many natural language processing applications including speech recognition (ASR), op tical character recognition (OCR), spelling and grammar correction, machine translation and document classification. Statistical language modeling has been successfully applied to English. However, this good performance of approaches to statistical modeling of English does not apply to Turkish. Turkish has a produc tive agglutinative morphology, that is, it's possible to derive thousands of word forms from a given root word through adding suffixes. When statistical modeling by word units is used, this lucrative vocabulary structure causes data sparseness problems in general and serious space problems in time-memory critical applica tions such as speech recognition. According to a recent Ph.D. thesis by Hakkani-Tür, using fixed size prefix and suffix parts of words for statistical modeling of Turkish performs better than using whole words for the task of selecting the most likely sequence of words from a list of candidate words emitted by a speech recognizer. After these successful results, we have made further research on using smaller units for statistical modeling of Turkish. We have used fixed number of syllables for prefix and suffix parts. In our experiments we have used small vocabulary of prefixes and suffixes to test the robustness of our approach. We also compared the performance of prefix-suffix language models having 2-word context with word 2-gram models. We have found a language model that uses subword units and can perform as well as a large word iiiIV based language model in 2-word context and still be half in size. Keywords: Statistical Language Modeling, Natural Language Processing, Agglu tinative Languages, Speech Recognition, N-best List Rescoring, n-gram Language Models, Prefix Suffix Language Models.
Collections