Power of frequencies: N-grams and semi-supervised morphological segmentation in Turkish
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Türkçe serbest sözcük dizimine sahip bitişimli bir dildir. İletişim sırasında, Türkçedekikelimelerin yapısal bölümlerine ayrılması gereklidir; çünkü Türkçenin biçimbilimselsözdizimi karışıktır ve bu durum anlamsal çözümlemede merkezi bir rol oynar. Sözcük-altıparçacıkların ayrıştırılması aslında çocuklar tarafından şaşırtıcı bir başarıyla gerçekleştirilenbir biçimbirim bölme işlemidir. Bu çalışmada, Türkçe kelimelerin biçimbirim ayrıştırılmasıbir yarı-denetimli Gizli Markov Modeli ile gösterilmiştir. Model, tekrarların ve dizilimleringücünü dil ediniminde doğrudan (veya dolaylı olumsuz) kanıt olarak vurgulamaktadır.Yöntem, ODTÜ Türkçe Derlemi ve ODTÜ-Sabancı Türkçe Ağaç Yapılı Derlemi tarafındaneğitildikten sonra .88, .92 ve .90 (duyarlık, doğruluk, f-değeri) ölçümlerine ulaşmıştır.Ayrıca, bileşik sözcük tanımlama ve bölme için istatistiksel yaklaşımlar önerilmiştir. Bilişselbilimlerde sıklıkların kullanımını desteklemek amacıyla, Türkçe sıfat pekiştirme ve sahtekelimelerin kabul edilebilirliği ile ilgili deneysel çalışmalar ve ilgili istatistiksel modeller buçalışmada önerilmiştir. Bu çalışma şunu göstermektedir; çocukları yönlendirenkonuşmalarda olası kelime formları ve muhtemel olmayan biçimbirim sıralarına yönelikçarpık bir olasılık yığını olduğu için, bu yığın çeşitli istatistiksel modeller tarafından insandüzeyinde dilbilimsel yetenekleri taklit etmede kullanılabilir. Ayrıca, insanlar istatistiksel biröğrenme yeteneğine sahiptir ve bu yetenek doğalcıların iddia ettiği gibi dil yetisine hasdeğildir fakat genel bilişsel yeteneklere dahildir. Bu durum dili analiz edecek hesaplamalı veistatistiksel modellerin anlamlı ve geçerli kullanımlarına olanak sağlamaktadır. Böyletahminsel modeller dilin derinlemesine anlaşılmasına izin vermektedir.Anahtar Kelimeler: Biçimbirim Bölme; Dolaylı Olumsuz Delil; Yarı-denetimli Öğrenme Turkish is an agglutinating language with a non-rigid word order. When communicating, theword internal structure in Turkish is required to be segmented because Turkishmorphosyntax is tortuous and it plays a central role in semantic analysis. Distinguishing asub-word unit actually means performing a morph segmentation task, which is accomplishedby children at an astonishing success rate. In this study, morph segmentation of Turkishwords was demonstrated with a semi-supervised Hidden Markov Model, which emphasizedthe power of frequencies and sequences as direct (or indirect negative) evidence for languageacquisition. The method achieved .88, .92 and .90 (precision, recall and f-score) measuresafter being trained by the METU Corpus and the METU-Sabancı Turkish Treebank.Additionally, statistical approaches were offered for compound word recognition andsegmentation. In order to corroborate the use of frequencies in the cognitive studies, theexperimental studies and the corresponding statistical models in Turkish emphaticreduplication and the acceptability of nonce words were also proposed in this study. Thisstudy shows that since the probability mass in child-directed speech is skewed towardpossible word forms and unlikely morph sequences, this mass can be used by various modelsto mimic human-level linguistic capabilities. Furthermore, human beings have a statisticallearning ability and it is not specific to the faculty of language as claimed by nativists but togeneral cognition. This allows the plausible and valid use of computational and statisticalmodels to analyze language. Such predictive models can allow a deeper understanding oflanguage.Keywords: Indirect Negative Evidence; Morph Segmentation; Semi-supervised Learning
Collections