Show simple item record

dc.contributor.advisorBozşahin, Hüseyin Cem
dc.contributor.authorKiliç, Özkan
dc.date.accessioned2020-12-10T09:13:59Z
dc.date.available2020-12-10T09:13:59Z
dc.date.submitted2013
dc.date.issued2018-08-06
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/225455
dc.description.abstractTürkçe serbest sözcük dizimine sahip bitişimli bir dildir. İletişim sırasında, Türkçedekikelimelerin yapısal bölümlerine ayrılması gereklidir; çünkü Türkçenin biçimbilimselsözdizimi karışıktır ve bu durum anlamsal çözümlemede merkezi bir rol oynar. Sözcük-altıparçacıkların ayrıştırılması aslında çocuklar tarafından şaşırtıcı bir başarıyla gerçekleştirilenbir biçimbirim bölme işlemidir. Bu çalışmada, Türkçe kelimelerin biçimbirim ayrıştırılmasıbir yarı-denetimli Gizli Markov Modeli ile gösterilmiştir. Model, tekrarların ve dizilimleringücünü dil ediniminde doğrudan (veya dolaylı olumsuz) kanıt olarak vurgulamaktadır.Yöntem, ODTÜ Türkçe Derlemi ve ODTÜ-Sabancı Türkçe Ağaç Yapılı Derlemi tarafındaneğitildikten sonra .88, .92 ve .90 (duyarlık, doğruluk, f-değeri) ölçümlerine ulaşmıştır.Ayrıca, bileşik sözcük tanımlama ve bölme için istatistiksel yaklaşımlar önerilmiştir. Bilişselbilimlerde sıklıkların kullanımını desteklemek amacıyla, Türkçe sıfat pekiştirme ve sahtekelimelerin kabul edilebilirliği ile ilgili deneysel çalışmalar ve ilgili istatistiksel modeller buçalışmada önerilmiştir. Bu çalışma şunu göstermektedir; çocukları yönlendirenkonuşmalarda olası kelime formları ve muhtemel olmayan biçimbirim sıralarına yönelikçarpık bir olasılık yığını olduğu için, bu yığın çeşitli istatistiksel modeller tarafından insandüzeyinde dilbilimsel yetenekleri taklit etmede kullanılabilir. Ayrıca, insanlar istatistiksel biröğrenme yeteneğine sahiptir ve bu yetenek doğalcıların iddia ettiği gibi dil yetisine hasdeğildir fakat genel bilişsel yeteneklere dahildir. Bu durum dili analiz edecek hesaplamalı veistatistiksel modellerin anlamlı ve geçerli kullanımlarına olanak sağlamaktadır. Böyletahminsel modeller dilin derinlemesine anlaşılmasına izin vermektedir.Anahtar Kelimeler: Biçimbirim Bölme; Dolaylı Olumsuz Delil; Yarı-denetimli Öğrenme
dc.description.abstractTurkish is an agglutinating language with a non-rigid word order. When communicating, theword internal structure in Turkish is required to be segmented because Turkishmorphosyntax is tortuous and it plays a central role in semantic analysis. Distinguishing asub-word unit actually means performing a morph segmentation task, which is accomplishedby children at an astonishing success rate. In this study, morph segmentation of Turkishwords was demonstrated with a semi-supervised Hidden Markov Model, which emphasizedthe power of frequencies and sequences as direct (or indirect negative) evidence for languageacquisition. The method achieved .88, .92 and .90 (precision, recall and f-score) measuresafter being trained by the METU Corpus and the METU-Sabancı Turkish Treebank.Additionally, statistical approaches were offered for compound word recognition andsegmentation. In order to corroborate the use of frequencies in the cognitive studies, theexperimental studies and the corresponding statistical models in Turkish emphaticreduplication and the acceptability of nonce words were also proposed in this study. Thisstudy shows that since the probability mass in child-directed speech is skewed towardpossible word forms and unlikely morph sequences, this mass can be used by various modelsto mimic human-level linguistic capabilities. Furthermore, human beings have a statisticallearning ability and it is not specific to the faculty of language as claimed by nativists but togeneral cognition. This allows the plausible and valid use of computational and statisticalmodels to analyze language. Such predictive models can allow a deeper understanding oflanguage.Keywords: Indirect Negative Evidence; Morph Segmentation; Semi-supervised Learningen_US
dc.languageEnglish
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontroltr_TR
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.subjectDilbilimtr_TR
dc.subjectLinguisticsen_US
dc.titlePower of frequencies: N-grams and semi-supervised morphological segmentation in Turkish
dc.title.alternativeTekrarların gücü: Türkçe'de N-gramlar ve yarı-denetimli biçimbilimsel bölme
dc.typedoctoralThesis
dc.date.updated2018-08-06
dc.contributor.departmentBilişsel Bilim Anabilim Dalı
dc.identifier.yokid10005431
dc.publisher.instituteEnformatik Enstitüsü
dc.publisher.universityORTA DOĞU TEKNİK ÜNİVERSİTESİ
dc.identifier.thesisid343082
dc.description.pages159
dc.publisher.disciplineDiğer


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess