Türkçe dizi etiketleme için sinir ağ modelleri
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Türkçe gibi sondan eklemeli dillerde aynı kökten birçok kelimenin türetilmesinden dolayı kelimelerin bir bütün olarak modellenmesi seyreklik problemini de beraberinde getirmektedir. Bundan ötürü, kelimeyi bir bütün olarak ele almaktansa karakterleri üzerinden bir kelimeyi ifade etmek ya da morfem ve morfemin etiket bilgisini hesaba katmak kelime hakkında daha detaylı bilgi vermekte ve seyreklik problemini de azaltmaktadır.Bu çalışmada Türkçede kelime dizilerini etiketleme problemleri için derin sinir ağlarını kullanan bir model önerilmiştir. Seyreklik problemini çözmek için kelimelerin karakter ve morfem bilgilerin dizi etiketleme problemi kapsamındaki etkisi incelenmiştir. Bu çalışmada literatürdeki güncel derin öğrenme modelleri Türkçe için farklı kelime veya alt-kelime düzeyinde gösterimler kullanılarak Varlık İsmi Tanıma ve Sözcük Türü İşaretleme problemleri için uygulanmıştır. Sonuçlar, kelimelerin morfem bilgisinin kullanılmasının Türkçede dizi etiketlemeyi iyileştirdiğini göstermektedir. Ayrıca kelime dizilerinin etiketlerini bulurken komşu kelimelerin bilgilerinden de yararlanılarak doğruluğu daha yüksek sonuçlar elde edilmiştir Because of the inflection of many word forms from the same root in agglutinative languages such as Turkish, modeling the words as a whole causes sparsity problem. Therefore, rather than handling the word as a whole, expressing a word through its characters or considering the morpheme and morpheme label information gives more detailed information about the word and therefore mitigates the sparsity problem.In this study, a model using deep neural networks is proposed for the sequence labeling task in Turkish. To cope with the sparsity problem, character and morpheme information is used and the effect of this information on sequence labeling problem is examined. The existing deep learning models are applied using different word or sub-word representations for Named Entity Recognition (NER) and Part-of-Speech Tagging (POS Tagging) in Turkish. The results show that using morpheme information improves the sequence labelling in Turkish. Moreover, more accurate results are obtained by using the contextual information in the model.
Collections