Assessment of the Turkish Discourse Bank and a cascaded model to automatically identify discursive phrasal expressions in Turkish
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bu doktora tezi söylem bağıntılarını açıkça ifade eden söylem bağlaçlarının belirlendiği ve birbiri ile ilişkilendirdiği iki üyesi ile beraber işaretlendiği bir dilbilimsel kaynak olan ODTÜ Metin Düzeyinde İşaretlenmiş Derlem'in (ODTÜ-MEDİD) kapsamlı değerlendirmesi için bir yöntem sunmaktadır. Bu çalışmada söz konusu Türkçe söylem kaynağının güvenilirliğini ortaya koymak amacıyla ODTÜ-MEDİD'in niceliksel ve niteliksel bir değerlendirmesi sunulmakta ve burada kullandığımız yöntemin diğer işaretlenmiş derlemlerin güvenilirlik değerlendirmeleri için kullanılabileceği önerilmektedir. Niceliksel değerlendirmemiz Kappa uyum istatistiği kullanılarak detaylı istatistiksel ölçütlerin ve daha önce bilgi erişim sistemlerinin değerlendirmesinde kullanılan bir takım ek değerlendiricilerin hesaplanmasını içermektedir. Uyum istatistiklerinin hesaplanmasında iki yönlü bir yöntem önerilmektedir: bir Ortak Üye yaklaşımı ve bir Kapsamlı yaklaşım. Kapsamlı yaklaşım tek başına etkili olsa da, uyumsuzluk kaynaklarının daha etkin bir biçimde saptanmasını sağlamak amacıyla bu iki yaklaşımın karşılaştırılması önerilmektedir. Niteliksel değerlendirmemiz kapsamında ise ODTÜ-MEDİD'te sistemli olarak söylem bağlaçları ile birlikte işaretlenen deyimsel ifadelerin metin düzeyinde kullanımlarının herhangi bir Türkçe metin üzerinde otomatik olarak tanımlanmasını sağlayan özgün bir girişim sunulmaktadır. Kademeli modelimiz tam geri çağırma ve %99.95 doğruluk sağlamaktadır. Bu modelin ODTÜ-MEDİD'in kapsama alanını geliştirmek için rahatlıkla kullanılabileceği öngörülmektedir. This thesis presents a methodology for an overall assessment of the Turkish Discourse Bank (TDB), a linguistic resource where discourse relations overtly expressed by discourse connectives have been identified and annotated with the two arguments they relate. We provide a quantitative and qualitative assessment of the TDB in order to establish the reliability of this discourse resource for Turkish and suggest that our methodology can be utilized for reliability evaluations of other annotated corpora. Our quantitative evaluation consists of calculating in depth statistical measures using the Kappa statistic and extra evaluators originally used in evaluating information retrieval systems. A two-way methodology for calculating the agreement statistics is proposed: a Common Arguments approach and an Overall approach. Although the Overall approach is effective on its own, we propose a comparison of these two approaches, which enables to pin point sources of disagreements more accurately. As part of our qualitative evaluation we present a novel effort to automatically identify discursive uses of phrasal expressions that have been annotated systematically alongside explicit discourse connectives in the TDB, given any Turkish text. Our cascaded model, outperforms all previous and baseline models achieving full recall and providing 99.95% accuracy, and can be utilized to effortlessly enlarge the coverage of the TDB.
Collections