Question analysis and information retrieval for a Turkish question answering system: Hazırcevap
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bu çalışmada lise öğrencilerinin eğitimlerine yardımcı olması içingeliştirilen kapalı-alan Türkçe tek cevaplı Soru Cevaplama (SC)sisteminin inşasında tasarlanan soru analizi ve bilgi çıkarımı (BÇ)modülleri için geliştirilmiş teknikler anlatılmakta vedeğerlendirilmektedir. Verilen bir soruda tam olarak neyin sorulduğuve cevaplamanın ne şekilde yapılması gerektiğini belirlemek içinsorudan gerekli bilgileri çıkartan soru analizi, bir soru cevaplamasisteminin en önemli parçalarından biridir. Bu nedenle bu çalışmadasoru analizindeki en önemli iki problem olan odak çıkarımı ve sorusınıflandırılması problemlerine, kural tabanlı ve Saklı Markov Modeli(SMM) tabanlı modellerin sentezinden oluşan ve sorudaki kelimelerarasındaki bağlılık ilişkilerini kullanan çözümler sunulmuştur. Ekolarak bir SC sisteminin bir başka önemli modülü olak BÇ modülü deincelenmiş, ve içerisinde verilen sorunun cevabının aranacağı ilgilibilgileri kümesinin verimli bir şekilde çıkartılması için de tekniklerönerilmiştir. BÇ modülü, soru ile ilgili döküman ve pasajları Indri veApache Lucene arama motorlarını kullanarak bulmayaçalışmaktadır. Sunulan çözümler, üzerine sadece cevap modülününeklenmesiyle tam bir SC sisteminin oluşturulabileceği bir altyapıoluşturmaktadır. Önerilen tüm çözümlerin karşılaştırmalı deneyleri,baz modelleri ile birlikte sunulmuştur. Bu çalışmada aynı zamanda,elle toplanıp işaretlenmiş Türkçe standard veri kümesi, bu alanda dahasonraki araştırmalarda kullanılmak üzere genel kullanıma açılmıştır. This study describes and evaluates the techniques we developed for thequestion analysis and information retrieval (IR) module of aclosed-domain Turkish factoid Question Answering (QA) system that isintended for high-school students to support their education. Questionanalysis, which involves analyzing the questions to extract thenecessary information for determining what is being asked and how toapproach answering it, is one of the most crucial components of a QAsystem. Therefore, we propose novel methods for two major problems inquestion analysis, namely focus extraction and questionclassification, based on integrating a rule-based and a Hidden MarkovModel (HMM) based sequence classification approach, both of which makeuse of the dependency relations among the words in the question. Wealso investigate the IR module, which is another critical aspect of aQA system, and introduce the IR module to efficiently gather therelevant information to a given question, with which the answer willbe determined. IR module searches for the relevant documents andpassages through the combined use of search engines Indri and ApacheLucene. Solution to these problems constitute the framework, on top ofwhich a whole QA system can easily be built with only an addition ofan answering module. Comparisons of all solutions with baselinemodels are provided. This study also offers a manually collected andannotated gold standard data set for further research in this area.
Collections