Paraphrase extraction from parallel news corpora
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bir idafenin farklı sözcükler ve/veya grammer yapıları ile açıklanlamasına `açımlama' denir.Buna bir örnek şöyledir: ?Ali problemi çözdü.? ve ?Ali probleme çözüm buldu.? Bu tipaçımlamaları yakalayıp gruplamaya ise `açımlama çıkarma' denir. Açımlama veritabanlarıSoru Cevaplama Sistemleri, Metin Özetleme Sistemleri ve Otomatik Dil Çeviricileri için çokyararlı yapılardır. Örneğin, Soru Cevaplama Sistemleri soru yapısını farklı açımlamalar ileçoğaltıp anımsamasını yükseltebilir. Açımlama çıkarmak için ilk önce aynı olaydan bahsedenfarklı gazeteciler tarafından yazılmış farklı haber yazılarını eşleştiriyoruz. Daha sonra buhaber ikilileri içerisinde en çok benzeşen cümleleri yakalayıp eşleştiriyoruz. Son olarak bucümle ikililerinin içerisinde eşleşen açımlamalar bulmaya çalışıyoruz. Aynı olaydan bahsedenhaber yazıları bulma kesinlilik ortalamamız sıkı notlandırma ile 0.56, rahat notlandırma ile0.70. Cümle eşleme için 9 farklı ölçüm yöntemi denedik. Her ne kadar ortak kelime saymayöntemi, cümle eşlemede, ortalama n-gram kesinlilik ölçme yönteminden daha yüksekkesinlilik değerleri verdi ise de ikinci yöntem daha yararlı açımlamalar elde etti. Sadece doğruhaber ikileri ile sistem çalıştırıldığında 0.66 kesinlilik elde edildi. Different expressions of the same statement is said to be paraphrases of each other. Anexample is the phrases 'solved' and 'found a solution to' in 'Alice solved the problem' and'Alice found a solution to the problem'. Paraphrase Extraction is the method of finding andgrouping such paraphrases from free text. Finding equivalent paraphrases and structures canbe very beneficial in a number of NLP applications, such as Question Answering, MachineTranslation, and Multi-text Summarization, e.g. in Question Answering, alternative questionscan be created using alternative paraphrases. We attack the problem by first grouping newsarticles that describe the same event and then collecting sentence pairs from these articles thatare semantically close to each other, and then finally extracting paraphrases out of thesesentence pairs to learn paraphrase structures. The precision of finding two equivalentdocuments turned out to be 0.56 and 0.70 on average, when matching criterion was strict andflexible, respectively. We tried 9 different evaluation techniques for sentence-level matching.Although, exact word match count approach had a better precision value than the n-gramprecision count approaches, paraphrase extraction phase shows that the latter approachescatch sentence pairs with higher quality pairs for paraphrase extraction. Our system canextract paraphrases with 0.66 precision when only equivalent document pairs are used as atest set.
Collections