Head finalization and morphological analysis in factored phrase-based statistical machine translation from english to turkish
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Makine Çevirisi, bir metni bir doğal dilden başka bir doğal dile yazılımlar yardımıyla çevirmekle uğraşan bir çalışma alanıdır. İstatistiksel Makine Çevirisi ise bu işi istatistiksel metotlar ve paralel metinleri kullanarak yapar. Bu çalışmada, İngilizceden Türkçeye çeviri için bir yaklaşım tanıtılmıştır. Türkçe sondan eklemeli ve serbest öğe sıralı bir dildir, aksine İngilizce sondan eklemeli olmayan ve katı bir öğe sıralaması olan bir dildir. Bu farklılıkların yanında, iki dil arasındaki paralel metin eksikliği, bu iki dil arasında istatistiksel makine çevirisini zor bir problem haline getirmektedir. Şimdiye kadar, bu iki dil için yapılan çalışma ve araştırmaların çoğu, iki dili de ek-düzeyinde çalışmak gerektiğini önerir. Bu çalışmanın farkı, sadece İngilizce ve Türkçeyi ek-düzeyinde çalışması değil aynı zamanda dilbilgisel açıdan Türkçeye yakın diller için daha önce başarıyla kullanılmış olan farklı bir yeniden sıralama tekniği uygulamasıdır. Bu teknik Baş Sonlandırma tekniğidir. Bu çalışmada sonuçları raporlamak için BLEU ölçüsü kullanılır. Yeniden sıralamada ve ek-düzeyinde yapılan çalışmalarda elde edilen gelişmelerle BLEU skorumuzu 19.62'den 30.93'ye çıkararak /%57'lik bir artış sağladık. Bu sonuçlar Türkçe'ye kelime dizilişi bakımından, biçimbilgisel açıdan ve sondan eklenme açısından benzerlik gösteren diğer dillere de başarıyla uygulanabilir. Machine Translation is a field of study which deals with translating text from one natural language to another automatically. Statistical Machine Translation generates the translations using statistical methods and bilingual text corpora. In this study, an approach for translating from English to Turkish is introduced. Turkish is an agglutinative language with a free constituent order, whereas English is not agglutinative and the constituent order is strict. Besides these differences, there is a lack of parallel corpora for this language pair which makes SMT a challenging problem. Up to now, most of the work and research done for this language pair suggest representing the languages at the morpheme-level. The difference of this study is not only representing English and Turkish at morpheme-level but also applying a different reordering technique which was successfully used for other languages, which are grammatically similar to Turkish. The technique is called Head Finalization. To report the results of this study, BLEU metric is used. With improvements in reordering and morpheme-level representation, we have increased our BLEU score from a baseline score of 19.62 to 30.93, which corresponds to an increase of 57/%. The experiments can be successfully applied to other languages which are close to Turkish in terms of word order, morphological structure and suffixation.
Collections