Evaluation of online translation services` output quality
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Sosyal, çoklu ortam ve eğitim gibi pek çok sahada insanlar yabancı kaynaklardaki yeni bilgilere her zamankinden daha fazla öğrenme ihtiyacı duyuyorlar. Her insan yabancı bir dile bir uzman kadar hâkim olamayabilir. Bu durum insanlara metinlerin doğru tercümelerinin otomatik olarak ya da insan eliyle sağlanmasını gerektiriyor. Her metin insan eliyle ani ve hızlı bir şekilde çevrilemez. Her metne doğru tercüme hazırlamak uzmanlar için zor, masraflı ve uzun zaman alan bir iş yüküdür. Makineler ise bize yaklaşık bir tercüme vermektedirler fakat doğruluk seviyeleri bilinmemektedir.Bu araştırmada, makine tercüme servislerinin çıktı kalitesinin değerlendirme karşılaştırması, kaynak cümle ve insan referans tercümesini içeren iki dilli Türkçe ve İngilizce cümle çiftleri üzerinde uygulanmıştır. Bu cümle çiftlerinin bazıları eğitim ve diğer kalan kısmı teyit testleri için kullanılmıştır. Daha iyi bir değerlendirme beklenildiği için, cümle çeşitlerine ve kelime uzunluklarına göre sınıflandırmak için ayrılan cümleler, kaynak ve insan referans tercüme cümlesi içeren 4 temel farklı iki dilli cümle kaynağından alınmıştır. Cümleler Bulma (Precision), Duyarlılık (Recall), Bleu, Meteor, vb. popüler değerlendirme ölçüleri, özellikle Türkçe gibi bitişken dillere uygun olan Bleu+ kullanılarak meşhur Google, Bing ve Yandex gibi çevrimiçi makine tercüme servislerinin çıktı kalitesini ölçmek için karşılaştırılmıştır. Devamında bu otomatik değerlendirme ölçütleri uzman görüşü yorumları ile karşılaştırılarak daha iyi bir otomatik ölçümün nasıl yapılabileceği tespit edilmeye çalışılmıştır. In many environments such as social, multimedia, education, news, politics, etc. people need to learn more about new information from foreign sources more than past. Since everybody cannot know any foreign language as well as an expert, they need to obtain meaning of texts from computers with correct translation of texts immediately or by human support manually. Every text cannot be translated by human labor immediately and fast. Preparing correct translation for every text is hard, cost is high and it takes so long time for experts. Computers provide candidate translations but their correctness levels are unknown.In this research, a comparative evaluation about output quality of online machine translation services was performed on a dataset collected from a randomly selected bilingual sentence pairs in English and Turkish languages. Some sentences are used for training and others are used for verification. Sentences are categorized based on their structure types and statistical analysis on word counts done for better evaluation results, coming from 4 different essential bilingual corpora, which contain source and human reference translation sentence. They are compared with sentences coming from popular online translation services Google, Bing and Yandex using some most popular and successful evaluation methods such as Precision, Recall, Bleu, Meteor and Bleu+, which is an eligible approach for agglutinative languages like Turkish. Then, human evaluation comparison tests were done to compare the human approach and automatic evaluation results to measure output quality of online machine translation services better correlated with expert judgment.
Collections