Neural text normalization for Turkish social media

Göker, Sinan

View/Open

File_10202623 (5.029Mb)

Date

2018

Author

Göker, Sinan

Metadata

Show full item record

Abstract

Sosyal medya, dünya çapında yaygın kullanımı ile doğal dil işleme çalışmaları için zengin bir veri kaynağı haline gelmiştir; Bununla birlikte, kuralsız metinlerde oluşan doğası nedeniyle dil çalışmalarında sosyal medya verilerini doğrudan kullanabilmek oldukça zordur. Hatalı yazılmış bir metni doğru yazılmış haline dönüştürme işlemine metin normalleştirme denir. Metin normalleştirme çoğunlukla diğer doğal dil işleme çalışmalarında ön hazırlık işlemi olarak görev alır ve metinlerin doğru yazılmış halleri üzerinden yapılan çalışmalarda başarı oranı daha yüksek olur. Bu çalışma kapsamında Türkçe metin normalleştirme görevi için iki farklı yaklaşım uygulanmaktadır: Kodlayıcı-kod çözücü (encoder-decoder) yapay sinir ağları modeli kullanılarak diziden diziye (sequence-to-sequence) normalleştirme yaklaşımını ve sözcüklerin dağıtık temsilleri (distributed representation of words) kullanılarak bağlamsal normalleştirme yaklaşımı ile metin normalleştirme görevi gerçekleştirilmiştir. Türkçeye ve diğer dillere uygulanan mevcut yaklaşımlar çoğunlukla alana yönelik, kural tabanlı ya da kademeli normalleştirme kurallarının izlendiği çalışmalar olduğundan, sosyal medyada dil kullanım alışkanlığının değişmesi bu çalışmaların verimini ve başarı oranını düşürmektedir. Bu nedenle önerilen yöntemler sosyal medyada dil kullanımındaki değişikliklerden etkilenmeyen daha kapsamlı bir çözüm sunmaktadır.

Social media has become a rich data source for natural language processing tasks with itsworldwide use; however, it is hard to process social media data directly in language studiesdue to its unformatted nature. Text normalization is the task of transforming the noisy textinto its canonical form. It generally serves as a preprocessing task in other NLP tasks thatare applied to noisy text and the success rate gets higher when studies are performed oncanonical text.In this study, two neural approaches are applied for Turkish text normalization task: ContextualNormalization approach using distributed representations of words and Sequence-to-Sequence Normalization approach using encoder-decoder neural networks. As the conventionalapproaches applied to Turkish and also other languages are mostly domain specific,rule-based or cascaded, they are already becoming less efficient and less successful due tothe change of the language use in social media. Therefore the proposed methods providemore comprehensive solution that are not sensitive to the language change in social media.

URI

https://acikbilim.yok.gov.tr/handle/20.500.12812/473857

Collections

TEZLER

Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess