Neural text normalization for Turkish social media
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Sosyal medya, dünya çapında yaygın kullanımı ile doğal dil işleme çalışmaları için zengin bir veri kaynağı haline gelmiştir; Bununla birlikte, kuralsız metinlerde oluşan doğası nedeniyle dil çalışmalarında sosyal medya verilerini doğrudan kullanabilmek oldukça zordur. Hatalı yazılmış bir metni doğru yazılmış haline dönüştürme işlemine metin normalleştirme denir. Metin normalleştirme çoğunlukla diğer doğal dil işleme çalışmalarında ön hazırlık işlemi olarak görev alır ve metinlerin doğru yazılmış halleri üzerinden yapılan çalışmalarda başarı oranı daha yüksek olur. Bu çalışma kapsamında Türkçe metin normalleştirme görevi için iki farklı yaklaşım uygulanmaktadır: Kodlayıcı-kod çözücü (encoder-decoder) yapay sinir ağları modeli kullanılarak diziden diziye (sequence-to-sequence) normalleştirme yaklaşımını ve sözcüklerin dağıtık temsilleri (distributed representation of words) kullanılarak bağlamsal normalleştirme yaklaşımı ile metin normalleştirme görevi gerçekleştirilmiştir. Türkçeye ve diğer dillere uygulanan mevcut yaklaşımlar çoğunlukla alana yönelik, kural tabanlı ya da kademeli normalleştirme kurallarının izlendiği çalışmalar olduğundan, sosyal medyada dil kullanım alışkanlığının değişmesi bu çalışmaların verimini ve başarı oranını düşürmektedir. Bu nedenle önerilen yöntemler sosyal medyada dil kullanımındaki değişikliklerden etkilenmeyen daha kapsamlı bir çözüm sunmaktadır. Social media has become a rich data source for natural language processing tasks with itsworldwide use; however, it is hard to process social media data directly in language studiesdue to its unformatted nature. Text normalization is the task of transforming the noisy textinto its canonical form. It generally serves as a preprocessing task in other NLP tasks thatare applied to noisy text and the success rate gets higher when studies are performed oncanonical text.In this study, two neural approaches are applied for Turkish text normalization task: ContextualNormalization approach using distributed representations of words and Sequence-to-Sequence Normalization approach using encoder-decoder neural networks. As the conventionalapproaches applied to Turkish and also other languages are mostly domain specific,rule-based or cascaded, they are already becoming less efficient and less successful due tothe change of the language use in social media. Therefore the proposed methods providemore comprehensive solution that are not sensitive to the language change in social media.
Collections