Social media text classification for crisis management
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Son yıllarda bazı felaketlerin etkilerini önlemeye veya azaltmaya yardımcı olmak için durumsal farkındalık sağlamak amacıyla, herkesin erişimine açık olarak bulunan büyük miktarda veri üzerinde veri madenciliğine büyük önem verildi. Bu çalışmada, Türk dilini tam olarak destekleyen etkin bir Evrişimsel Sinir Ağları (CNN) tweet sınıflandırma sistemi geliştirilmiştir. Ayrıca, kriz yanıtına yönelik ilk Türk tweet veri seti oluşturulmuştur. Bu veri seti dikkatlice önceden işlenmiş, açıklamalı, iyi organize edilmiş ve iyi bilinen tüm Doğal Dil İşleme araçları tarafından kullanılmaya uygundur. Ayrıca, bazı iyi bilinen makine öğrenme algoritmalarının, örneğin K-En Yakın Komşu (KNN), Naive Bayes (NB), Rastgele Orman (RF), AdaBoost Sınıflandırıcı (AdaBoost) ve GradientBoosting Sınıflandırıcı (GBC) algoritmalarının metin (tweet) sınıflandırması konusundaki performansını araştırmak için deneyler yapılmıştır. Ardından, Rastgele Orman (RF), AdaBoost Sınıflandırıcı (AdaBoost) ve GradientBoosting Sınıflandırıcı (GBC) topluluk (ensemble) sistemlerinin metin sınıflandırması konusundaki performansları da gözlenmiştir.Geliştirilen sistemin performansını ve seçilen makine öğrenme algoritmalarını araştırmak için geniş bir deney yelpazesi yapıldı. Sonuç olarak, geliştirilen yaklaşım hem Türkçe hem de İngilizce dillerini işlerken çok iyi performans, sağlamlık ve istikrar elde etti.Anahtar Kelimeler: Kriz Yönetim Sistemleri; Tweet Sınıflandırması; Türk Dili; Evrişimsel Sinir Ağları; Doğal Dil İşleme. In recent years, impressive attention has been given for mining the publically available huge amount of data to gain situational awareness, which may help in preventing or decrease the effect of some disaster by taking the correct responses. In this study, an effective Convolutional Neural Networks (CNN) tweet classification system that fully supports the Turkish language has been developed. In addition, the first-ever Turkish tweet dataset for crisis response is created. This dataset has been carefully preprocessed, annotated, well organized and suitable to be used by all the well-known natural language processing tools. Furthermore, the performance of some well-known machine learning algorithms, i.e., K-Nearest Neighbor (KNN), Naive Bayes (NB), and Support Vector Machine(SVM) was investigated. Then, the performances of the ensemble systems Random Forest (RF), AdaBoost Classifier (AdaBoost), GradientBoosting Classifier (GBC), when used for text (tweets) classification, has been also observed.A wide range of experiments was performed to investigate the performance of the developed system. As a result, the developed approach has achieved very good performance, robustness, and stability when processing both Turkish and English languages. Key Words: Crises Management Systems; Tweet Classification; Turkish language; Convolutional Neural Networks; Natural Language Processing.
Collections