A feature based simple machine learning approach with word embeddings to named entity recognition on tweets
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
İnternetin ve özellikle de mobil platformların yaygınlaşmasıyla günümüzde çok büyük miktarda veri üretilmeye başlanmıştır. Bu miktardaki veriden anlamlı bilgi çıkarmak –özellikle anlık olarak- insan gücüyle mümkün olamamaktadır. Bu sebeple veri madenciliği bilimi ortaya çıkmıştır. Veri madenciliğinde makine öğrenmesi algoritmaları kullanılmaktadır.Makine öğrenmesinin uygulama alanları oldukça geniştir. İstenmeyen (spam) maillerin tahmini, maillerin otomatik olarak gruplanması (birincil, sosyal, güncellemeler vb ..), kredi kartı veya hesap hareketlerinde anomali tespiti, ses tanıma, verilen resimde veya videoda yüz/yaş tanıma/anlama, müşterilere ürün önerme, hastalık teşhisi, şekil tanıma gibi popüler örnekler mevcuttur.Makine öğrenmesi algoritmaları genel anlamda gözetimli ve gözetimsiz öğrenme olarak 2'ye ayrılır. Gözetimli öğrenmede çalışılan veriden çıkarılacak bilgi (etiket) önceden bellidir. Yani; belirli girdiler verilince çıkacak sonucu algoritmaya veririz. Algoritma yeterli miktarda veriyle veri kümesini tanıdıktan sonra yeni girdilerle çıkacak sonucu tahmin eder. Gözetimsiz öğrenmede ise tahmin edeceği bilgiler önceden belli değildir, algoritma bu bilgiyi de tahmin eder.Kavram Tanıma doğal dil işlemede uzun süredir çalışılan bir alandır. Stanford NER gibi geleneksel yöntemler resmi ve gramer olarak düzgün verilerde çok iyi sonuçlar vermektedir. Fakat bu sistemler sosyal medya gibi kısaltmaların ve dil yanlışlarının çok olduğu verilerde iyi sonuçlar vermemektedir.Bu çalışmada gözetimli öğrenme algoritmaları kullanılmıştır. Veri kümesi olarak sosyal medya uygulaması Twitter verileri kullanılmıştır. Bu tür çalışmalarda en büyük zorluklar veri kümesi bulma ve bulunan veriyi temizleme işlemleridir. Bu işlemlerin çalışma zamanının %80'inden fazlasını aldığı söylenir. Bu çalışmada mikro blog (Twitter) verilerinde kavram tanıma/çıkarma işlemi yapılmıştır. Verilen 140 karakter içinden kişi, organizasyon, lokasyon, ürün, olay ve karakter bilgileri tahmin edilmeye çalışılmıştır. Veri kümesi olarak 2016 yılında yapılan NEEL konferansı verileri kullanılmıştır. Önerdiğimiz sistemin sonuçları da aynı konferanstaki sonuçlarla karşılaştırılmıştır. Konferans datası tweet id'lerini kapsamaktadır. Id'ler üzerinden tweetlerin text kısmına ulaşılmıştır. Bu konferansın üstünden yaklaşık bir yıl geçtiği için, verilen id'lerdeki hesapların kapanması veya tweet'lerin gizli duruma geçmesi yüzünden veri kümesinin yaklaşık yarısına ulaşabilmiştir. Konferans sahiplerine ve konferansta sonuçlarını karşılaştırdığımız gruplardan data talebimiz de ya hiç cevaplanmamış ya da olumsuz dönüşler alınmıştır. Sistemimizin değerlendirilmesi yapılırken özellikle algoritmaların eğitilme kısmında diğer gruplara göre eksik veriyle çalışmamız performansımızı olumsuz yönde etkilemiştir.Ayrıca diğer grupların değerlendirme kriterleri yayınladıkları makalelerde ayrıntılı anlatılmadığı için karşılaştırmalarımızı bazı varsayımlarda bulunup yapmamıza sebep olmuştur. Grupların değerlendirme kriterleriyle ayrıntılı bilgi taleplerimiz de ya hiç cevaplanmamış ya da gizlilik politikaları gereği bilgi verilmemiştir.Sosyal medya yani resmi olmayan verilerde çalışma zorluğu herhangi bir dil kuralına uyulmaması ve verinin dikkat çekmesi, vurgulanması amacıyla veya yer kısıtı olmasından kısaltmalar kullanılması çalışmayı zorlaştıran başlıca etmenlerdir. Veri kümesi ingilizce tweet'lerden oluşmaktadır. Kavram tanıma için uzun yıllardır üstünde çalışılan gazete, dergi verilerinde oldukça yüksek performans sağlayan algoritmalar geliştirilmiştir. Fakat bu algoritmalar gündelik dille yazılan yukarıda bahsedilen tipte veriler için düşük performanslar vermektedir. Bu sebeple bu veri tiplerine özgü olarak yeni sistemler geliştirmek gerekmektedir. Bu çalışmada bu sorun üstüne yoğunlaşılmıştır.Çalışmada temel olarak 2 etapta deneyler yapılmıştır. İlk etapta; algoritmalara input olarak kelime uzunlukları, büyük/küçük harf ile başlama, emoji, hashtag, mention kullanımı, sesli/sessiz harf oranı vb gibi çok sayıda özellik verilmiştir. Bu özellik kümeleriyle yapılan çok sayıda deneylerde kayda değer bir iyileşme görülmemiştir. İkinci etapta önceki özelliklere ek olarak; Word2Vec özelliği kullanılmıştır. Bu özellikle beraber algoritmada yüksek oranda iyileşme gözlemlenmiştir. Yapılan deney sonuçlarına göre 2016 NEEL konferansına katılıp bu veri kümesini kullanan 3 çalışmadan 2'sinden daha iyi sonuç alınmıştır. With the widespread use of the internet and especially the mobile platforms, data is now being produced to a large extent. It is not possible to produce meaningful information on this quantity of data with human power. For this reason, knowledge of data mining has emerged. Machine learning algorithms are used in data mining.The application areas of machine learning are quite extensive. These are estimation of unwanted (spam) mails, automatic grouping of mails (primary, social, updates etc.), identification of anomalies in credit card or account movements, voice recognition, face/age recognition in the given picture or video, product recommendation to customers and shape recognition.Machine learning algorithms are generally divided into two as supervised and unsupervised learning. The information (label) to be extracted from the obligation to supervised learning is known in advance. We give the resultant algorithm that will output when certain inputs are given. The algorithm predicts the result with enough data to recognize the data set and then outputs with new entries. In the case of unsupervised learning, the information to be predicted is not known in advance, and the algorithm predicts this information too.Named Entity Recognition (NER) is a well-studied domain in Natural Language Processing (NLP). Traditional NER systems, such as Stanford NER system, achieve high performance with formal and good grammatically well-structured texts. However, when these systems are applied to informal and noisy texts, which have mixed language with emoticons or abbreviations, there is a significant degradation in results. Supervised learning algorithms are used in this study. The social media application Twitter data is used as the data set. The biggest challenges in such studies are data collection and data cleansing. It is said that these processes have received more than 80% of the study.In this study, Named Entity Recognition process was performed on micro blog (Twitter) data. Person, organization, location, product, event and character information were tried to be predicted from the given 140 characters. The data set of the NEEL conference held in 2016 was used. The results of the proposed system are also compared with the results in the same conference. The conference data includes tweet ids. The texts of the tweets are reached via the ids. Since about a year has passed since this conference, the accounts in the given ids have been able to reach nearly half of the data set due to closure of the accounts, or because the tweets are confidential. Data requests from groups that we have compared conference owners and conference results have either never been answered or negative feedbacks have been received. When evaluating our system, especially our performance in the trained part of the algorithms, we have had a negative effect on our performance.In addition, the evaluation criteria of other groups have not been explained in detail in the articles they published, leading to some assumptions. Our group's evaluation criteria and detailed information requests were either unanswered or not informed of their privacy policy requirements.The difficulty of working in social media, i.e. non-official data, is a major factor that makes it difficult to work because any language rules are not respected and abbreviations are used in order to highlight, emphasize, or limit space. The dataset consists of English tweets. Algorithms have been developed to provide very high performance on newspaper and journal data, which have been working on named entity recognition for many years. However, these algorithms give poor performances for the above-mentioned type of data written in everyday diction. For this reason, it is necessary to develop new systems specific to these data types. This work focuses on this problem.In the study, basically two main experiments were carried out. In the first stage; Algorithm input has many features such as word lengths, starting with capital letters, emoji, hashtag, mention use, consonant/vowel letters etc. No significant improvement has been observed in a large number of experiments with this feature set. In addition to the previous features in the second stage; The Word2Vec feature is used. Along with this feature, a high degree of healing is observed in the algorithm.According to the results of the experiments, it was better than 2 out of 3 studies using this dataset by participating in the 2016 NEEL conference.Keywords: Named Entity Recognition, Information Extraction, Word2Vec, Social Media, Informal Texts, Twitter
Collections