Evaluation of cosine similarity feature results with different experimental setups for named entity recognition on tweets
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Sosyal medya günlük hayatımızın hızla büyüyen bir parçası olmuştur. Soayal medya kullanımının artışı ile birlikte her gçen gün muazzam büyüklükte bir içerik oluşmakta ve bu içerik hem araştırmacıların hem de iş dünyasının dikkatini çekmektedir. Bu boyuttaki veri ile çalışmak ve anlamlı sonuçlar elde etmek için bilgisayarların işlem gücüne ihtiyaç duyulmaktadır. Bu noktada da makine öğrenme yaklaşımları geliştirilerek probmlemlere çözüm üretilmesi hedeflenmektedir.Doğal Dil İşleme, yapay zeka uygulamalarının bir alt kategorisidir ve bilgisayar ile insan arasındaki etkileşimi dil üzerinden çözmeye odaklanır. Doğal Dil İşleme'de, Makine öğrenmesi uygulamalarının yardımıyla, metinleri parçalara ayırma, sınıflandırma, duygu analizi yapma, varlık ismi tanımlama gibi işlemler yapılabilmektedir. Gazete, makale, kitap gibi düzgün yapıdaki metinlerde bu çalışmalar başarılı sonuçlar verirken sosyal medyadan elde edilen içerikleri işlemek farklı zorlukları da beraberinde getirmektedir. Bu tarz metinler içerisinde pek çok gramer hatası, kısaltma, emoji ve çoklu dil kullanımı bulundurması sebebiyle öngörülemez ve zorludur.Twitter en çok kullanılan mikro blog sosyal medya platformlarından biridir. Kişisel metin paylaşımlarının yanı sıra, belli bir konuda ve başlık altında da içerik paylaşımları yapılabilmektedir. Bu yönüyle Twitter değerli ve ilgi çekici bir veri kaynağı haline gelmiştir. Bu karşın karakter kısıtlaması ve gündelik dil kullanımı ve emoji kullanımı gibi sebeplerden ötürü sahip olduğu veri yapısal olarak karmaşıktır.Bu çalışmada, temel sınıflandırma algoritmaları kullanılarak mikro blog verisi üzerinde varlık ismi tanımlama sistemi sunulmaktadır. Kosinüs benzerliği özelliğini geliştirerek, tüm temel sınıflandırma algoritmaları üzerinde farklı özellik kümeleri ile birlikte uyguluyoruz. Çalışmalarımızın sonuçları %74 hassasiyet, %68 duyarlılık ve %67 F1 skoru ile Named Entity rEcognition and Linking (NEEL) 2016 Challenge veri kümesi üzerinde alınmıştır.Bununla birlikte, çalışmamızı farklı dağılımlarda ve özelliklerdeki 2 veri kümeri üzerinde de genişlettik. Birinci veri kümemiz Oxtractor isimli bir start-up firmasında aittir. Veri kümesi `Kişi`, `Organizasyon` ve `Konum` bilgi etiketlerini içermektedir. İkinci veri kümesi ise Twitter belli başlıklarda konular üzerinden etiketlediğimiz kendi setimizdir. Bu veri kümesi içerisinde `Kişi`, `Varlık`, `Organizasyon`, `Konum`, `Ürün`, `Etkinlik` ve `Karakter` etiketleri bulunmaktadır. Elde ettiğimiz tüm tahminleme sonuçlarını karşılaştırdığımızda `Logistic regression`, `SVM` ve `Random forest` sınıflandırma algoritmalarının yaklaşımımızda en yüksek sonuçları ürettiğini gözlemledir. Farklı özellik kombinasyonlarındaki sonuçlar incelendiğinde ise yardımcı özelliklerin kosinüs benzerliği özelliğinin sonuçlarına kayda değer bir katkısı olmadığı gözlenmiştir. Varlık isim kümesinin çeşitliliği kosinüs benzerliği özelliği için ayırıcı bir faktör olarak görünmektedir.Son olarak, veri kümelerini 90/10'dan 50/50'ye kadar değişen oranlarda öğrenme/test etme bölümlerine ayırdığımızda kosinüs benzerliği özelliği kullanılan çalışmaların sonuçlarında dikkate değer farkların oluşmadığı gözlemlenmiştir. Today, social media is a huge part of our world and it continues to grow exponentially. Enormous content is being created with these platforms and it draws the attention of people for personal and professional levels. However, extracting meaningful information from this volume of content with human capabilities is not possible. Machine learning approaches are used to solve this problem with the help of computer power.Natural Language Processing (NLP) is a branch of artificial intelligence which is focused on interacting humans and computers using the natural language. By the aid of machine learning, NLP can achieve tasks from text such as tokenization, classification, sentiment analysis, Named Entity Recognition (NER). These tasks are producing successful results for well-structured texts like newspapers, articles, and books yet, working with unstructured texts from social media are challenging. These types of texts contain emoticons, abbreviations, grammar mistakes, and code-switching making data unpredictable and dirty.Twitter is one of the most popular microblog among social media platforms. It provides texts which are publicly posted and contains topic-specific opinions. It is a valuable source for collecting data. On the other hand, the content is unstructured because of character limitation and casual writing.In this study, we present an NER system and we evaluate baseline classifiers for unstructured texts. We develop cosine similarity feature and we evaluate and test each classifier subject to different combinations of features with cosine similarity. Our experimental results show that the presented system is reached at 74% level in precision, 68% in recall and 67% in F1 (micro average), respectively for Named Entity rEcognition and Linking (NEEL) 2016 Challenge dataset. The corpus is created from Twitter.In addition, we evaluate our system with 2 different datasets with different label distribution and types. One dataset is coming from a startup company named Oxtractor. It has 3 label types; `Person`, `Organization`, and `Location`. Also, we present dataset which is labeled manually from specific topics of tweets. It has 7 types of the label; Person`, `Thing`, `Organization`, `Location`, `Product`, `Event`, and `Character`. We compare the prediction results and try to find the best fitting classifiers and feature sets. Logistic regression, SVM, and Random forest are producing the highest results with cosine similarity feature. The results are obtained with different feature sets shows that supportive features for cosine similarly do not impact the results significantly. The diversity of named entity is distinctive when working with cosine similarity feature.Finally, we compare prediction results with different testing/training split ratios for the manually labeled dataset from 90/10 to 50/50. The cosine similarity feature does not affect the split ratio remarkably.Keywords: Named entity recognition, Information Extraction, Twitter, Word embedding, Classification, Machine learning, Cosine Similarity.
Collections