Metin madenciliği teknikleri ile sosyal medya gönderilerinin analiz edilmesi: ankilozan spondilit hastalığı örneği
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Teknoloji kullanımın her geçen gün artması ile birlikte sosyal medya ve internetkullanımı hızla yaygınlaşmaktadır. Özellikle sosyal medya kullananların sayısınınartmasıyla insanlar duygu ve düşüncelerini, gündemle ilgili görüş ve fikirlerini sosyalmedya araçlarını kullanarak paylaşmaktadır. En çok kullanılan sosyal medyaaraçlarından biri olan Facebook gibi sosyal ağ uygulamalarında milyonlarca içerikpaylaşılmaktadır. Paylaşılan bu içerikler yapısal olmayan veri türleridir. Bu yapısalolmayan verilerden anlamlı bilgilerin elde edilebilmesi ve çeşitli analizlerinyapılabilmesi için yapısal hale dönüştürülmesi gerekmektedir. Yapısal olmayanmetin içerikli verilerin yapısal hale dönüştürülmesinde ve analiz edilmesinde metinmadenciliği yöntemleri kullanılmaktadır. Bu çalışmada Facebook'ta yer alan`Ankilozan Spondilit Hasta Derneği` grubunda Ankilozan Spondilit hastalarıtarafından paylaşılan metinsel içerikler metin madenciliği yöntemleri kullanılarakanaliz edilmiştir. Farklı kategoriler altında veriler toplanmıştır. Ağırlıklandırmayöntemleri olarak terim frekansı, ikili ağırlıklandırma ve TFxIDF (Terim frekansı xTers metin frekansı) ağırlıklandırma yöntemleri kullanılmıştır. Sınıflandırmaişlemleri için K-en yakın komşu, SMO (Sequential minimal optimization), kararağaçları ve Naive Bayes algoritması kullanılmıştır. Terim ağırlıklandırmayöntemlerine göre sınıflandırma algoritmalarının başarı oranları ölçülmüştür. Enbaşarılı sonuç %53,33 doğruluk oranı ile ikili ağırlıklandırma yönteminde SMOalgoritmasının sağladığı gözlenmiştir. Her kategoriyi temsil edecek anlamlı bilgiçıkarımları yapılmış ve bilgi çıkarımları çeşitli görsel grafikler ile sunulmuştur.Kategorilere ait ikili ve üzeri kelime kullanımlarını tespit etmek amacıyla birliktelikanalizi yapılmıştır. Birliktelik analizi işlemlerinde Apriori algoritması uygulanmış vesonuçlar çizelgeler halinde verilmiştir. Kategorileri temsil eden anahtar kelimelerinyıllara göre farklılık gösterdiği tespit edilmiştir. Kategorilere ait anahtar kelimelerigöstermek amacıyla kelime bulutları oluşturulmuştur. With the increasing use of technology, social media and internet usage is rapidlywidespread. Especially with the increase in the number of social media users, peopleshare their feelings and thoughts, opinions and ideas about the agenda by using socialmedia tools. Millions of content are shared in social networking applications such asFacebook, one of the most widely used social media tools. These shared contents arenon-structural data types. It is necessary to extract meaningful information fromthese non-structural data and to be transformed into a structural format in order tomake various analyzes. Text mining methods are used for the transformation andanalysis of non-structural text-based data. In this study, the textual contents sharedby patients with Ankylosing Spondylitis in `The Ankylosing Spondylitis PatientAssociation` group on Facebook were analyzed by using text mining methods. Datawas collected under different categories. Term frequency, binary weighting andTFxIDF (Term frequency x Inverse document frequency) weighting methods wereused as weighting methods. K-nearest neighbors, SMO (Sequential minimaloptimization), decision trees and Naive Bayes algorithm were used for classificationoperations. Performance ratios of classification algorithms were measured accordingto the term weighting methods. The most successful result was obtained by SMOalgorithm in binary weighting method with an accuracy rate of 53.33%. Significantinformation extractions to represent each category were made and the these werepresented with various visual graphs. An association analysis was performed todetermine binary and above word usage of the categories. Apriori algorithm wasapplied in association analysis and the results were given as tables. It has been foundthat the keywords representing the categories differ according to years. Word cloudshave been created to show the keywords belonging to the categories.
Collections