Otel yorumları üzerinde konu modelleme algoritmalarının uygulanması
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
İnternet üzerinde üretilen veriler her geçen gün artmaktadır. Bu verilerin çoğunluğunu metinler oluşturmaktadır. Metinlerin çoğunlukta olması, bilim insanlarını bu alandaki problemler üzerinde daha fazla çalışma yapmaya yönlendirmiştir. Metinler üzerinde yapılan çalışmaların son zamanlarda en popüler yöntemi konu modelleme yöntemleridir. Konu modelleme yöntemlerinin amacı metinlerin içerisindeki gizli veya açık geçen konuları tespit etmektir. Bu çalışma kapsamında elde edilen metin veri kümeleri üzerinde gizli dirichlet ayrımı (GDA), ilişkili konu modeli (İKM) ve yapısal konu modeli (YKM) yöntemleri uygulanmıştır. Çalışmada konu modelleme yöntemlerinin sonuçlarını karşılaştırabilmek içinkonu tutarlılığı ve çapraşıklık değerleri kullanılmıştır. YKM yöntemini anlatan makalede kullanılan veri ve bu verinin ham hali, internet kaynaklı elde edilen İngilizce otel müşteri yorumları ve Türkçe otel müşteri yorumları olmak üzere 4 farklı veri üzerinde çalışmalar yapılmıştır. Yapılan tüm çalışmalar tutarlılık ve çapraşıklık değeri hesaplanıp sonuçlarıkarşılaştırılmıştır. İngilizce veri üzerinde yapılan çalışmaların sonuçlarına bakıldığında YKM tip 1 yönteminin diğer yöntemlere göre daha başarılı olduğu görülmüştür. Türkçe veri üzerinde İKM tip 2 yöntemi daha başarılı olmuştur. Sonuçlar genel olarak incelendiğinde c_v tutarlılık ölçümünün çapraşıklık değeri ile tutarlı olduğu gözlenmiştir. İngilizce veriler için tutarlılık ve çapraşıklık değer karşılaştırmaları uyumluyken Türkçe veri üzerindeki sonuçlarda uyum gözlenmemiştir. The amount of data generated on the Internet is increasing every day. Texts constitute the majority of this data. The fact that the texts are in the majority has prompted scientists to conduct further studies into the problems in this field. The most popular method of studying texts recently is subject modeling methods. The purpose of topic modeling methods is toidentify hidden or open topics in texts. Within the scope of this study, latent dirichlet allocation (LDA), correlated topic model (CTM), and structural topic model (STM) methods were applied to the text data sets obtained within the scope of this study. In the study, subject consistency and perplexity values are used to compare the results of subject modelingmethods. The studies have been carried out on four different datasets, which include the raw form of data used in the article describing the STM method; the English and Turkish hotel customer reviews obtained from the internet. The coherence and perplexity values of all the studies were calculated, and the results were compared. When the results of the studies conducted on the English data are examined, it has been seen that the STM type 1 method is more successful than other methods. Furthermore, the CTM type 2 method performs better on Turkish data. When the results are examined in general, it is observed that the c_v coherence measurement is consistent with the perplexity value. While the comparisons of coherence and perplexity values for the English data are compatible, no agreement is observed in the results for the Turkish data.
Collections