Uluslararası haber raporlarının rapor içeriklerinde kullanılan ifadelere göre makine öğrenmesi yöntemiyle sınıflandırılması ve denetlenmesi

Durnagöl, Firdevs

View/Open

File_10331502 (1.887Mb)

Date

2020

Author

Durnagöl, Firdevs

Metadata

Show full item record

Abstract

Rapor verisinin miktarının çok olması durumunda giderek artan veri yoğunluğu içinde tasnifi ve arşivlenmesine yönelik işlemlerin yapılması zordur. Bu zorluğun aşılması, raporların denetlenmesi, düzenlenmesi ve düzeltilmesi, Karar Destek Sistemleri yollarından biri olan Makine Öğrenme ile aşılabilir. Raporların analiz edilmesi, anlamsız veriler arasından anlamlı verilerin çıkarılması, verinin kullanımı açısından büyük kolaylık sağlamaktadır. Bu yapılan araştırma, uluslararası yayın yapan büyük bir medya organının çevrimiçi olarak dünya çapında yayınladığı haber ve bilgi raporlarının makine öğrenme algoritmaları kullanılarak sınıflandırılmasına dayanmaktadır. Uygulamanın analiz aşamasında Rastgele Orman Karar Ağacı, ZeroR, Naif Bayes yöntemleri kullanılmıştır. Bu yöntemlerin sınıflandırma başarıları birbirleri ile karşılaştırılmıştır. Bunlar arasında en iyi sonuçları veren algoritma Rastgele Orman Karar Ağacı yönteminin dayandığı algoritmada parametrik değişiklikler ve düzenlemeler yapılması sonucu rapor sınıflandırmada sonuçlarda yüksek iyileştirmeler elde edilmiştir. Başarı oranı %91'e ve performans süresi 0.47s'e çıkmıştır. Araştırmadaki veri seti içerisinde her birinden 600 rapor olacak şekilde üç adet sınıf, uluslararası konularda raporlar, spor raporları, dergi (magazin) raporlarıdır. Veri setinin bir kısmı eğitim ve bir kısmı test kümesi olarak kullanılmış, 10-katlı çapraz doğrulama yöntemi ile algoritmik doğruluklar denetlenmiştir. Bu sayede, veri seti, hem test hem de eğitim kümesi olarak kullanılmıştır. Derleme ortamı olarak Weka veri madenciliği yazılımı kullanılmıştır.Anahtar kelimeler: Sınıflandırma, Metin Madenciliği, Makine Öğrenmesi, Gazetecilik, Rastgele Orman Algoritması

Due to the large amount of data and the increasing density of data, it is difficult to process data. This hardship can be overcome by Data Mining. Analyzing the data, extracting meaningful data from meaningless data provides great convenience in terms of data usage. This study is a classification of the news that published on the website of an international channel by using artificial intelligence algorithm. Random Forest Decision Tree Algorithm, ZeroR Algorithm and Naif Bayesian Algorithm have been used in the analysis phase of the application The results of classification algorithms have been compared with each other. The algorithm that has given the best result among them is the Random Forest Decision Tree Algorithm. The success rate has been found as 91% and the duration of work has been found as 0.47 seconds. There are three classes in the dataset. These are International News (600), Sports News (600), Magazine News (600). Some of the dataset has been used as training and some has been used as test dataset. Algorithm accuracy has been checked by 10-fold cross validation method. Thus, the entire dataset has been used as both test and training dataset. Weka has been used as the compilation tool.Key words: Classification, Text Mining, Machine Learning, Journalism, Random Forest Algorithm

URI

https://acikbilim.yok.gov.tr/handle/20.500.12812/94374

Collections

TEZLER

Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess