Konvolusyonel sinir ağları kullanarak Türkçe metinler için cümle sınıflandırması

Pirana, Gurur

View/Open

File_10331357 (2.055Mb)

Date

2020

Author

Pirana, Gurur

Metadata

Show full item record

Abstract

Bu çalışmada derin öğrenme ve makine öğrenmesi yöntemleri kullanılarak cümle sınıflandırma problemi ele alınmıştır. Çalışmanın amacı, Konvolüsyonel Sinir Ağları (CNN-Convolutional Neural Networks), Bölge Konvolüsyonel Sinir Ağları (RCNN Region Convolutional Neural Networks),Uzun-Kısa Süreli Hafıza (LSTM-Long Short Term Memory) , Naive Bayes Multinomial , Lojistik Regresyon , Destek Vektör Makineleri gibi farklı derin öğrenme ve makine öğrenmesi metotlarının veri kümesi üzerinde başarımlarını incelemektir. Bu yöntemler ile elde edilen modellerin eğitim parametrelerinin değişiminin başarıma olan etkisi araştırılmıştır. Her bir model için başarımı en yüksek olan parametreler tespit edilmiş ve kullanılmıştır. Bu çalışmanın amacı, cümle sınıflandırılması için geliştirilen modelin, giriş verisini, yani cümleyi uygun olan sınıf ile eşleştirilip bu sınıfın karşılığındaki cevabın üretilmesidir. Çıktı değerleri değişken olup metin, dosya, resim veya bir url çıktısı olabilir. Girdi cümlesinin karşılığında çıktı aracılığıyla işlem yönlendirmesi de yapılabilmektedir. Bu işlem sanal asistan gibi uygulamaların geliştirilmesinde ve kullanılmasında kolaylık sağlamaktadır. Gözlemlediğimiz önemli bir konu da veri kümesinde bulunan örnek sayısının model üzerindeki başarım etkisidir. Örnek sayısının artışı model başarımının artışını doğrudan etkilemektedir. Aynı zamanda derin öğrenme ve makine öğrenmesi yöntemlerinin eğitim sürelerinin arasındaki fark gözlemlenmiş ve aralarında karşılaştırma yapılmıştır. Sonuç olarak, oluşturduğumuz Türkçe veri kümesi ile en iyi başarımı Konvolüsyonel Sinir Ağları (CNN)' yöntemi ile elde etmiş bulunmaktayız.

This paper investigates deep learning and machine learning method performance for virtual assistant applications about sentence classification. The classification is based in Turkish texts. For different methods we demonstrate the performance of each model. We investigate Convolutional Neural Network (CNN), Region Convolutional Neural Network (RCNN), Long Short Term Memory (LSTM), Naïve Bayes Multinomial, Logistic Regression, Support Vector Machine (SVM) deep and machine learning methods and compare the accuracy results of the related models. Furthermore, we aim to select the best classification model for our dataset. We have researched effect of the parameters to model accuracy and we used model parameters for each methods and we aimed to gain best performance for our dataset. This research helps applications like virtual assistant with classification of the sentence and giving the output of the class. The output of classification could be a text, document, image or url. Benefit of this comparison of the methods we realized that instance number increases the model accuracy. The best method for our dataset was the Convolutional Neural Networks (CNN).

URI

https://acikbilim.yok.gov.tr/handle/20.500.12812/213679

Collections

TEZLER

Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess