Cyberbullying detection using text classification for turkish language
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Siber zorbalık akran tacizinin elektronik bir formudur. Bilgi ve iletişim teknolojilerini kullanarak kişileri sürekli rahatsız etme, kişilerle alay etme, tehdit, dedikodu yayma, internet üzerinden kişiye hakaret etme gibi ilişkisel saldırı davranışlarını içerir. Türkiye ve pek çok Avrupa ülkesi için intiharla sonuçlanan olaylardan sonra ciddi bir konu olarak ele alınmıştır. Siber zorbalık ile ilgili özellikle son yıllarda eğitim bilimciler ve psikologlar başta olmak üzere, uzmanlar tarafından araştırmalar yapılmakta ve çözüm yöntemleri aranmaktadır.Bu çalışmanın amacı Türkçe içerikli siber zorbalık metinlerinin tespiti için şu ana kadar yapılmış en büyük Türkçe veri kümesini oluşturmak ve siber zorbalık metinlerinin tespiti için önişleme, nitelik seçimi ve sınıflandırıcıların etkilerini göstermektir.Bu çalışmada birçok önişleme adımı uygulanmış olup, nitelik seçimi için iki adet çok bilinen filtre tabanlı nitelik seçim yöntemi (bilgi kazancı ve ki-kare yöntemleri) uygulanmıştır. Test edilen sınıflandırıcılar arasından Naive Bayes Multinomial Türkçe içerikli siber zorbalık metinlerini sınıflandırmada en etkili yöntem olarak belirlenmiştir. Ayrıca toplanan veri kümesi üzerinden filtre tabanlı bir sınıflandırıcı önerilmiş olup, elde edilen veri kümesi üzerinde doğruluk analizi yapılmıştır. Önerilen yöntemin tatmin edici sınıflama başarısı olduğu görülmüş olup, herhangi bir Türkçe metni sınıflayıcıyı tekrar eğitmeden sınıflayabilecek yapıdadır. Cyberbullying is an electronic form of peer harassment. It includes relational attack behaviors such as harassing people, mocking people, threatening, spreading gossip, and insulting people on the internet by using information and communication technologies. In Turkey and many European countries, the cyberbullying is considered as a serious problem after the cyberbullying related suicides occurred. In recent years, researches are being carried out and solutions are tried to be found by experts, especially with educational scientists and psychologists, about cyberbullying. The aim of this study is to create the largest Turkish dataset so far for the detection of cyberbullying texts and to show the effects of preprocessing, feature selection and classifiers for the detection of cyberbullying from texts.In this study, a number of preprocessing steps are applied, and two well-known filter-based methods that are information gain and chi square are used for feature selection. Among the classifiers tested, Naive Bayes Multinomial is determined to be the most successful method for detecting cyberbullying from texts written in Turkish language. In addition, a filter-based classifier is proposed, and its performance is tested on the collected dataset. The proposed method has promising accuracy and can be used for labeling any Turkish text document without re-training the classifier.
Collections