Derin öğrenme yöntemleri kullanılarak Türkçe doküman sınıflandırma
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Çalışmamızda kaleme alınmış yazıların, yazarına ve konusuna göre birbirindenayrılması ve sınıflandırılabilmesi amaçlanmıştır. Bir gazetenin köşe yazarlarınınyazılarının vektörleri oluşturulmuştur ve birbirinden ne kadar ayrılabildiğinin analiziyapılmıştır. Yazarı bilinmeyen herhangi bir yazının hangi yazara ait olduğubelirlenebilir veya birbirlerine benzer stiller gruplanarak yazar profillerioluşturulabilir. Konusu bilinmeyen bir yazının hangi konulara ait olabileceğibelirlenebilir. DeepLearning4J Java kütüphanesi ve burada yer alan Doc2Vec sınıfıkullanılmıştır. 5,10,15 ve 20 yazar içeren modeller ve yazarların yazdıkları konularagöre modeller geliştirilmiştir. Bu şekilde elde edilen benzerlik vektörleri belirli bir eşikdeğeri ile karşılaştırılmıştır, değişik eşik değerleri seçimine bağlı model başarımlarıölçülmüştür. Elde edilen sonuçlara göre bazı yazarlar belirgin bir şekilde diğeryazarlardan ayrılmaktadır. Yazılar konularına göre başarılı bir şekildeetiketlenebilmektedir. Bu yapı özellikle yazar profili çıkarımı, yazı tespiti veya konugruplama gibi alanlarda kullanılabilecek niteliktedir. In our study, it is aimed to distinguish and classify author profiles and text subjectswith vectors which were created from authors posts. The vectors of the columnists ofa newspaper were formed and analyzed for how much they could be separated fromeach other. Hence, author of any post, can be determined by this model. It also cangroup similar styles together. The DeepLearning4J Java library and the Doc2Vec classincluded are used during development. 5,10,15, 20 author vector models and theirsubject models were created according to their posts. The similarity vectors obtainedin this way were compared with a certain threshold value, and the model performancesbased on the selection of different threshold values were measured. According to theresults, some authors differed significantly from other authors. Articles can besuccessfully labeled according to their topics. This structure can be used especially inareas such as author profile extraction, article detection or subject grouping.
Collections