Classification of medical documents according to diseases
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bilgisayar kullanımının yaygınlaşmasından sonra, bilgisayar ortamında üretilen dokümanların sayısının her geçen sene ivmeli olarak arttığı görülmektedir. İnternet ortamında metinlerin üssel artışından dolayı otomatik metin sınıflandırma önemli hale gelmiştir. Metin sınıflandırmadaki önemli sorunlar öznitelik sayısının çok olması ve buna bağlı olarak yapılan hatalı sınıflandırmalardır. Bu tez çalışmasında, Türkçe makalelere ait tıbbi metin özetleri kullanılarak İngilizce ve Türkçe içerikli medikal alanda iki farklı veri kümesi oluşturulmuştur. Bu veri kümesi İngilizce tıbbi metin özetleri içeren Ohsumed isimli veri kümesine benzer yapıdadır. Literatürde akademik çalışmalarda kullanılmak üzere Türkçe kaynaklardan elde edilen Ohsumed benzeri bir veri kümesi bulunmamaktadır. Otomatik metin sınıflandırma aşamalarında çeşitli ön işlem, öznitelik seçim yöntemleri ve bu alanda başarılı sınıflandırıcılar kullanılmıştır. Ayrıca diller bazında farklılık gösteren ve ön işleme adımlarından biri olan kök bulma algoritmasının uygulanıp uygulanmamasına göre sınıflandırma başarımının nasıl etkilendiği diller bazında incelenmiştir. Bunun yanı sıra, farklı öznitelik seçim yöntemlerinin sınıflandırmadaki başarımı nasıl etkilediği incelenmiştir. Başarımı etkileyen bir diğer etken olan sınıflandırıcı performansları farklı sınıflandırıcıların uygulanması ile analiz edilmiştir. Son olarak ta, aynı yayınlara ait farklı dillerdeki tıbbi metin özetleri üzerinde en iyi başarımı sağlayan sınıflandırma şemaları belirlenmiştir. Anahtar Sözcükler: Metin Sınıflandırma, Öznitelik Seçim Yöntemleri, Sınıflandırma Algoritmaları, Önişleme Adımları The number of documents produced on computers has increased exponentially every year, after the spreading use of the computers. Automatic text classification has become an important due to the exponential growth of texts on the Internet. Significant problems in text classification are the great number of features and misclassification are made accordingly. In this thesis, it is constructed of two different datasets containing English and Turkish abstract belonging to Turkish articles in the medical field. This dataset is similar structure to namely Ohsumed which is containing English medical text summary. In the literature, there is no dataset like Ohsumed datasets obtained from Turkish datasets to be used in academic studies. Various preprocessing, feature selection and successful classifiers in this field are used in automatic text classification stages. It has been investigated in the basis of languages how influences the performance of the classification according to whether stemming which differs in languages and one of the preprocessing steps applied or not. And also, the classification performance of different feature selection method has been investigated. Classifier performance which is another factor affecting the performance was analyzed by applying different classifiers. Finally, classification schemes that provide the best performance on the medical text summary in the same publication and different languages is determined. Keywords: Text Classification, Feature Selection Methods, Classification Algorithms, Preprocessing Steps
Collections