Hastalık tanısı verilerinde veri ön işlemenin topluluk öğrenme sınıflandırma algoritmaları üzerindeki etkisinin incelenmesi
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Sağlık alanında hastalığın tanımlanması ve incelenmesi için sınıflandırma yaparken, özellikle karmaşık verilerden anlamlı bilginin ortaya çıkarılmasında, yapay zekâ teknolojisini kullanarak hesaplama yapabilen denetimli makine öğrenme yöntemleri kullanılmaktadır. Topluluk öğrenme yöntemleri ise aynı problemi çözmek için birden fazla öğreniciyi aynı anda eğiterek daha başarılı modellerin kurulmasını sağlamaktadır. Bu çalışmada, sağlık verilerinde doğru hastalık tanısı koymak için kullanılan veri setlerinde olası karşılaşılabilecek kayıp gözlem, sınıf gürültüsü ve sınıf dengesizliği gibi problemlere veri ön işleme yapıldıktan sonra, sınıflandırma algoritmalarının performanslarının karşılaştırılması amaçlanmıştır. Çalışmada, KEEL veri tabanından kalp hastalığı, tiroid, hepatit, lenfödem, meme kanseri ve diyabet gibi hastalıkların tanısı için toplanmış veriler kullanılmıştır. Sınıflandırma yapmak amacıyla, torbalama algoritmalarından rastgele orman ve ağırlıklı alt uzay rastgele orman algoritmaları kullanılırken; artırma algoritmalarından eklemeli lojistik regresyon ve gradyan artırma makinaları algoritmaları kullanılmıştır. Algoritmaların performanslarının karşılaştırılmasında doğruluk, duyarlılık/hassaslık, seçicilik, kesinlik, Kappa istatistiği, Youden indeksi, F - ölçütü ve ROC ölçüm metrikleri kullanılmıştır. Aynı zamanda, algoritmaların çalışma süreleri hesaplanmıştır. Tüm istatistiksel analizler, RStudio 1.2.1335 - Windows 7+ (64-bit) programı ile yapılmıştır. Orijinal veriler ve işlenmiş veriler için algoritmaların performansları karşılaştırıldığında, veri ön işlemeden sonra algoritmaların performans başarılarının arttığı görülmüştür. Genel olarak, artırma algoritmalarının performansları torbalama algoritmalarına göre daha yüksek sonuçlar vermiştir. Algoritmalar çalışma süreleri açısından kıyaslandığında ise, artırma algoritmaları en uzun süre çalışan algoritmalardır. Sonuç olarak, araştırmalar tarafından yüksek performans başarısı hedefleniyorsa, veri ön işleme göz ardı edilmemelidir. Veri ön işlemede, parametrelerin ayarlanma ve değişken seçimi gibi farklı konularda eklenerek benzetim çalışmaları yapılabilir.Anahtar Kelimeler: Hastalık Tanısı; Veri Ön İşleme; Kayıp Gözlem; Sınıf Gürültüsü; Sınıf Dengesizliği; Topluluk Öğrenme In the field of health, while classifying for identification and examination of disease, supervised machine learning methods are used, which are able to compute using artificial intelligence technology, in order to extract meaningful information from complex data. Ensemble learning methods enable establishment of more successful models by training multiple learners at the same time to solve same problem. In this study, it is aimed to compare performance of classification algorithms after data preprocessing to problems such as missing values, class noise and class imbalance that may be encountered in data sets used to diagnose accurate disease in health data. In the study, data collected from KEEL database were used to diagnose diseases such as heart disease, thyroid, hepatitis, lymphedema, breast cancer and diabetes. In order to make classification, while random forest and weighted subspace random forest were used as bagging algorithms; additive logistic regression and gradient boosted machines algorithms were used as boosting algorithms. Accuracy, sensitivity, specificity, precision, Kappa statistic, Youden index, F - measure and ROC measurement metrics were used to compare performance of algorithms. At the same time, run times of algorithms were calculated. All statistical analyzes were performed with RStudio 1.2.1335 - Windows 7+ (64-bit) program. When performances of algorithms were compared for original data and processed data, it was seen that performance success of algorithms increased after data preprocessing. In general, performance of boosting algorithms yielded higher results than bagging algorithms. When algorithms were compared in terms of run time, boosting algorithms were the longest running algorithms. As a result, data preprocessing should not be overlooked if research is aimed at high performance success. In data preprocessing, simulation studies can be performed by adding different topics such as tuning parameters and selecting variables.Keywords: Disease Diagnosis; Data Preprocessing; Missing Values; Class Noise; Class Imbalance; Ensemble Learning
Collections