Genetik alanında elde edilen verilerin makine öğrenimi algoritmaları yardımıyla karşılaştırılarak en etkin yöntemin belirlenmesi
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Amaç: Makine Öğrenimi (MÖ) sağlık alanında karmaşık veri setlerini çözmek için farklı yöntemler sunmaktadır. Bu çalışmanın amacı sınıflama için kullanılan MÖ algoritmaları ile Super Learner (SL) algoritmasının performansının farklı özellikte genetik veriler üzerinde karşılaştırılmasıdır.Materyal ve Metot: MÖ için farklı sınıflama algoritmaları kullanılmakta olup, bunlar K En Yakın Komşuluğu (EYK), Naive Bayes (NB), Destek Vektör Makineleri (DVM) ve Rastgele Orman (RO)'dır. Algoritmaların performansları eğri altında kalan alan (EAA) ile değerlendirilmiştir. Çalışmada dengesiz tipteki veriler için yeniden örnekleme yöntemleri kullanılmıştır. Veriyi analize hazırlamak için ön-işleme adımları uygulandıktan sonra, eğitim ve test verisi farklı oranlarda ayrılmıştır. Çalışmada genetik bilgiler içeren, örnek büyüklükleri 587 infertilite verisi ile 174 olan peridontitis veri seti ve iki farklı büyüklükte benzetim veri seti bulunmaktadır. Analizler için R yazılımı kullanılmıştır.Bulgular: Analiz sonucunda en iyi performanslar, infertilite veri seti %80-%20 olarak ayrıldığında EAA için DVM'de %96, dengesiz veri özellikleri dikkate alındığında %60-%40 olarak ayrıldığında EAA için Sentetik Azınlık Yukarı Örnekleme Tekniği- EYK'de %96 ve SL'de %97 olarak elde edildi. Peridontitis veri seti %60-%40 olarak ayrıldığında EAA için RO %85 ve SL'de aynı sonuç saptandı. İlk benzetim verisi için %60-%40 olarak ayrıldığında EAA için NB'de %78 ve SL'de %81 elde edildi. İkinci benzetim verisi için tüm bölünmelerde NB'de %84 ve SL'de yaklaşık %86 di. Sonuç: Bu çalışmada MÖ algoritmaları farklı veri setleri üzerinde farklı bölünme oranları ile değerlendirilmiştir. Sonuç olarak SL algoritmasının aynı ya da daha iyi performans gösterdiği saptanmıştır. SL algoritması temel öğreticiler arasında asimtotik olarak aynı ya da tüm öğreticiler arasında en iyi performansı vermektedir. Aim: Machine Learning (ML) offers different methods to solve complex data sets in the field of health. The aim of this study is to compare the performances of ML algorithm used for classification and Super Learner (SL) algorithm on different genetic data. Material and Method: Different classification algorithms are used for ML. K Nearest Neighbour (KNN), Naive Bayes (NB), Support Vector Machines (SVM) and Random Forest (RF) algorithms were used within the context of this study. Performances of the algorithms were assessed with area under curve (AUC). In the study, resampling methods were used for unbalanced data. Pre-processing steps were applied for analysis, the training and test data were divided in different proportions. Infertility data with a sample size of 587 and periodontitis data set with a sample size of 174, which included genetic information, and two simulation data sets with different sizes were used for analyses. R software was used for analyses. Results: As a result of the analyses, the best performances were found in SVM for AUC as 96% when infertility data set was divided as 80%-20%, and when unbalanced data were taken into consideration as 96% in KNN with Syntetic Minority Over- Sampling Technique when it was divided as 60%-40% and 97% in SL for AUC. When periodontitis data set was divided as 60%-40%, they were found as 85% in RF and SL for AUC. They were as 78% in NB when divided as 60%-40% and 81% in SL for AUC for the first simulation data. For second simulation data, they were for all divisions 84% in NB for AUC and 86% in SL. Conclusion: In this study, machine learning algorithms were assessed with different division rates on different data sets. As a conclusion, SL algorithm was found to show as well as or better performance. According to the theory of SL, it performs as well as or better than any of the candidate learners.
Collections