Parkinson hastalıkları verilerinin makine öğrenmesi yöntemleriyle araştırılması
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bu tez çalışması Parkinson Hastalığı (PH) verilerine Makine Öğrenmesi algoritmalarının uygulanması üzerinedir. Bu amaçla özgün olarak yeni bir Makine Öğrenmesi algoritması tasarımına gidildi. Bu tasarım sonucunda; karar kaynaştırma ve sınıflandırıcı seçimi yöntemlerine dayalı olarak VIBES isminde yeni bir topluluk öğrenme algoritması geliştirilmiştir. VIBES algoritması ve diğer Makine Öğrenmesi algoritmaları UCI veritabanından seçilen 33 adet benchmark veri kümesine ve PhysioNet veritabanından elde edilen Parkinson verikümesine uygulandı. VIBES algoritması iki varsayımdan birinin tercih edilmesine göre çalışmaktadır. Bu varsayımlar: Özniteliklerin birbirlerine bağımlı olduğu ve bağımsız olduğu varsayımlardır. Bu varsayımlara göre 33 benchmark veri kümesi üzerindeki ortalama doğruluk oranları sırasıyla %89.80 ve %88.22'dir. Benchmark veri kümeleri üzerindeki ikinci en iyi ortalamaya sahip öğrenme algoritması %87.76 doğruluk oranıyla Rotation Forest algoritmasıdır. Her iki topluluk öğrenme algoritması için kullanılan ortak temel öğrenici Random Forests (RF) algoritmasıdır. VIBES algoritmasında topluluk birleştirme yöntemi için çoğunluk oylama yöntemi kullanılmış ve sadece ikili sınıflandırma problemleri için çoğunluk oylama yönteminin diğer yöntemlere göre daha iyi olduğu sadece teorik olarak gösterilmiştir. VIBES(RF) algoritmasında hipotez arama algoritması olarak optimize edilmiş ileri yönlü bir arama yöntemi ve Genetik Algoritmalar (GA) yöntemi kullanılmıştır. 33 adet benchmark veri kümesi üzerindeki sonuçlara göre optimize edilmiş ileri yönlü arama algoritması ortalama %89.6963 doğruluk oranı ve ortalama 3.2359 saniyelik arama zamanı ile GA yöntemine göre daha iyi sonuç vermiştir. GA yöntemiyle, %89.4184 doğruluk oranı ve ortalama 127.6958 saniyelik arama zamanı elde edilmiştir. Buna göre doğruluk oranları arasında çok ciddi bir fark olmamasına rağmen optimize edilmiş ileri yönlü arama algoritması GA'ya göre daha az sürede aramalar gerçekleştirerek topluluğu oluşturmuştur. VIBES(RF) algoritmasında özniteliklerin enformasyon miktarını ölçmek için iki yöntem kullanılmıştır. Bunlar: ReliefF ve Shannon entropidir. Bu iki algoritmanın ortalama doğruluk oranları sırasıyla %89.8153 ve %89.0519'dur. Bu iki sonuç istatistiksel açıdan önemli bir farka sahip olmadığı ve Shannon entropi diğer yönteme kıyasla daha hızlı çalıştığı için enformasyon ölçüm yöntemi olarak Shannon entropi, özniteliklerin bilgi miktarı ölçümü için varsayılan metot olarak ayarlanmıştır. Bu tez çalışmasında, çoğunluk oylamalı topluluk öğrenicilerde oluşturulan topluluğun gerçek hata oranını tahmin etmek için de veri uyarlamalı bir yöntem geliştirilmiştir. Bu yönteme göre 33 adet benchmark veri kümesi üzerinde özniteliklerin bağımlılığı varsayımına göre gerçek ve tahmini hata oranları arasındaki fark %0.575'tir. Özniteliklerin bağımsızlığı varsayımına göre gerçek ve tahmini hata oranlarının farkı ise %1.655'tir. Böylelikle her iki varsayımın ortalama hata oranı %1.115 olur. Tüm bu veriler ışığında hata tahmin yönteminin gerçek hata oranına oldukça yakın sonuçlar verdiği söylenebilir.Parkinson veri kümesi kullanılarak öznitelik oluşturmak için Fast Fourier Dönüşümü (FFD), Dalgacık dönüşümü (Haar, sym2, coif2, db2, db3, db4, db5, db6, db7, dmey, bio3.3 ve gaus2) ve Hilbert-Huang Dönüşümü (HHD) kullanılmıştır. Bu sinyal dönüşüm yöntemleri içerisinden HHD ile oluşturulmuş öznitelik kümesi üzerinde hem VIBES algoritması hem de diğer Makine Öğrenmesi algoritmaları yüksek doğruluk oranları vermiştir. Daubechies (db3) dalgacığı kullanılarak elde edilen öznitelik kümesi ikinci en iyi sınıflandırma doğruluğu veren sinyal dönüşüm yöntemi olmuştur. HHD kullanılarak oluşturulan Parkinson veri kümesine VIBES(KA) algoritmasının (özniteliklerin bağımsızlığı varsayımına); 2-katlı çapraz doğrulama, 5-katlı çapraz doğrulama, 10-katlı çapraz doğrulama ve Leave-One-Out-Çapraz-Doğrulama (LOOÇD) testlerinin 10 kere uygulanması sonucunda sırasıyla %95.4545±1.0785, %95.9394±1.3717, %95.4545±0.7693 ve %97.5758±0.0000 ortalama sınıflandırma doğrulukları elde edilmiştir. Bu testlerin ortalama sınıflandırma doğruluğu oranı ise %96.1061'dir. Bu deneylerin sonucunda LOOÇD yöntemi kullanılarak elde edilen topluluk hipotezi model olarak seçilmiştir. Bu model 14 temel hipotezden oluşmaktadır. Sonuç olarak literatürde daha önce yapılan 6 çalışmadan daha yüksek oranda sınıflandırma doğruluğu elde edilmiştir. This study is on Machine Learning algorithms applied to the Parkinson's Disease data. For this purpose, we planned developing a new and authentic Machine Learning algorithm. In this process; we developed a new Ensemble Learning algorithm, called VIBES, based on the Decision Fusion and the Classifier Selection methods. VIBES algorithm and other Machine Learning algorithms were applied to 33 benchmark datasets selected from UCI database and to Parkinson's Disease dataset selected from PhysioNet database.VIBES algorithm operates according to two assumptions: that features are interdependent, and that features are independent of each other. According to these assumptions, average accuracy rates for 33 benchmark datasets are 89.80% and 88.22% respectively. The learning algorithm with the second best average accuracy is Rotation Forest algorithm, with 87.76% accuracy rate. The base learner used for both ensemble learning algorithms mentioned above is the Random Forests algorithm. We used the majority voting method as ensemble combination method for the VIBES algorithm, and only theoretically demonstrated that the majority voting method is better in comparison with other methods for only binary classification problems. We used an optimized forward search method and Genetic Algorithms as a hypothesis search algorithm for VIBES(RF) algorithm. According to the results regarding 33 benchmark datasets, the optimized forward search algorithm, with an average accuracy rate of 89.6963% and a search time of 3.2359 seconds, gave a better result in comparison with Genetic Algorithms. We got 89.4184% accuracy rate and 127.6958-second search time by using Genetic Algorithms. According to these results, the optimized forward search algorithm built the ensemble by doing the search in less time compared to Genetic Algorithms, although their accuracy rates were not significantly different. In measuring the amount of information of features in VIBES(RF) algorithm, we used two methods: ReliefF and Shannon entropy. The average accuracy rates of these algorithms are 89.8153% and 89.0519% respectively. We set Shannon entropy as a default method to measure the amount of information of features because of the fact that these two rates do not have a statistically significant difference and that Shannon entropy runs faster in comparison with ReliefF. In this thesis study, we developed a data-adaptive method to also predict the actual error rate of the ensemble built for ensemble learning with majority voting method. The difference between actual and predicted error rates is 0.575% in average for 33 benchmark datasets according to the method mentioned above and the assumption of feature interdependency, whereas it is 1.655% in average according to the assumption of feature independency. Thus, we have an average error rate of 1.115%. In light of these data, we can say that the error predicting method gives quite close results in relation to actual error rate.We used Fast Fourier Transform, Wavelet Transform (haar, sym2, db2, db3, db4, db5, db6, db7, dmey, bio3.3, and gaus2), and Hilbert-Huang Transform so as to create features for the Parkinson dataset. Both the VIBES algorithm and the other Machine Learning algorithms gave high classification accuracy for a set of features that was created by Hilbert-Huang Transform method. Besides, a set of features created through daubechies (db3) wavelet was a signal transform method that got the second best classification accuracy. When the VIBES(KA) algorithm (the assumption of the independency of features) was applied to the Parkinson dataset created using Hilbert-Huang Transform, and when 2-fold, 5-fold, 10-fold, and Leave-One-Out cross validations were applied to the dataset ten times, we received an average classification accuracy rate of 95.4545%±1.0785, 95.9394%±1.3717, 95.4545%±0.7693, and 97.5758%±0.0000 respectively. The average classification accuracy rate of these experiments is 96.1061%. Based on the results of our experiments, we selected as our model the ensemble hypothesis obtained using the Leave-One-Out cross validation method. This model consists of the hipotheses of 14 base learners. Consequently, we obtained a superior classification accuracy in comparison with six studies currently available in literature.
Collections