Makine öğrenmesi teknikleri ile sağlık davranışlarına dayalı diyabetin tahmin edilmesi
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Dünya sağlık örgütünün 2018 yılında yayınladığı rapora göre dünyada, en çok ölüme neden olan 7. hastalık olarak diyabet, 2016 yılında 1,6 milyon kişinin ölümüne doğrudan sebep olmuştur. 2019'da diyabet hastası 20-79 yaş arası yetişkinlerin sayısı yaklaşık 463 milyon olup Dünya sağlık örgütünün 2020 yılında yayınladığı rapora göre 2045 yılında bu sayının 700 milyona çıkması beklenmektedir. Diyabetin erken teşhisi, diyabetin tedavi edilmesine ve komplikasyonlarının önlenmesine yardımcı olmasındaki açısından önemi büyüktür. Bu nedenle diyabeti teşhis etmenin kolay ve hızlı bir yoluna ihtiyaç duyulmaktadır.Bu tez çalışmasında, makine öğrenmesi algoritmaları ve araçları yardımıyla diyabeti teşhis etmek için bir yöntem öneriyoruz. Önerilen yöntem, hastanın sağlık davranışlarına dayalı olarak olası diyabet hastalığını tahmin edebilen bir model oluşturmak için makine öğrenmesinin gücünü kullanmaktadır. Model, sağlıklı bir yaşam tarzı ile diyabet arasındaki ilişkiden yararlanır. Sağlıklı bir yaşam tarzı diyabetin önlenmesine yardımcı olan direkt bir etken olmakla birlikte bunun tersi de geçerlidir. Bu ilişki birçok çalışma ile desteklenmiştir. Amacımız, diyabeti tahmin etmek için doğruluk oranı yüksek bir makine öğrenmesi modeli oluşturmak ve böylelikle diyabetin teşhis prosedürünün kolaylaştırılmasına ve hızlanmasına yardımcı olmaktır. Modeli oluşturmak için Gradient Boosting algoritması XGBoost, LightGBM, CatBoost ve Yapay Sinir Ağları gibi nispeten yeni sayılan makine öğrenmesi yöntemleri kullanılmıştır.Tez kapsamında elde edilen modelin genel doğruluk oranı % 87,7'dir. Çalışmada veri seti olarak Amerika Birleşik Devletleri, Kronik Hastalıkları Önleme ve Kontrol Merkezi (CDC) tarafından gerçekleştirilen, NHANES (Ulusal Beslenme ve Sağlık Araştırması) çalışmasının 2007 yılından 2018 yılına kadar olan yayınlanmış sonuçları kullanılmıştır. Yüksek performanslı bir modele yol açabilecek temiz ve anlaşılır veriler elde etmek için veri seti çeşitli teknikler kullanılarak işlenmiştir. Genel doğruluk ile birlikte model performansını değerlendirmek için duyarlılık, kesinlik, F1 skoru, Yanlış Pozitiflerin sayısı (E1), Yanlış Negatiflerin sayısı, Pozitif Öngörücü Değer (PPV) ve Negatif Öngörücü Değer (NPV) gibi birçok kriter kullandık. Elde edilen en iyi performans, doğrulama verileri için % 87,7 ve test verileri için % 84,96 başarı oranıyla XGBoost algoritması ile elde edilmiştir. In 2016, diabetes was the 7th death-causing disease in the world, it was the direct cause of 1.6 million deaths. In 2019, the number of adults (20-79 years) that were living with diabetes was approximately 463 million and expected to rise to 700 million in 2045. The early diagnosis of diabetes will help in treat diabetes and prevent its complications. Therefore, the need for an easy and fast way to diagnose diabetes is crucial.In this study, we are proposing a method to diagnose diabetes with the help of machine learning algorithms and tools. The proposed method utilizes the power of machine learning to create a model that can predict diabetes based on the patient's health behaviors. The model makes use of the relationship between a healthy lifestyle and diabetes, a healthy lifestyle helps prevent diabetes, and the opposite holds. This relationship has been supported by many studies. Our goal is to build a machine learning model with high accuracy to predict diabetes which will help significantly in easing and speed up the diagnosing procedure of diabetes. We used relatively new machine learning algorithms to build the model namely: the top three Gradient Boosting algorithms XGBoost, LightGBM, CatBoost, and Artificial Neural Networks. Our achieved model has an overall accuracy of 87.7% and we could achieve higher accuracy if we had a higher quality dataset. In the study, we used the published results of the National Health and Nutrition Examination Survey (NHANES) study from 2007 to 2018, which was conducted by the Centers for Disease Control and Prevention (CDC) in the United States of America. The dataset was processed using various techniques to obtain clean and understandable data that could lead to a high-performance model. We used many criteria to evaluate the model performance along with the overall accuracy namely recall, precision, f1-score, number of False Positives (E1), number of False Negatives, Positive Predictive Value (PPV), and Negative Predictive Value (NPV). The best performed model was obtained with the XGBoost algorithm with an accuracy of 87.7% for validation data and 84.96% for test data.
Collections