Veri madenciliği yöntemi ile prostat kanseri için erken uyarı protokollerinin geliştirilmesi
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Veri madenciliği, karar vericilerin eldeki verilerden yola çıkarak doğru ve etkin kararlar almasına yardımcı olan yöntemler topluluğudur. Veri madenciliği yöntemleri, özellikle tıp alanında daha çok tahmin edici yönüyle kullanılmaktadır. Son yıllarda yapılan çalışmalar veri madenciliği yöntemlerinin kanser de dahil olmak üzere bir çok hastalığın teşhis edilmesinde umut verici sonuçlar ortaya koyduğunu göstermektedir. Bu çalışmada amaç, veri madenciliği yöntemleri kullanılarak, prostat kanserinin erken ve doğru teşhis edilebilmesi için anlamlı bir model oluşturmaktır. Çalışmanın diğer teşhis etme çalışmalarından farkı, PSA veya rektal tuşe vb. gibi hiçbir tıbbi sonuç değişkeni içermemesi, sadece genetik ve fiziksel değişkenler içermesidir. Çalışmada stacking topluluk metodu altında bayes sınıflandırıcılar, k en yakın komşuluk ve karar ağacı yöntemleri kullanılarak bir topluluk modeli oluşturulmuştur. Bu model ile prostat kanseri olan ve olmayanların en doğru şekilde sınıflandırılması amaçlanmaktadır. Yapılan çalışmada 989 kişiden oluşan, her kişiye ait 200 bin SNP ve 18 adet fenotip değişken içeren prostat verisi kullanılmıştır. Modelin performans sonuçlarına bakıldığında; doğruluk, kesinlik ve duyarlılık değerleri sırasıyla %84,13, %89,84 ve %74,23'dür. Bu sonuçlara bakıldığında modelin prostat kanserini tahmin etme yeteneği başarılıdır. Anahtar Sözcükler: Sağlıkta Veri Madenciliği Uygulamaları, Karar Ağaçları, Stacking Yöntemi, K En Yakın Komşuluk Yöntemi, Naive Bayes Yöntemi, Bütünsel Genom İlişkilendirme, Tekli Nükleotid Polimorfizm Data mining is a collection of methods that help decision makers to make accurate and effective decisions based on available data. Data mining methods are being used more often in the field of medicine, especially for predicting disease. Recent studies have shown that data mining methods have promising results in diagnosing many diseases, including cancer. The aim of this study is to establish a meaningful model for the early and accurate diagnosis of prostate cancer using data mining methods. The difference of the model from other diagnostic studies is that it does not involve any medical outcome variables, such as PSA or rectal key, but only genetic and physical variables. In the study, an ensemble model was constructed by using Bayesian classifiers, k nearest neighbor and decision tree methods under the stacking ensemble method. With this model, it is aimed to classify individials with and without prostate cancer in the most accurate way. In the study, prostate data consisting of 989 individuals, 200 thousand SNPs per each person and 18 phenotype variables were used. When the performance results of the model are considered; accuracy, precision and sensitivity values are 84,13%, 89,84% and 74,23% respectively. Given these results, the model has a good ability to predict prostate cancer.Keywords: Data mining applications in healthcare, Decision Trees, Stacking Method, K Nearest Neighbor Method, Naive Bayes Method, Genome Wide Association Studies, Single Nucleotide Polymorphism
Collections