Using data mining to reduce false positivies for pre-biopsy patients with moderate chance of having prostate cancer
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
ÖZET PROSTAT KANSERİ OLMA OLASILIĞI OLAN BİYOPSİ ÖNCESİ HASTALARDA YANLIŞ TANIYI AZALTMAK İÇİN VERİ MADENCİLİĞİ UYGULAMASI 50 yaş ve üstündeki erkeklerde prostat kanseri teşhisi için üç adet veri maden ciliği yöntemi kullanılmıştır. Bunlar: Karar Ağacı, Yapay Sinir Ağları ve K-En Yakın Komşu Algoritmasıdır. Bu erkekler, biyopsi öncesi `koyu gri tanı alanı` na girmekte dir. Biz koyu gri alanı Rektal Muayene sonucu normal olmak ve toplam PSA değeri 4 ile 20 ng/ml arasında bulunmak şeklinde tanımladık. Tıbbi çevrelerce çok iyi bili nen `gri alan` tanımının yukarıdaki tanımdan tek farkı, PSA değerinin 4 ile 10 ng/ml arasında olmasıdır. Biz tek bir kanserli hastayı bile kaçırmadan koyu gri alandaki gerek siz biyopsi alanını daraltmak istiyoruz. Finansal Risk Yönetimi kuramında da olduğu gibi, hata maliyeti çok yüksek olan özel bir sınıflandırma problemiyle karşı karşıyayız. Bu çalışmada 139 hasta yer almıştır. Veri madenciliği algoritmalarında kullandığımız girdi değişkenleri hastanın yaşı, serbest PSA, PSA yoğunluğu, serbest PSA'mn toplam PSA'ya oranı ve PCA teşhisinde ilk kez kullanılan bir değişken olan total PSA'mn kısa dönemdeki (10 gün) değişkenlik katsayısı scvtPSA'dır. Önce, bu değişkenleri kul lanarak bir karar ağacı oluşturduk. Karar ağacı eğitim veri setiyle eğitildikten sonra ve eğitim veri setiyle denendiğinde bir tek kanserli hastaya bile yanlış tam koymadı ve yüzde 68.8 yanlış alarm oranı verdi. Test veri setiyle denendiğinde ise yanlış alarm oram yüzde 55.6'ya düştü ve bir tek kanserli hastaya bile yanlış tanı konulmadı. (Bunun dışında, Karar Ağacı gri alanda denendiğinde literatürdeki gri alan sonuçlarına benzer sonuçlar verdi). K-En Yakın Komşu Algoritması ve Karar Ağacının doğrusal bileşkesi de tatmin edici sonuçlar verdi. Ayrıca, scvtPSA'nm Prostat Kanseri teşhisinde koyu gri alan için etkin bir değişken olduğu sonucuna varıldı. IV ABSTRACT USING DATA MINING TO REDUCE FALSE POSITIVES FOR PRE-BIOPSY PATIENTS WITH MODERATE CHANCE OF HAVING PROSTATE CANCER Three data mining tools, namely a Decision Tree, an Artificial Neural Network and the Kth Nearest Neighbor Algorithm, are employed to detect prostate cancer among men above the age of 50. These men belong to what we call the pre-biopsy diagnostic `dark gray zone`. We define the dark gray zone as having a normal Digital Rectal Examination result and a total Prostate-Specific Antigen level between 4 and 20 ng/ml. The dark gray zone is a superset of the well-known `gray zone` whose definition is identical to that of the former with the only exception that the PSA level falls between 4 and 10 ng/ml. We want to reduce the unnecessary biopsies in the dark gray zone while not missing a single cancer patient. Because the cost of making an error of type one is very high, we have a special kind of a classification problem, which is also seen in Financial Risk Management Theory. 139 patients were included in the study. As input variables to our data mining tools, we use age of patient, free PSA, PSA density, the ratio of free to total PSA, and the short term (10-day) coefficient of variance of total PSA, namely scvtPSA, a novel variable used for the first time in prediction of prostate cancer. First, we develop a decision tree model using these variables. The decision tree trained with the training data gives a false positive rate of 68.8 per cent when tested on the training data when we fix the sensitivity at 100 per cent. For the test data, its false positive rate value decreases to 55.6 per cent while the sensitivity is successfully maintained at 100 per cent. (Our Decision Tree gives results comparable to those in the existing literature for patients in the gray zone as well.) A linear combination of Kth Nearest Neighbor Algorithm and Decision Tree results is also satisfactory. We also conclude scvtPSA is significant in predicting prostate cancer in the dark gray zone.
Collections