Normalizasyon tekniklerinin biyomedikal verilerde sınıflama başarısına etkisi

Yüce, Hakan

Date

2021-08-05

Author

Yüce, Hakan

Metadata

Show full item record

Abstract

Son zamanlarda yapay zekâ uygulamaları askeri, ekonomi, tıp, v.b. gibi birçok alanda etkin olarak kullanılmaktadır. Özellikle sağlık sektöründe bilgisayarlarda saklanan hastalara ait verilerden hastaya ait teşhisi tahmin etme yapay zekâ uygulamalarından bir tanesidir. Fakat bilindiği gibi bu saklanan veriler çok büyük boyutlara sahip olup eşit derecede incelenmesi sonucu en doğru şekilde tahmin etmemize olanak sağlayacaktır. Bu verilerin daha etkin kullanılması için normalizasyon yöntemleri kullanılmaktadır. Bu çalışmada, diyabet hastalığı veri seti, göğüs kanseri hastalığı veri seti, karaciğer hastalığı veri seti ve kalp hastalığı veri setine minimum-maksimum (min-mak) normalizasyon yöntemi, ondalık ölçekleme normalizasyon yöntemi, z-skor normalizasyon yöntemi ve norm normalizasyon yöntemi uygulanmış ayrıca bu veri setleri normalize edilmeden de değerlendirilmiştir. Daha sonra normalize edilmiş ve ham verilere, 4 farklı k-kat çaprazlama (2,5,10,20) kriterinde yapay sinir ağları (YSA), karar ağacı (KA), destek vektör metodu (DVM), k en yakın komşu (k-NN) ve Naive Bayes gibi çeşitli sınıflandırma algoritmalarıyla ORANGE programı kullanılarak sınıflandırma işlemi yapılmış ve sınıflama doğrulukları değerlendirilmiştir. Sonuçlar istatiksel olarak incelenmiş ve normalizasyon yöntemlerinin yapay zekâ sınıflandırma yöntemlerinin performansını artırabileceği gözlenmiştir.

Recently, artificial intelligence applications have been used effectively in many areas such as military, economics, medicine… Especially, in the healthcare sector, it is one of the applications of artificial intelligence to predict a patient's diagnosis from data stored on computers. However, as is known, these stored data have very large dimensions and will allow us to estimate the outcome in the most accurate way if they are evaluated equally. For more efficient use of this data, normalization methods are used. In this study, the diabetes data set, breast cancer disease data set, liver disease data set and heart disease data set are normalized with minimum and maximum (min-max) normalization method, decimal scaling normalization method, z-score normalization method, norm normalization method and these data sets are also evaluated without normalizing. These normalized data sets and raw data sets were then classified using ORANGE program with various classification algorithms such as artificial neural networks (YSA), decision tree (KA), support vector method (DVM), k nearest neighbor (k-NN) and Naive Bayes in 4 different k-fold crossover criteria (2,5,10,20) and classificaition accuracies were evaluated. The results were analyzed statistically and it was observed that normalization methods can improve the performance of artificial intelligence classification methods.

URI

https://acikbilim.yok.gov.tr/handle/20.500.12812/739783

Collections

TEZLER

Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess