Estimation of heart disease based on data mining using patients health database
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Veri madenciliği (VM), büyük verilerden alınan enformasyon içerisinden bilgi bulmak veyaçıkartmak işlemine verilen addır. VM, veri tabanı içerisindeki Bilgi Keşfi (BK) işlemi içerisindemodeller bulmak için akıllı yöntemler kullanır. VM'nin insanlara büyük çaplı verileri anlama veçözme konusunda yeni bir teknik ve iyi bir araç vereceği konusundaki inanış henüz netlikkazanmamış bir husustur. VM uygulaması içerisindeki geniş fonksiyon yelpazesi içerisindesınıflandırma, kümeleme, regresyon kural jenerasyonu, sekans analizi ve ilinti bulmak vardır.Sınıflandırma VM'nin önemli tekniklerinden bir tanesidir. Dünyada bilim, ticaret, sanayi ve tıpgibi alanlardaki sorunların birçoğu bu yaklaşımların kullanımı ile çözülebilir. Sinir Ağları (SA)sınıflandırma için iyi bir enstrüman gibi görünmektedir. Kalp Hastalıkları (KH) veri tabanıçalışması SA yaklaşımı kullanılarak test edilmiştir.KH teşhisi kolay bir husus değildir ve çok fazla tecrübe ve bilgi gerektirir. KH öngörüsündebulunmanın genel yöntemi doktor kontrolü veya ECG, Kalp MRI ve Stres Testi gibi farklımuayene yöntemleridir. Günümüzde kliniksel teşhisler ile ilgili birçok problemi çözebilmekadına 'Yapay Sinir Ağı' (YSA) yaygın olarak kullanılan bir tekniktir. YSA 'insan beynininsimülasyonudur ', gözetimli bir eğitimdir.Mevcut araştırma, SA tekniği ve Özellik Alt Küme Seçimi (ÖAKS) algoritması kullanaraksınıflandırma yapmak için hastalardan istenen biyomedikal testlerin sayısını optimize etmek veyadüşürmeyi amaçlamaktadır. ÖAKS bir ön işleme aşamasıdır ve özellik sayısını azaltıp gereksizverilerin çıkarılmasını amaçlamaktadır. KH değerleri kullanılır ve asıl olarak 13 özellikbulunmaktadır ve bu özellikler KH'yi sınıflandırmak için kullanılır. Özellik sayısını azaltmakveya optimize etmek için farklı değerlendirme ve araştırma yöntemleri belirlenmiştir.Bu araştırmada STALOG veri seti üzerinde bu iki çalışma uygulanmıştır. İlk çalışmada üçalgoritma kullanılmıştır: Naïve Bayes (NB) 85.182 oranında bir doğruluk sağlamıştır. Öteyandan J84 oranı 91.4815 ve SA algoritma oranı 99.6296 olmuştur. Ancak, ikinci çalışmada NB85.925 oranından elde etmiş ve J84 ise 91.4815oranından elde etmiştir. Son olarak, SA 99.2593oranından elde etmiştir. Ayrıca, iki çalışmadaki SA algoritması doğruluğu, geçmiş çalışmalar ilekarşılaştırıldığında en iyi sonuçları elde etmiştir. Data mining (DM) is the process of finding or extracting knowledge from information on a hugepiece data. DM uses intelligent methods to find patterns in the process of knowledge discovery(KD) in a database. The appearance field of DM promises to give a new technique and goodtools. Also, DM can help the person to understand, solve big amounts of data remains oncomplex and unsolved problem. The wide functions in DM practice includes: classification,clustering, regression rule generation, sequence analysis and discovering association.The classification is one of the most important techniques of DM. As well as, many problems invarious fields such as science, business, industry and medicine can be solved by using theseapproaches. Neural Networks (NN) have appeared as a good tool for classification. The study ofHeart Diseases (HD) database is testing by using NN approach.HD diagnosis is not easy work which demands to a lot of experience and acquaintance. Thecommon way for predicting HD is a doctor's checkup or different medical examination likeECG, Heart MRI Stress Test and etc. Nowadays, 'Artificial Neural Network' (ANN) has beencommonly used to the technique for dissolving many problem clinical diagnoses. An ANN is the'simulation of the human brain', it is a supervised learning.This research aims to optimize or reduce the number of biomedical test which asked frompatients. Correspondingly to do a classification approach using NN technique and a FeatureSubset Selection (FSS) algorithm. FSS is a pre-processing phase used to reduce number ofattribute and remove irrelevant data. HD values are used and originally 13 attributes are involvedto classify the HD. To reduce or optimize the number of attributes, different evaluators andsearch methods are determined.In this research the two studies are conducted on the STALOG data set. The first study usedthree algorithms: Naïve Bayes (NB) got on accuracy equal to 85.182. While J84 obtained on91.4815 and NN algorithm got on 99.6296. However, in the second study the NB obtained on85.925 and J84 got on 91.4815. Finally, NN obtained on 99.2593. Moreover, accuracy of ANNalgorithm in the two studies got on the best result when compared with the results of the otheralgorithms.
Collections