Show simple item record

dc.contributor.advisorAta, Oğuz
dc.contributor.authorFayez, Mustafa Adil Fayez
dc.date.accessioned2021-05-06T12:26:05Z
dc.date.available2021-05-06T12:26:05Z
dc.date.submitted2018
dc.date.issued2018-11-23
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/588569
dc.description.abstractdünyada çok fazla ilgiyi çekmiştir. Bu günlerde, veri madenciliği özellikle ticari ve medikal alanda olmak üzere birçok alanda kullanılmaktadır. Özellikle medikal alan, veri üretiminin sürekli olması ve farklı öznitelik çıkarımı yöntemlerinin bulunmasından dolayı hastalığın yayılmasına dair çözümler önermektedir. Veri madenciliği sınıflandırma teknikleri ve bir programlama dili kullanarak süreç için gereken maliyet ve zamanın daha iyi azaltılması için KKH teşhisine yardımcı olacak bir sistem tasarladık. Bu algoritmalar iyi sonuçlar ve yüksek doğruluk elde etmiştir. Çalışmamızı çeşitli KKH veri kümelerine uyguladık. Hungarian iki sınıflı verisetinde Rastgele Orman(Random Forest - RF) algoritması kullanılarak en iyi doğruluğu % 99 oranında elde ettik. Cleveland veri seti ile, aynı algoritmayı kullanarak % 94 oranında doğruluk elde ettik, kıyasladığımız bir başka çalışmadaki sonuçta aynı veri kümesinde elde ettikleri doğruluk oranı SVM algoritması ile % 58 idi. Ayrıca, Hungarian beş sınıflı veri kümesi ile kıyasladığımız önceki çalışmada SVM algoritması kullanılarak % 67 doğruluk oranı elde edilmişken biz Rastgele Orman(RF) algoritması ile %99 doğruluk oranı elde ettik. Buna ek olarak, AdaBoast algoritması ile Hungarian veri setinde %88 ve heart.csv veri setinde Logistic Regression algoritması ile %87 doğruluk oranı elde ettik. Ayrıca Switzerland veri seti ile Rastgele Orman(RF) algoritması kullanarak %95 ve Long-Beach veri seti ile aynı algoritmadan %91 doğruluk oranı elde ettik. Son olarak, Switzerland veri seti ile AdaBoost ve Logistic Regression algoritmaları ile %78, Long-Beach veri setinde AdaBoost algoritması ile %80, Logistic Regression algoritması ile %76, heart.csv veri setinde Logistic Regression ile %87 ve AdaBoost algoritması ile %86 doğruluk oranı elde ettik.xivBu çalışmada KKH için farklı veri setleri için ortak önişlem ve eğitim-test veri bölmesi kullandık. Bu işlem önceki çalışmadan önemli ölçüde farklıdır ve aynı KKH veri setleri ile elde edilen sonuçlardan daha başarılı sonuçlar almamıza katkıda bulunmuştur.Anahtar Kelimeler: KKH, Sınıflandırma teknikleri, Python, Veri madenciliği.
dc.description.abstractCoronary heart disease (CHD) has attracted the most attention around the world because it leads to death. These days, data mining in many fields, including commercial fields and medical fields, where medical fields are the most productive of large data on a continuous basis, and which must find different ways to extract information, may be important in predicting the spread of this disease. We have designed a system to help the diagnosis of CHD with better reduction of costs and time required for the process by using a programing language with data mining classification techniques. These algorithms produced good results and high accuracy. We applied our study to various CHD datasets. We obtained the best accuracy at 99% through the use of the Random Forest (RF) algorithm with Hungarian two classes. With Cleveland, we obtained 94% accuracy using the same algorithm while the better accuracy with the same dataset in the previous study was 58% when using the SVM algorithm. Moreover, with the Hungarian five class dataset, we obtained 99% as the best accuracy using random Forest Classifier algorithm rather than the accuracy that was achieved with this dataset in previous work, which was close to 67% using the SVM algorithm. In addition, we obtained 88% as a better accuracy using the AdaBoost classifier with the Hungarian data set and 87% accuracy using the Logistic Regression classifier with the heart.csv dataset. With the Switzerland dataset, we had 95% as the best accuracy using Random Forest and 91% best accuracy with the Long-Beach dataset using the same classifier. Finally, with the Switzerland dataset, we achieved a 78% better accuracy using the AdaBoost and Logistic Regression classifier. With Long-Beach, we had 80% using the AdaBoost classifier and 76%xiiusing the Logistic Regression classifier. Also with the heart.csv dataset, we achieved 87% best accuracy using the Logistic Regression classifier and 86% accuracy when using the AdaBoost classifier. We used a train test split and preprocessing for the CHD dataset in this study and processed the missing values that were found with attributes with a less complicated system. This process differs significantly from previous study is proposed results and accuracy for this purpose with the same CHD dataset.en_US
dc.languageEnglish
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontroltr_TR
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.titleDiagnoses of coronary heart disease (CHD) using data mining techniques based on classification
dc.title.alternativeSınıflandırma temelli veri madenciliği teknikleri kullanılarak koroner kalp hastalığı (KKH) tanısı
dc.typemasterThesis
dc.date.updated2018-11-23
dc.contributor.departmentBilişim Teknolojileri Ana Bilim Dalı
dc.identifier.yokid10208408
dc.publisher.instituteFen Bilimleri Enstitüsü
dc.publisher.universityALTINBAŞ ÜNİVERSİTESİ
dc.identifier.thesisid520268
dc.description.pages82
dc.publisher.disciplineBilişim Teknolojileri Bilim Dalı


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess