Veri madenciliği ile çocukluk çağındaki akut romatizmal ateşin kalp hastalığına etkilerinin analizi
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Günümüzde içinde yaşadığımız dönem bilgi toplumu ya da bilgi çağı olarak adlandırılmaktadır. Kuşkusuz ki bilginin ve bilgi teknolojilerinin hayatın her alanına nüfuz ettiği gözlemlenmektedir. Bu teknolojilerin hızlı gelişimi bilgi kavramının önemi de arttırmış, farklı kaynaklar tarafından üretilen çok çeşitli ve büyük hacimli veri ile karşılaşmamıza neden olmuştur. Veri miktarındaki artış ise elde edilen büyük boyutlu veriden bilgi elde etme sürecini zorlaştırmaya başlamıştır. İstatistik bilimi veri analizinde yüzyıllardan beri kullanılmaktadır; ancak veri miktarındaki artış, temeli istatistiğe dayanan veri madenciliği kavramını ortaya çıkarmıştır. Geçmişi istatistik kadar eskilere dayanmasa da veri madenciliği birçok farklı alandan araştırmacının ilgisini çekmektedir. Bu kapsamda veri madenciliği, veri analizinde gün geçtikçe popülerliğini ve işlevini arttıran bir alan olarak karşımıza çıkmakta ve birçok farklı araştırma alanında kullanılmaktadır. Sağlık çalışmalarında ise hastalardan elde edilen veri kümeleri istatistiksel yöntemlerle analiz edilebiliyor olsa da veri madenciliği yöntemlerinin kullanımı da sağlık verisinin analizinde kullanılabilmektedir. Bu tez çalışmasının amacı veri madenciliği yöntemlerini kullanarak çocuk yaşta görülen akut romatizmal ateşin kalp üzerindeki etkilerinin analiz edilmesidir. Bu etkilerin belirlenmesi çocukluk yaşlarında görülen romatizmanın kalp kapağına vereceği zararların en aza indirilmesi açısından önemlidir. Bu tespitin yapılabilmesi için veri madenciliğindeki sınıflandırma yöntemlerinden yararlanılmış ve farklı beş algoritma denenmiştir. Sade Bayes sınıflandırıcı, karar ağaçları (CART, C4.5, C5.0, C5.0 boosted) ve rastgele orman algoritmaları ile modeller kurularak akut romatizmal ateş tanısı konmuş hasta kayıtları analiz edilmiş ve algoritmaların performansları karşılaştırılmıştır. Model performans değerlendirme yöntemlerinden holdout, çapraz geçerleme (cross validation) ve bootstrap yöntemleri farklı şekillerde veri setine uygulanarak algoritmalar denenmiştir. Çalışma kapsamında, İstanbul Medeniyet Üniversitesi Göztepe Eğitim ve Araştırma Hastanesi Çocuk Kliniği ile ortak çalışarak, 297 hastaya ait kayıtlardan oluşan veri seti kullanılmış, ön işleme süreci sonunda kalan 201 hasta verisi ile analiz yapılmıştır. Farklı algoritmalardan elde edilen sonuçlar model performans değerlendirme ölçütlerine göre karşılaştırılmıştır. En iyi sonucu CART modeli vermiştir. Bu tez çalışması, tıp ve sağlık alanındaki verinin analizinde veri madenciliği metotlarının kullanımının yaygınlaşmasına katkı sağlaması açısından önemli bir çalışma olarak görülmektedir. Today the era we live in is called knowledge/information society or information age. No doubt, it is observed that information and information technologies penetrate every aspect of life. The rapid development of these technologies has also increased the importance of the concept of information and caused us to encounter a wide variety of large volumes of data produced by different sources. The increase in the amount of data has begun to complicate the process of obtaining the large-sized dataview obtained. Statistics has been used for centuries in data analysis but the increase in the amount of data reveals the concept of data mining which is based on statistics. Data mining attracts many researchers in many different fields, although it does not have a history as old as statistics. In this context, data mining appears as a field which increases in popularity and function day by day in data analysis and used in many different research fields. While data sets of health studies can be analyzed using statistical methods, the use of data mining methods can also be used in the analysis of health data. The purpose of this thesis is to analyze the cardiac effects of acute rheumatic fever in childhood using the data mining methods. It is important to determine these effects in order to minimize the damage on cardiac valve the that the disease can cause.Different classification algorithms are applied and five different algorithms have been tested to determine these effects. Naïve Bayes classifier, decision trees (CART, C4.5, C5.0, boosted by C5.0) and random forest algorithms are used to analyze the patient records with acute rheumatic fever diagnoses and to compare the performances of the algorithms. Algorithms are tried by applying holdout, cross validation and bootstrap methods to data set. In the scope of the study, a data set consisting of records of 297 patients is used in collaboration with Istanbul Medeniyet University Göztepe Education and Research Hospital Children's Clinic. 201 patient records could be included after preprocessing phase. The results obtained from different algorithms were compared according to the model performance evaluation criteria. CART model has given the best result. This thesis is seen as an important study in terms of contributing to the widespread use of data mining methods in the analysis of data in medicine and health fields.
Collections