Gen ifadesi verilerine çok kriterli karar verme yöntemlerinin uygulanması
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Gen ifadesi verileri analiz edilerek başta kanser olmak üzere genetik faktörlerin etkili olduğu hastalıkların teşhisinden tedavisine değin uzanan geniş bir yelpazede önemli bilgilere ve öngörülere ulaşılabilir. Gen ifadesi verilerinden hastalıklar hakkında anlamlı çıkarımlarda bulunmak için makine öğrenmesi temelli tahmin modellerinin uygulanması yaygın bir yaklaşımdır. Tahmin amaçlı yararlanılan bu tür modellerin yapısında uygun bir sınıflandırıcıya ek olarak uygun bir öznitelik seçim yönteminin yer alması başarı oranını artırır. Bu tezde kolon tümörü ve lenfoma gen ifadesi verileri üzerinde iki aşamalı bir çalışma gerçekleştirilmiştir. İlk aşamada, 2 çeşit sınıflandırıcının ve bilgi kuramı tabanlı 10 adet öznitelik seçim yönteminin dâhil edildiği bir değerlendirme süreci tesis edilmiştir. Sınıflandırıcılar her bir öznitelik seçim yöntemi ile ayrı ayrı kombine edilerek birbirinden farklı 20 tahmin modeli oluşturulmuştur. Tahmin modellerinin performansları Çok Kriterli Karar Verme (ÇKKV) disiplini çerçevesinde 5 farklı kritere göre değerlendirilmiştir. Bu amaçla, Analitik Hiyerarşi Süreci (AHS) ve Çok Kriterli Optimizasyon ve Uzlaşma Çözümü (Vise Kriterijumska Optimizacija I Kompromisno Resenje - VIKOR) yöntemlerini birleştirerek uygulayan bütünleşik AHS-VIKOR yöntemi kullanılmıştır. Değerlendirmeler sonucunda her bir veri kümesi için tahmin modellerinin uzlaşık bir sıralaması elde edilmiş ve sınıflandırma performansını optimize eden modeller belirlenmiştir. İkinci aşamada ise öznitelikleri değerlendirme görevinin VIKOR yöntemi ile ele alındığı hibrit bir öznitelik seçim mekanizması önerilmiştir. Önerilen yöntemde bilgi kuramı tabanlı öznitelik seçim yöntemlerinin değerlendirme fonksiyonları birer karar kriteri olarak kullanılmış olup, ortaya çıkan çok kriterli öznitelik seçim problemi VIKOR yöntemiyle çözüme kavuşturulmuştur. VIKOR tabanlı öznitelik seçiminde her sınıflandırıcı için en etkili sonuca ulaşılması amaçlanmış ve bunun için ilk aşama sonucunda elde edilen uzlaşık sıralamalardan yararlanılmıştır. Böylece tez çalışmasının iki ana aşaması birbiriyle ilişkilendirilmiştir. Kolon tümörü ve lenfoma verileri üzerinde 2 çeşit sınıflandırıcı temel alınarak gerçekleştirilen deneylerde, önerilen yöntem hâlihazırda kullanılan diğer öznitelik seçim yöntemleri ile mukayese edilmiştir. Karşılaştırmalarda sınıflandırma performansı ölçüt olarak alınmıştır. Sonuçlar önerilen yöntemin öznitelik seçimi ve sınıflandırma performansında kayda değer bir gelişme sağladığını göstermiştir. Analysis of gene expression data can provide important information and predictions in a wide range from diagnosis to treatment for diseases such as cancer where genetic factors are effective. It is a common approach to apply machine learning based prediction models to make meaningful inferences about diseases from gene expression data. The presence of an appropriate feature selection method in addition to an appropriate classifier in the structure of such models used for prediction increases the success rate. In this thesis, a two-stage study is conducted on colon tumor and lymphoma gene expression data. In the first stage, an evaluation process including 2 types of classifiers and 10 information theory based feature selection methods is established. The classifiers are combined with each of the feature selection methods separately and 20 prediction models which are different from each other are constituted. The performances of the prediction models are evaluated according to 5 different criteria within the framework of Multiple Criteria Decision Making (MCDM) discipline. For this purpose, the integrated AHP-VIKOR method, which applies the combination of Analytic Hierarchy Process (AHP) and Multi-Criteria Optimization and Compromise Solution (Vise Kriterijumska Optimizacija I Kompromisno Resenje - VIKOR) methods, is used. As a result of the evaluations, a compromise ranking of the prediction models for each dataset is obtained and the models that optimize the classification performance are determined. In the second stage, a hybrid feature selection mechanism is proposed in which the task of evaluating features is addressed by VIKOR method. In the proposed method, the evaluation functions of information theory based feature selection methods are used as decision criteria and the resulting multi-criteria feature selection problem is solved by VIKOR method. In VIKOR based feature selection, it is aimed to reach the most effective result for each classifier, and for this purpose, the compromise rankings obtained as a result of the first stage are utilized. Thus, the two main stages of the thesis study have been interrelated with each other. In the experiments carried out by using 2 types of classifiers on colon tumor and lymphoma datasets, the proposed method is compared with other feature selection methods already used. In comparisons, classification performance is taken as the criterion. The results demonstrate that the proposed method provides a remarkable improvement in feature selection and prediction performance.
Collections