Determination of the effect of polyadenylation SLR values on microarray data classification
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Mikroçip veri sınıflandırılması genel olarak, gen ifade değerlerini içeren önceden işlenmiş ve kategorize edilmiş mikroçip verisinin kullanılmasıyla oluşturulan modellerin yardımı ile bilinmeyen örnek sonuçlarının tahmin edilmesinde kullanılmaktadır. Mikroçip deneylerinin hazırlanışı, Affymetrix çiplerinin tasarımı ve önceki mikroçip deneylerinin kullanılabilirliği, alternatif çoklu adenin olaylarının (APA) tahmin edilmesinde kullanılan yeni bir çeşit veri olan yakın ve uzak ölçüm uçlarının diferansiyel ifadelerinin (Kısadan Uzuna Oran -SLR- değerlerinin) çıkarımı fırsatını sunmaktadır. Bu tezde, gen ifade değerlerini bu SLR değerleri ile birleştirmeyi ve ardından bu birleştirme işlemi sonrası mikroçip veri sınıflandırılmasının nasıl etkilendiğini belirlemeyi amaç edindik. APA olaylarının tahmin edilmesi esnasında uygulanan filtreleme operasyonları sebebiyle, bir mikroçip örneği üzerinde bulunan bütün ölçüm uçları için SLR değerleri mevcut değildir. Bu eksik değerler, sadece verilerin birleştirilmesinde değil sınıflandırma tekniklerinin uygulanması esnasında da dışarıda tutulmamaktadır. Destek Vektör Makinesi (SVM), Karar Ağacı (J48) ve Rastgele Orman olmak üzere üç tip sınıflandırma tekniği, birincil meme tümörü mikroçip verisine gene ifade değerleri ile SLR değerlerinin birleştirilmesi öncesi ve sonrası uygulandı ve metastazların sınıflandırma doğrulukları bulundu. Sonuçlar gösteriyor ki; APA olayları gen ifade sınıflandırılması üzerinde yadsınamaz bir etkiye sahiptir ve bu etki çoğunlukla doğrulukların gelişmeleri yönündedir.Anahtar Kelimeler: mikrodizi, gen ifade değeri, alternatif çoklu adenin olayı, sınıflandırma, destek vektör makinesi, karar ağacı, rastgele orman, tümör, metastaz Microarray data classification is generally used to predict unknown sample outcomes by the help of models created using the preprocessed and categorized microarray data that includes gene expression values. Preparation of microarray experiments, design of Affymetrix chips and availability of previous microarray experiments give the opportunity to extract a new kind of data; differential expressions of proximal and distal probes (Short to Long Ratio -SLR- values), which is used to predict the alternative polyadenylation (APA) events. In this thesis, we aim to integrate gene expression data and these SLR values and then determine how the microarray data classification is affected after this integration process. Because of the filtering operations applied while predicting the APA events, SLR values are not available for all the probe sets on a microarray sample. These missing values are not left out not only while integrating the data, but also while applying the classification techniques. Three types of classification techniques, Support Vector Machines (SVM), Decision Tree (J48) and Random Forest are applied to primary breast tumor microarray data before and after integration of gene expression values with SLR values and the classification accuracies of metastasis are found out. The results show that; APA events have incontrovertible impact on gene expression classifications and mostly towards improvement of accuracies.Keywords: microarray, gene expression data, alternative polyadenylation, classification, support vector machines, decision tree, random forest, tumor, metastasis
Collections