Statistical learning in modeling interrelations among variables: An application to metabolomics
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bazı yapay öğrenme problemlerinde büyük veri setleri literatürde bakış olarak bilinen doğal gruplara ayrılmıştır. Farklı bakışlar, aynı hedef değişkeni kestirmek için kullanılabilir, örneğin farklı bakışları verilen bir örneğin sınıfını kestirmede kullanılan paralel etkileşimli çok bakışlı öğrenmede (PIML) yapıldığı gibi. Buradaki amaç ise, bunun daha genel bir hali olarak, aralarında bazı istatistiksel ilişkiler olan farklı değişkenlerin, kendi bakışlarından kestiriminde nasıl birleştirilebileceğini ele alacağız. Amacımız, farklı bakışların farklı hedef değişkenlerini kestirmesi sırasında, bu farklı hedef değişkenler arasındaki bağıntıları da kullanan bir yöntem geliştirmektir. Bu çalışmada bir hedef değişken için eğitim safhasında elde edilen tahminler bir sonraki iterasyonun, kendi bakışındaki değişkenlere ilaveten ek girdi olarak kullanılmıştır. Iterasyonlar bakışların birbiri ile etkileşimi sabit hale gelinceye kadar tekrar ettirilmiştir. Bakışlar arası iletişim ve etkileşim destek vektör makinesi (DVM) ile modellenmiştir. DVM optimizasyonu için birini-dışarıda-bırak çapraz sağlama, k-kat çapraz sağlama, ızgara arama ve kendini yükleme tekrar örnekleme metotları uygulanmıştır. Önerilen yöntem sentetik veri kümesi ve gerçek bir kanser veri kümesi (North Carolina Üniversitesi biyomedikal mühendisliği bölümünde sağlıklı ve kanserli insan deneklerinden nükleer manyetik rezonans spektroskopisiyle elde edilmiş metabolomik bir veri kümesi) üzerinde uygulanmış ve tek bakışlı klasik bağlanım yöntemiyle karşılaştırılmıştır. Bakışlar arasındaki ilişkilerin ortaya çıkarılması ve birbirlerini nasıl etkilediklerini bu şekilde ortaya koymak, klinik çalışmalara, az da olsa, katkı sağlayabilir. In some machine learning problems, large datasets are naturally organized into some groups of variables, which are called views in the literature. Views can be used to predict the same target variable, such as the class of a given sample, such as in Parallel Interacting Multi-view Learning (PIML). In this thesis, we deal with a more general case, where the views are designed to predict different but related target variables. The goal here is to develop a mechanism for incorparating the interrelations among the target variables into their predictions, along with the input variables in their own views. In this study, the predictions obtained from the training phase of each view are used as additional inputs to the next iteration. Iterations are repeated until the interactions between the views in consecutive iterations become stable. The interrelations and interactions among the views are modeled using Support Vector Machines (SVM) along with optimization-related methods such as leave-one-out cross-validation, k-fold cross-validation, grid search and bootstrap resampling. The proposed method is compared with the classical regression implemented on single view in its application to a toy dataset and a real-world dataset of cancer (a metabolomics dataset obtained through nuclear magnetic resonance spectroscopy on tissue samples from healthy and cancerous human subjects in a study conducted by the biomedical engineering department at the University of North Carolina). The web of interrelations among the views might give insight to the clinicians in their research.
Collections