Partial least squares method for the analysis of gene expression data
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Kısmi En Küçük Kareler Regresyonu (KEKKR) değişkenler arasındaki ilişkileri ortogonal gizli değişkenler aracılığıyla modellemek için kullanılan denetimsiz bir makine öğrenme tekniğidir. KEKKR bu gizli değişkenleri kullanarak, kayıp gözlemlere, gürültüye ve değişken sayısına oranla çok sayıda gözlem değerine sahip olan büyük ve karmaşık veri kümelerinden bir çıkarım yapabilir. KEKKR'nin klasik ve standart algoritması Doğrusal Olmayan Iteratif Kısmi En Küçük Kareler Regresyonu'dur (NIPALS). NIPALS, regresyon, sınıflandırma ve boyut küçültme için önerilmiştir. NIPALS ve diğer KEKKR algoritmaları çeşitli biyoinformatik çalışmaları için sıklıkla kullanılmaktadır. Yüksek çıktılı gen ifadesi veri araştırmalarında, önemli hedeflerden biri gen-gen veya gen ürünlerinin etkileşimlerini araştırmaktır. Bu genler veya gen ürünleri arasındaki ilişki seviyesini ölçmek için oldukça tavsiye edilen bir yöntem olan ve KEKKR metoduna göre hesaplanan değişken ağırlıklari ve yükleri ile bulunan Bağlantı Skorlar kullanılabilir.Bu tezde, embriyonik dönemde gelişen fare beynine ait üç beyin bölgesinin gen ağları oluşturmak için bağlantı puanları KEKKR kullanılarak hesaplanmıştır. İstatistiksel analizler için R istatistik dili ve gen ağlarını görselleştirmek için Cytoscape yazılımı kullanılmıştır. Partial Least Squares Regression (PLSR) is an unsupervised machine learning technique to modeling associations between variables through orthogonal latent variables. Using these latent variables, PLSR can make an inference from huge and computationally complex datasets that have missing values, noise and a numerous number of variables relativity more than the number of observations. The classical and standard algorithm of the PLSR is the Nonlinear Iterative Partial Least Squares Regression (NIPALS). The NIPALS is proposed for regression, classification and dimension reduction. The NIPALS and other PLSR algorithms have been used frequently for various bioinformatic studies. In high-throughput gene expression data research, one of the important goals is to investigate gene-gene or their products interactions. To measure the level of association between these genes or their products, a highly recommended method can be used which is calculated by the variable weights and loadings based on PLSR, called Connectivity Scores.In this thesis, PLSR was used for computing connectivity scores to construct gene networks for three brain region of a developing mouse brain in the embryonic period. Statistical analysis is performed using R statistical language and Cytoscape software is used to visualize gene networks.
Collections