Identification of disease related significant SNPs
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Single nucleotide polymorphisms (SNPs) are DNA sequence variations that occur when a single nucleotide in the genome sequence is altered. Since, variations in DNA sequence can have a major impact on complex human diseases such as obesity, epilepsy, type 2 diabetes, rheumatoid arthritis; SNPs have become increasingly significant in identification of such complex diseases. Recent biological studies point out that a single altered gene may have a small effect on a complex disease, whereas interactions between multiple genes may have a significant role. Therefore, identifying multiple genes associated with complex disorders is essential. In this spirit, combinations of multiple SNPs rather than individual SNPs should be analyzed. However, assessing a very large number of SNP combinations is computationally challenging and due to this challenge, in literature there exist a limited number of studies on extracting statistically significant SNP combinations. In this thesis work, we focus on this challenging problem and develop a five step ?disease-associated multi-SNP combinations search procedure'' to identify statistically significant SNP combinations and the significant rules defining the associations between SNPs and a specified disease. The proposed five step multi-SNP combinations procedure is applied to the simulated rheumatoid arthritis data set provided by Genetic Analysis Workshop 15. In each step, statistically significant SNPs are extracted from the available set of SNPs that are not yet classified as significant or insignificant. In the first step, the genome wide association analysis (GWA) is performed on the original complete multi-family data set. Then, in the second step we use the tag SNP selection algorithm to find a smaller subset of informative SNP markers. In literature most tag SNP selection methods are based on the pair wise (two-markers) linkage disequilibrium (LD) measures. But in this thesis, both the pair wise and multiple marker LD measures have been incorporated to improve the genetic coverage. Up to the third step the procedure aims to identify individual significant SNPs. In the third step a genetic algorithm (GA) based feature selection method is performed. It provides a significant combination of SNPs and the GA constructs this combination by maximizing the explanatory power of the selected SNPs while trying to decrease the number of selected SNPs dynamically. Since GA is a probabilistic search approach, at each execution it may provide different SNP combinations. We apply the GA several times to obtain multiple significant SNP combinations, and for each combination we calculate the associated pseudo r-square values and apply some statistical tests to check its significance. We also consider the union and intersection of the SNP combinations, identified by the GA, as potentially significant SNP combinations. After identifying multiple statistically significant SNP combinations, in the fourth and fifth steps we focus on extracting rules to explain the association between the SNPs and the disease. In the fourth step we apply a classification method, called Decision Tree Forest, to calculate the importance values of individual SNPs that belong to at least one of the SNP combinations found by the GA. Since each marker in a SNP combination is in bi-allelic form, genotypes of a SNP can affect the disease status. Different genotypes of SNPs are considered to define candidate rules. Then utilizing the calculated importance values and the occurrence percentage of the candidate rule in the data set, in the fifth step we perform our proposed rule extraction method to select the rules among the candidate ones. In literature there are many classification approaches such as the decision tree, decision forest and random forest. Each of these methods considers SNP interactions which are explanatory for a large subset of patients. However, in real life some SNP interactions that are observed only in a small subset of patients might cause the disease. The existing classification methods do not identify such interactions as significant. However, of the proposed five-step multi-SNP combinations procedure extracts these interactions as well as the others. This is a significant contribution to the research on identifying significant interactions that may cause a human to have the disease. Genom dizilimindeki tek bir nükleotidin değişimi ile oluşan DNA dizilimindeki çeşitliliklere tekli nükleotid polimorfizm (SNP) denir. DNA dizilimdeki farklılıklar obezite, diyabet, romatoid artrit gibi kompleks hastalıkların oluşumunda önemli bir etkiye sahip olduğundan, SNP analizi kompleks hastalıkların tanımlanmasında giderek önem kazanmaktadır. Yakın zamandaki biyolojik çalışmalar, tek bir gendeki değişimin kompleks hastalıkların tanılanmasında zayıf olduğunu gösterirken, birden çok gen etkileşiminin önemli bir role sahip olduğunu işaret etmektedir. Bu nedenle, kompleks bir hastalığın teşhis edilmesinde hastalıkla ilişkili tek bir genden ziyade gen kombinasyonlarının incelenmesi gerekmektedir. Ancak insan genomunda çok fazla sayıda SNP bulunduğundan SNP kombinasyonlarının oluşturulması hesaplama açısından zor bir problemdir. Bu nedenle literatürde kompleks bir hastalıkla ilgili önemli SNP kombinasyonlarının çıkarılmasını ele alan çalışmaların sayısı oldukça sınırlıdır. Bu tez çalışmasının amacı bu zorlu problem üzerine yoğunlaşarak istatistiksel olarak önemli SNP kombinasyonlarını ve bu kombinasyonlardaki SNP?ler ile kompleks hastalık arasındaki ilişkiyi gösteren önemli ilişki kurallarının çıkarılmasıdır. Bu kapsamda beş aşamalı arama algoritması geliştirilmiş ve önerdiğimiz prosedür Genetic Analysis Workshop 15 tarafından sağlanan romatoid artrit SNP data setine uygulanmıştır. Prosedürün her bir aşamasında istatistiksel olarak önemli SNP?ler henüz önemli olup olmadığı belirlenmemiş mevcut SNP seti arasından seçilmektedir. Prosedürün ilk aşamasında orjinal SNP verisine genom ilişki analizi, ikinci aşamada ise daha küçük fakat daha bilgi verici SNP seti elde etmek için temsilci SNP seçim metodu uygulanmıştır. Literatürde birçok SNP seçim algoritması ikili bağlantı dengesizliği (pairwise linkage disequilibrium) ölçülerine dayalıdır. Bu tezde, en az sayıda SNP ile maksimum genetik bilgiye ulaşabilmek amacıyla hem ikili hem çoklu bağlantı dengesizlik ölçü metotları kullanılmıştır. Üçüncü aşamaya kadar, önerdiğimiz prosedür SNP?lerin önemini bireysel olarak incelemektedir. Üçüncü aşamada ise genetik algoritmaya dayalı nitelik seçim metodu ile önemli SNP kombinasyonları elde edilmiştir. Genetik algoritma (GA), seçilen SNP sayısını dinamik olarak azaltmakta ve seçilen SNP?lerin açıklayıcı gücünü maksimize edecek şekilde SNP kombinasyonlarını oluşturmaktadır. GA olasılıklı arama yaklaşımı olduğu için algoritmanın her uygulanışında farklı SNP kombinasyonları elde edilebilir. Bu nedenle genetik algoritma birkaç kez uygulanmış ve birçok önemli SNP kombinasyonu elde edilmiştir. Daha sonra, her bir önemli SNP kombinasyonu için istatistik testleri ve ölçüm kriterleri (pseudo r2) kullanılarak SNP kombinasyonlarının istatistiksel önemi kontrol edilmiştir. Ayrıca, belirlenmiş önemli SNP kombinasyonlarındaki ortak SNP?ler belirlenerek bu SNP?lerden yeni bir aday SNP kombinasyonu oluşturulmuştur. Dördüncü aşamada her bir kombinasyondaki en önemli 6 SNP?i belirlemek amacıyla karar ağacı ormanı sınıflandırma metodu uygulanmıştır. Kompleks bir hastalığın oluşumunda SNP genotiplerinin de önem taşıdığı düşünüldüğünden beşinci aşamada SNP?lerin farklı genotipleri aday kurallar olarak göz önüne alınmış ve önemli SNP kombinasyonlarındaki her bir SNP için aday SNP-genotip ilişki kuralları çıkarılmıştır. Beşinci aşamada aday ilişki kuralları arasından önemli kuralları seçmek için, hesaplanan önem değerlerinden ve aday kuralların görülme sıklığından yararlanılarak önerdiğimiz kural çıkarma metodu uygulanmıştır. Literatürde karar ağacı, karar ağacı ormanı, rassal orman gibi birçok sınıflandırma metodu kullanılmaktadır. Fakat bu metotların her birisi hasta insan populasyonunun çoğunluğunu açıklayan SNP etkileşimlerini dikkate almaktadır. Ancak gerçek hayatta bazı SNP etkileşimleri hasta insanların sadece çok küçük bir kısımda gözlemlenmektedir. Mevcut sınıflandırma metotları bu etkileşimleri tespit etmekte yetersiz kalmaktadır. Bizim önerdiğimiz beş aşamalı SNP kombinasyonu arama prosedürü ise hem bu ilişkileri hem de diğer sınıflandırma yöntemleri tarafından bulunan önemli ilişki kurallarını çıkarabilmektedir. Bu nedenle, önerdiğimiz beş aşamalı SNP kombinasyonu arama prosedürü ve ilişki kurallarının çıkarımı algoritması kompleks bir hastalığa neden olabilecek önemli SNP etkileşimlerinin incelenmesine ilişkin çalışmalara önemli bit katkı sağlamaktadır.
Collections