De novo SNP calling and demographic inference using trio genome data
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
De novo mutasyonlar ebeveynlerde görülmezken yavruda ortaya çıkan ve Mendel kalıtım kurallarına uymayan mutasyonlardır. Popülasyonların evrimsel tarihlerinin anlaşılmasında yardımcı oldukları için de novo mutasyonaların sayılarının tespit edilmesi genetik çalışmalar için önemlidir. Bu tezde evcil atlarda bir jenerasyonda ortaya çıkan de novo mutasyonları tespit etmeyi ve atların demografik tarihleri üzerine tahminler yapmayı hedefledik. Çalışmada üç farklı at türü (Lipizzaner, Noriker ve Haflinger) için yeni nesil sekanslama teknolojisi ile üretilen üçleme DNA sekans verilerini kullandık. Ham verinin kalite kontrolü ve hizalanmasından sonra, üç farklı varyant çağırma algoritması kullanarak genomik varyantları çağırdık. Tüm varyantları kalitelerine göre filtreledik ve seçilen 50 varyantı Sanger sekanslama ile laboratuarda test ettik. Test edilen varyantların yaklaşık olarak %40'ı valide edildi. Yüksek okuma derinliğine sahip Lipizzaner (n=13) türündeki gerçek pozitif sayısını yüksek, düşük okuma derinliğine sahip Noriker (n=3) ve Haflinger (n=5) türlerindekileri ise daha düşük sayıda bulduk. Sonuçlar gerçek pozitif de novo mutasyonların tespit edilmesinde okuma derinliğinin önemini gösterdi. Ek olarak elimizdeki at popülasyonlarının demografik tarihleri hakkında tahmin yürütmek için PSMC modeli oluşturduk ve ROH analizi yaptık. PSMC ve ROH sonuçları önceki çalışmalarla uyumlu sonuçlar verdi. Sonuç olarak tüm genom sekanslama verisi ile de novo mutasyon tespiti ve popülasyon demografisi tahmini yapabilmek için gereken minimum veri okuması ve kalitesi hakkında fikir sahibi olduk. De novo mutations are novel mutations which are found in the offspring but not the parents and do not obey the Mendelian inheritance rules. Determining how many de novo mutations occur is important for genetic studies since they help to understand the evolutionary history of populations. In this thesis, we aim to examine de novo mutations that occur within one generation in domestic horses and make estimations on horse demographic history. We used DNA-sequencing data produced by next-generation sequencing technologies from trio data of three different horse breeds: Lipizzaner, Noriker, Haflinger. After quality checks and mapping of the raw data we called genomic variants with three different variant calling algorithms. We filtered all variants depending on their qualities to detect de novo candidates and the final 50 de novo candidates were tested using Sanger resequencing. About 40% of the candidate variants could be validated. We found a higher number of true positives in highly covered Lipizzaner (n=13) data, while a lower number of true positives in the low covered Noriker (n=3) and Haflinger (n=5) data, showing the importance of sequencing coverage to detect true de novo mutations. In addition, we used the Pairwise Sequentially Markovian Coalescent (PSMC) model and performed runs of homozygosity (ROH) analyses to estimate demographic history. Both PSMC and ROH results were coherent with previous studies. All in all, we had an idea for the minimum coverage threshold and quality of whole genome sequencing data, to determine de novo mutations and to estimate population demography.
Collections