Quality assessment of high-throughput DNA sequencing data via range analysis
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Günümüzde, yüksek hacimli DNA diziliminin yaygınlaşmasıyla birlikte, sadecearaştırma merkezleri değil, aynı zamanda hastaneler, klinikler ve hatta bireylergibi uygulayıcılar sıralama merkezlerinin müşterileri oldular. Bu, üretilen sekansverilerinin kalitesini değerlendirmek için bir gereklilik getirmektedir.Uygulamadan bağımsız olarak, bu verilerin getirdiği en büyük güçlük, bu plaçelerdençıkan DNA sırası okumalarının güvenilirliklerini etkili bir şekilde karakterize etmeyeteneğidir. Bu veri analizinde güvenilir sonuç elde etmek için, genom montajısırasında okuma haritalama ve yollarındaki uyuşmazlıklardan kaçınarak düşük kaliteliokumaları ortadan kaldırmak çok önemlidir.Bilgileri ayıklamak ve değerli sonucu istatiksel ve diğer analiz biçimlerinde damıtarakkullanan çeşitli araçlar ve yöntemler kullanılmıştır; daha sonra, onları aktif bilgitoplamak ve kullanıcılara net bir içgörü elde etmek için kullanıcılara ve bilimadamlarına sunmuştur.Sıralama verilerinin kalitesinin değerlendirilmesi için yapılan önceki çalışmalarçoğunlukla, FASTQ dosyasında bildirilen A-C-G-T bazlarının istatistiksel dağılımını,örneğin baz sayısının oranı veya GC içeriği olarak değerlendirmiştir. Bununla birlikte,sıralama makineleri çıktı FASTQ dosyasında okudukları her bir taban için kalite puanısağlar ve ilginç bir şekilde, bu kalite puanı kaliteyi ölçmek açısından henüz fazla dikkatçekmedi.DNA veri kalitesi değerlendirmesi için daha önce yapılmış çalışmalar çoğunlukla,düşük kaliteli okuma veya okuma bölümlerinden kurtulmak için her okumave filtrelemede Phred kalite puanlarını değiştiren istatistiksel raporlar sağlamayaodaklanmıştır. Buna ek olarak bazı ek analitik araçlar olabilir. Bu çalışmada, bir DNAdizilimi verisini (FASTQ dosyası) değerlendiren yeni metrikler tanımlanmıştır. Amaçen uzun yüksek kalitede okuma ve okuma parçalarını bulmaktır.Bu çalışmada, yalnızca sıralama verisinin kalite skorlarından hesaplanan bazı yenimetrikler sunuldu. Bu çalışmada tanıtılan ölçümler, Kalite skoru akışı üzerinde tersaralık seçimi sorguları gerçekleştirlmiş. Burada hedef, eşik değerine, v, eşit veya dahadüşük olan k puanlarını içeren tüm aralıkları saptamaktır.Buradaki motivasyon, daha az hataya sahip uzun aralıkların, DNA sıralamaverilerinin post-processing'de kullanılan araçların performansını arttırdığı gerçeğidir.Önerilen metriklerin, verilerin hassas bir şekilde paylaşılmasına gerek kalmadankullanıcıların gizlilik koruyan değerlendirmeyi elde etmelerine izin verdiği dikkatçekicidir. Doğrudan A-C-G-T üslerine göre özel bilgi olmayan kalite skorlarındanhesaplanmaktadır. Böylece, uzak ve bağımsız kalite değerlendirmesi, yalnızcaverilerin kalite puanlarını paylaşarak başarılabilir.Bu çalışmada, yalnızca sıralama teorisinin kalite puanlarından hesaplanan bazı yenimetrikler sunuldu. Bu çalışmada tanıtılan ölçümler, k puanlarının eşik değeri v denküçük veya ona eşit olan tüm aralıkları saptamak amacının bulunduğu kalite puanıakışları üzerinden ters aralık seçim sorguları gerçekleştirilmesine dayanmaktadır.InvRS(k, v), v den küçük veya eşit olan k skorlarını içeren aralıkları döndürür veonu seçme nedeni ile birlikte Q daki her öznitelik tanımlarız. Program, tanımlanmışmetrikler nedeniyle çıkarılan kalite puanları üzerinde ters aralık seçim algoritmasıuygulayan python ile yazılmıştır. Sonuçlar, matplotlib, kalite göstergeleri içinpython kütüphanesi ve analizin daha kolay ve net olmasını sağlayan bir pdf dosyasıkullanılarak rakamlarla gösterilir.Bu aralıkları saptamak için algoritmayı sunup uzunluklarından hesaplanan yenimetrikleri sunmaktayız. Bu metrikler, k ve v girdi parametrelerine uygun olan fragmanuzunluklarının ve fragmanların sayısının en uzun, en kısa, ortalama, kübik ortalama vekatsayı değişimi için ortalama değerleri içerir.Program dosyayı aldığından, kullanıcı tanımlı özelliklerle en uzun okumaları bulmakiçin Phred kalite puanlarını ekstre edecektir.Phred kalite skoru metriklerinbelirlenmesinde önemli rol oynamaktadır. Çünkü okumanın uzunluğunu bu değeregöre alacağız, o zaman ölçümler okunan uzunluklara dayanarak tanımlanacak.Dolayısıyla DNA dosyasından Phred kalite skorları çıkararak, onların üzerinden enuzun, kaliteli okumları buluyoruz. Ama bu okumlar, kullanıici ilk başda giren k ve vdeğerlerini takıp etmelidir. Sonra bulmuş olduğumuz uzunluklara göre metriklerimizihesab ediyoruz.Bu verileri değerlendirmek için, bir FASTQ dosyası giren farklı veri yapılarınıkullanarak bir python programı yazılmış. Okuma sırasında düşük kalite değerlerisayısı için kullanıcı tarafından tanımlanan eşik, k, maksimum kalite değeri v, aralıkolabilir ve kullanıcının veri üzerine filtrelem uygulanmasını istiyorsa, filtreleme yapılır,istatistiksel sonuçlar ve şekiller iyi sıralı veriler olup olmadığını belirlemek için birçıktı olarak gösterilir.Veri ile ilgili bilgi sahibi olmak, analiz açıkça ve daha fazla soruşturma hızlayapılabilir. Bu amaçlara ulaşmak için, DNA veri kalitesi değerlendirmesi, eldekiverilerin çeşidine ilişkin açıklama yaparak önemli bir rol oynamaktadır.Aralık analizi vasıtasıyla sıralama verilerinin kalite değerlendirmesi için yeni biryazılım aracı, QASDRA, sunuyoruz. Python'da uygulanan ve https://github.com/ali-cp/QASDRA.git adresinden kamuya açık olan QASDRA, kullanıcıtarafından belirlenen k ve v parametrelerine göre bir giriş FASTQ dosyasının kalitedeğerlendirme raporunu oluşturur. Ayrıca, tanıtılan metriklere göre okumalarıfiltreleme özelliğine de sahiptir.DNA Kalite Değerlendirmesi için yapılan bu tezde, QASDRA en uzun yüksek kaliteliokuma parçalarını tespit etmek için `Ters Aralığı Seçim Sorgusu Algoritmasını`kullanır ve tanımlanan metrikler bu okunan bölümlerde uygulanarak analiz edilir.Verilen DNA dizilimi verileri ve sonuçları matplotlib kullanılarak rakamlarla, çeşitliformatlarda kaliteli şekiller üretmek için ve platformlar arası etkileşimli ortamlarüretmek için verilecektir. Bu, iyi bir diziliş olup olmadığı belli bir veri dizisi hakkındakullanıcıya bilgi verecektir. Bu sonuçlar daha sonraki gelecek analazler için dekullanılabilir.Bir girdi FASTQ dosyası verildiğinde, kullanıcı tanımlı değerleri karşılayan enuzun, en kısa, ortalama okuma parçalarının dağılımı, sayı dağılımı Okuma başınafragmanların toplamı, toplam fragman uzunluklarının dağılımı ve ortalama dağılımıKaliteyi belirten nitelikler gösterilir. Girdideki her okunan kalite skoru üzerinde aralıksorgusu çalıştırılarak verilerin kalite değerlendirmesini gösterir.Çeşitli platformlar tarafından üretilen FASTQ dosyalarının karşılaştırmalarını, çeşitlik ve v değerleri için bu metrikler açısından analiz ederiz. Bu platformların iyive kötü sıralı veriler açısından farklılıkları ve ileride daha da ileri analizleri nasıletkileyecekleri gösterilmektedir. Bu sonuçları değerlendirmek ve aşağı akış analizininasıl geliştirdiğini öğrenmek için başka bir deney yaptık.Yüksek İşleme sıralama yöntemleri, düşük maliyetle ve kısa sürede büyük miktardaveri üretir ve farklı platformlar, çeşitli okuma hataları seviyeleri sunabilir. Bunlarınarasında Illumina genom dizilimi için en yaygın platformlardan biridir. Bu verilerinkalitesini değerlendirmek, verilerin analizinde hayati bir rol oynamaktadır.Bu sorunun üstesinden gelmek için, bu araç tarafından sağlanan sonuçlarıkullanarak haritalama oranlarının iyileştirilmesini göstereceğiz. Bu deney, analizöncesi ve sonrası haritalama oranlarının farklılıklarını göstermek için BWA-MEMkullanmaktadır. Tanımlanmış metrik haritalama oranının çoğunun iyileştirildiğigösterilmiştir. With the spread of High-Throughput DNA sequencing, today, not only the researchcenters, but also the practitioners such as the hospitals, clinics, and even individualsbecome customers of the sequencing centers. This brings a necessity to assess thequality of the sequence data produced.Previous studies for the evaluation of the quality of the sequencing data mainlyconsidered the statistical distribution of the reported A-C-G-T bases in FASTQ file,eg., the ratio of the number of bases, or the GC content. However, the sequencingmachines provide quality scores per each base they read in the output FASTQ file,and interestingly, those quality scores have not yet received much attention in terms ofmeasuring the quality.In this study, we introduce some new metrics that are computed solely from the qualityscores of the sequencing data. The metrics introduced in this study are based onperforming inverse range selection queries over the quality score streams, where theaim is to detect all intervals that include k scores less than or equal to threshold valuev.The motivation here is the fact that long intervals having fewer errors, improve theperformances of the tools used in post-processing of the DNA sequencing data. It isnoteworthy that proposed metrics let the users achieve privacy-preserving assessmentof their data without a need to share any sensitive information since they are computeddirectly from the quality scores that are not private information as appose to theA-C-G-T bases. Thus, remote and independent quality assessment can be achievedby sharing only the quality scores of the data.InvRS(k, v) returns the intervals that include k scores less than or equal to v. wedescribe each attribute in Q along with the reason to select it. The program is written inpython implementing inverse range selection algorithm on the extracted quality scoresdue to defined metrics. The results are shown in figures using matplotlib, python libraryfo quality figures, and a pdf file which makes analysis easier and clear.We present the algorithm to detect those ranges and introduce new metrics computedfrom their lengths. These metrics include the mean values for the longest, shortest,average, cubic average, and coefficient variation of the fragment lengths and numberof fragments that are appropriate according to the k and v input parameters.We provide a new software tool QASDRA for quality assessment of sequencing datavia range analysis. QASDRA, implemented in Python, and publicly available athttps://github.com/ali-cp/QASDRA.git, creates the quality assessmentreport of an input FASTQ file according to the user specified k and v parameters. Italso has the capabilities to filter out the reads according to the metrics introduced.Given an input FASTQ file, we depict some metrics in plots as distributions of longest,shortest, average read fragments satisfying user-defined values, distribution of thenumber of fragments per read, distribution of overall segment lengths, and distributionof mean qualities are shown indicating the quality assessment of the data by runningthe range query on the quality scores of each read in the input.We analyze the comparisons of the FASTQ files produced by different platforms interms of these metrics for various 'k' and 'v' values. Differences of these platforms inthe terms of good and bad sequenced data and how they affect further future analysis isshown. In order to evaluate these results and how it improves the downstream analysis,we have run another experiment.In order to tackle this question, we will show the improvement of mapping rates usingthe results provided by this tool. This experiment uses BWA-MEM to illustrate thedifferences of mapping rates before and after analysis. It is shown that for most of thedefined metrics mapping rate have been improved.
Collections