Prediction of the effects of single amino acid variations on protein functionality with structural and annotation centric modeling
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Genom üzerindeki tekli nükleotid değişiklikleri protein dizisi, yapısı ve kararlılığı üzerinde yarattığı etkiler aracılığıyla proteinlerin işlevlerinde önemli değişikliklere sebep olabilir. Bu sinonim olmayan tek nükleotid polimorfizmleri, insanda pek çok hastalığın oluşumundan sorumludur. Uzmanların bu mutasyonları anote etme (etiketleme) hızı, günümüzde yeni dizi verisi üretme hızının çok gerisinde kalmaktadır. Bu süreci hızlandırmak için hesaplamalı yöntemler geliştirilmekte ve otomatize şekilde bilinmeyen veri üzerinde uygulanmaktadır. Bu çalışmada, sinonim olmayan tekli nükleotid değişikliklerinin amino asit seviyesinde gösterdikleri etkiler hakkındaki bilgilerin çeşitli veri tabanlarından toplanması ve organize edilmesi, bunun yanında bu bilginin etkisi bilinmeyen tekli nükleotid değişikliklerinin proteinin işlevine zarar verme potansiyellerinin gözetimli makine öğrenmesi yaklaşımı kullanarak tahmini için bir metodoloji sunulmuştur. Bu amaçla, UniProt, ClinVar ve PMD gibi çeşitli veri tabanlarından anote edilmiş 157,138 mutasyon (89,363 zarar gösteren ve 67,775 zarar göstermeyen) toplanmıştır. Her mutasyon veri noktası için, ilgili genin ürünü olan proteinin 3 boyutlu yapı bilgisi ve bölgesel UniProt dizi anotasyonları kullanılarak bir öznitelik vektörü oluşturulmuştur. Ayrıca, her mutasyon öznitelik vektörüne o mutasyonun, üzerinde bulunduğu genin ürünü olan proteinin bölgesel dizi anotasyonlarına olan uzaysal uzaklığı eklenmiştir. Bu öznitelik vektörleri ve bunların etiketleri kullanılarak, amacı mutasyonları protein işlevine zarar verenler ve zarar vermeyenler şeklinde sınıflandırmak olan ve rastgele orman algoritmasını kullanan bir makine öğrenmesi modeli geliştirilmiştir. Bu model çeşitli öznitelik alt gruplarının tahmin başarısına etkisini ölçmek üzere detaylı bir şekilde değerlendirilmiştir ve nihai model bağımsız bir test seti üzerinde tatmin edici bir başarıya ulaşmıştır (AUROC:0.86, kesinlik: 0.77, duyarlılık 0:90, doğruluk: 0.78, F1-puanı: 0.83 ve MCC: 0.54). Ayrıca, modelin performansının, standart bir veri seti üzerinden mutasyon etki tahmini yapan yaygın yöntemlerin sonuçlarıyla kıyaslaması gerçekleştirilmiştir. Gelecekte yapılacak çalışmalar olarak, bir vaka çalışması yürütülerek, yeni mutasyon etki tahmin sonuçlarının literatür bazlı bilgi ile doğrulanması planlanmaktadır. Ayrıca, geliştirilen yöntemin kullanıma hazır bir komut satırı aracı haline getirilerek açık kaynaklı bir veri deposu vasıtasıyla araştırma topluluğuyla paylaşılması amaçlanmaktadır. Geliştirilen yöntemin literatürde sıkça kullanılmakta olan mutasyon etki tahmini araçlarıyla beraber olarak kullanılmasının tamamlayıcı bir etki yaratacağı ve bu yöntemlerin tahmin performanslarını arttıracağı düşünülmektedir. Whole-genome and exome sequencing studies have indicated that genomic variations may cause deleterious effects on protein functionality via various mechanisms. Single nucleotide variations that alter the protein sequence, and thus, the structure and the function, namely non-synonymous SNPs (nsSNP), are associated with many genetic diseases in human. The current rate of manually annotating the reported nsSNPs cannot catch up with the rate of producing new sequencing data. To aid this process, automated computational approaches are being developed and applied on the unknown data. In this study, we propose a new methodology to collect and organize the information related to the effects of nsSNPs at the amino acid sequence level from various biological databases and to utilize this information in a supervised machine-learning based system to predict the function disrupting capacities of mutations with unknown consequences. For this, 157,138 annotated mutation data points (89,363 deleterious and 67,775 neutral) were collected from multiple resources such as UniProt, ClinVar and Protein Mutant Database. For each mutation data point, a feature vector was constructed using protein 3-D structure information and site-specific feature annotations in the UniProt database. The information about the spatial proximity of the reported mutations to these protein features were also incorporated to the feature vector. The system was trained with these feature vectors and their respective labels in a supervised fashion using random forest, where the ultimate aim was to construct a model that classifies unknown mutations either as deleterious or neutral. The prediction model was evaluated in detail to observe the contribution of different feature types to the prediction success. The finalized model displayed a satisfactory performance (AUROC:0.86, precision: 0.77, recall 0:90, accuracy: 0.78, F1-score: 0.83 and MCC: 0.54) on the independent test dataset. Besides, the performance of the proposed model was compared to the widely used variant effect predictors in the literature, over standard benchmark datasets. As future work, we plan to conduct a case study over interesting prediction examples and to validate our results via literature-based information. Finally, we plan to construct a ready-to-use command line based variant effect prediction tool and to share it with the research community over an open access data repository. We believe that this system will be complementary to the well-known methods in the literature and its incorporation to ensemble-based tools will increase the performance of the state-of-the-art in variant effect prediction.
Collections