Critical assessment of protein-protein interaction databases and features towards prediction of interactions
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Protein-protein etkileşimleri (PPE) biyolojik süreçlerin her seviyesinde çok önemlidir. Deneysel olarak kanıtlanmış PPE farklı veritabanlarına koyulmaktadır. Bu veritabanları PPE hakkında çeşitli bilgiler içermektedir, fakat hücrelerdeki tüm süreçler göz önüne alındığında, kapsamları düşüktür. Bu yüzden, PPE kapsamını genişletmek için güvenilir, daha doğru hesaplamalı metotlar gerekmektedir. Birçok araştırma grubu farklı bilgi ve metotlara dayanan çeşitli doğrulukta PPE tahmin algoritmaları geliştirmiştir. Ancak, yüksek doğrulukta bir PPE tahmin etme metodu geliştirmek ilgi çekicidir.Bu çalışma, var olan dizilim tabanlı PPE tahmin etme metotlarını değerlendirmeyi ve doğruluk oranları geliştirilmiş yeni bir metot önermeyi hedeflemektedir. Tahminler bir makine öğrenimi algoritması olan Destek Vektör Makineleri (DVM) ile yapılmaktadır. DVM, öğrenim etkileşim veri kümelerine göre kalıplar oluşturur ve etkileşimleri bu kalıplar ile tahmin eder. Bu çalışmada, pozitif öğrenim veri kümeleri deneysel PPE'leri, negatif öğrenim veri kümeleri hesaplanmış etkileşmeyen proteinleri içermektedir. Etkileşim bilgisini DVM'de betimlemek için, proteinlerin amino asit dizilim sıralarına göre n-gram frekansları hesaplanmıştır. DVM performansının, öğrenim veri kümelerindeki etkileşimlerden, farklı amino asit sınıflandırması tekniklerinden, n-gram frekanslarından ve ? değerlerinden fazlaca etkilendiği gösterilmiştir. Sekiz öğrenim veri kümesi için DVM kalıpları oluşturulmuştur ve DVM skorları ile detaylı karşılaştırmaları yapılmıştır. Bu skorlara göre, her veri kümesindeki etkileşimleri iyi tahmin eden birleştirilmiş öğrenim veri kümeleri oluşturulur. Daha sonra, en yüksek DVM skorunu elde etmeyi sağlayan en belirleyici nitelikler kümesi bulunur. Son olarak, en iyi DVM kalıpları, YUPE (Yapısal Uyumlu Protein Etkileşimleri) algoritması tarafından tahmin edilen PPE içindeki yanlış pozitiflerin elenmesi için kullanılır. Protein-protein interactions (PPI) are of crucial importance at all levels of biological processes. The experimentally identified PPI are deposited in several databases. These databases contain diverse information about PPI; but their coverage is low when we consider full processes in cells. Thus, reliable, accurate computational methods are needed to improve the coverage. Many research groups have developed PPI prediction algorithms with varying accuracies based on different data and methods. However, to develop a new PPI prediction method with high accuracy is challenging.This study aims to assess existing sequence based PPI prediction methods and to propose a new algorithm with improved accuracies. The predictions are made via Support Vector Machines (SVM), which is a machine learning algorithm. SVM creates models based on training sets and predicts interactions via those models. In this study, positive training sets contain experimental PPI and negative training sets contain computational non-interacting proteins. In order to represent interaction data in SVM, n-gram frequencies of proteins are calculated according to their amino acid sequences. It is shown that SVM performance is strongly affected by interactions in training datasets, amino acid categorization techniques, n-gram frequencies, and ? values used. SVM models are created for eight datasets and the critical assessment of those datasets is made via their SVM scores. Based on those scores, combined training datasets are created that make accurate prediction of interactions in every dataset. Then, the best feature set that leads to the highest SVM scores is found. Finally, the best SVM models are utilized to eliminate false positives in putative protein interactions predicted by PRISM (Protein Interactions by Structural Matching) algorithm.
Collections