Determination of protein-protein binding sites using machine learning tools
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Protein-protein etkileşimi bir çok biyolojik işlemlerde önemli rol oynamaktadır. Bu nedenle etkileşi belirleyen özelliklerin anlaşılması gerek proteinin foksiyonunun belirlenmesi gerekse o proteindeki önemli amino asitlerin belirlenmesi açısından oldukça önemlidir. Proteinler yüzeydeki aminoa citleri aracılığı ile etkileşime geçerler ancak proteini bütün yüzeyi bağlanmaya elverişli değildir. Yüzeyde bulunan bazı bölgeler, yüzeyin geri kalan kısmından farklı bir takip özelliklee sahip olduğu için, protein sadece bu bölgesi aracılığı ile etkileşime girebilmektedir. Bu çalışmada, öncelikle bağlanma yüzeyindeki amino asitleri yüzeyin geri kalan kısmından ayıran özellikler araştırılıp, daha sonra bu özellikler muhtemel bağlanma amino asitlerinin makine öğrenmesi ile tahmininde kullanıldı. Söz konusu özellikler; aminoa sitlerin bulunma sıklıkları, hidrofobisitileri, yan zincirlerinin yüklülük durumu ve yüklü ise yükünün ne olduğu, evrim boyunca korunması, yüzey alanı, hareketliliği ve amino asitlerin salınımlarının birbirleri ile olan korelasyonu. Bu özellikler proteinin üç bölgesi; etkileşim yüzeyi, yüzeyin geri kalan kısmı ve proteinin çekirdeği, açısından incelendiğinde görüldü ki, bazı amino asitler yüzeyde veya çekirdekte olmayı tercih ederken bazıları ise bağlanma bölgesinin dışında kalan yüzeyi tercih etmekteler. Öte yandan etkileşim bölgesindeki amino asitler, yüzeyin geri kalan kısmına göre daha hidrofobik ve evrim boyunca daha çok korunmuş amino asitlerden oluşmakta. Protein kompleksleri 4 gruba ayrılarak homojen ve heterojen kompleksler birbirleri ile ve geçici ve zorunlu kompleksler de kendi aralarında karşılaştırıldı. Daha sonra incelenen bu özellikler kullanılarak birer makine öğrenmesi metodu olan destek vektör makinesi ve çoklu kernel öğrenmesi metodları ile muhtemel bağlanma amino asitleri tahmin edilmeye çalışıldı. Destek vektör makinesi ile mevcut koşullarda ulaşılan maximum doğruluk %81.3 olarak gerçekleşirken çoklu kernel öğrenmesi ile görüldü ki, nihayi sonuca en çok etki eden özellikler, amino asit tipi, korunumu, yüzey alanı ve protein içerisinde sözkonusu amino asitin bulunduğu yer, gerek hızlı gerekse yavaş modlarda amino asitlerin salınımları arasındaki korelasyon ve sözkonusu amino asitin yakın çevresindeki amino asitlerin ne oldugu bilgisi olduğu görüldü Protein-protein interactions are involved in almost all biological processes. Thus, the understanding of the principles underlying these interactions is of great significance. This is mainly to identify the functional sites in proteins and study how proteins function. The whole surface of the protein is not available for interaction with other proteins. There are some distinctive properties that differentiate binding residues from the rest of surface residues. To explore and further to predict the binding interfaces, the present work is composed of two sections. The first part is the identification of differentiating properties for three main groups of residues in a protein, namely, core, binding and non-binding surface residues on a database of 263 proteins. These properties are sequence and structure related characteristics, and as well dynamic peculiarities, of residues such as; the residue propensity, hydrophobicity, side chain polarity and charge, conservation, accessible surface area, and the fluctuations. Some residues prefer being at interface or core rather than the non-interface surface. The hydrophobic residues are favored at interface or in core of the protein. Positively charged polar residues are abundant at interface while the non-polar or polar but neutral ones are mostly found in the core. The interface and core residues have also higher conservation scores. The residues that have higher fluctuations with rest of the residues in the fastest and in the slowest modes by Gaussian Network Model (GNM) are mainly located at interface of proteins. These aforementioned properties are also analyzed in terms of the type of interactions, namely, homogeneous versus heterogeneous complexes and transient versus permanent complexes for a further understanding of the interaction sites. In the second part, these properties are used to predict the binding residues of proteins using support vector machines (SVM) and multiple kernels learning (MKL). Both of these methods are supervised classifier. The maximum accuracy obtained by SVM is 81.3 %, which is the highest observed accuracy in binding site prediction over the literature. The contributions of the grouped properties to the final results are determined by MKL. The type of amino acid, conservation score, accessible surface area and state of the amino acid (core or surface), relative correlations between fluctuations in both fast and slow modes, and the packing of the residue have the most contribution.
Collections