Discovery of amino acid compositions and motifs responsible for topological transitions in protein complexes
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Proteinlerin yapısal sınıflarının tahmini için amino asit yüzdeleri (AAY), sekansları, yapısal motifleri ve amino asit koordinatları gibi birçok özelliği kullanılmıştır. Bazı çalışmalarda, sadece AAY'sinin α, β, α+β, α/β veya bir proteinin monomer ya da dimer olması gibi yapısal sınıfların tahmininde yeterli olduğu gösterilmiştir. Bu çalışmalar AAY'sinin proteinlerin ikincil ve dördüncül yapı sınıflarına evrimsel etkisi açıkça gösterilmiştir. Bu çalışmada ise, sadece proteinlerin AAY'lerini kullanarak birçok makine öğrenmesi tekniği ile proteinlerin topolojik tercihleri tahmin edilmiştir. İkincil ve dördüncül yapı sınıflarının tahminlerinde AAY'leri kullanılarak, K en yakın komşu algoritması ve destek vektör makineleri ile tahminler yapılmıştır. 5 farklı ikincil yapı sınıflarının (α, β, α+β, α/β, s) tahmininde ortalama 0.65 F1 skoru, heteromerik protein komplekslerini içeren 5 farklı dördüncül yapı sınıfı tahmininde ise ortalama 0.62 F1 skoru çoklu sınıf modeli ile elde edilmiştir. 4 protein içeren komplekslere uyguladığımız sonraki analizlerde, simetrisi yüksek ve ayırt edilebilir olan komplekslerin F1 skoru 0.83'e kadar ulaşmıştır ve bu durum AAY'si gibi basit bir özelliğin proteinlerin dördüncül yapısını ne kadar etkilediğini kanıtlamaktadır. Sonrasında fizik tabanlı bir anlayış elde edebilmek için, ikili alfabe modeli H/P (Hidrofobik/Polar) kullanılarak elde edilen zincirlerden komplekslere ait 10-16 harf uzunluğunda birbirinden farklı tekrarlayan motifler tespit edilmiştir. AAY'leri ve tespit edilen motiflerle oluşturulan zincirlere Dağılıcı Parçacık Dinamiği (DPD) benzetimleri uygulandığında oluşturulan bu zincirlerin birbirinden farklı özgün özellikleri gözlemlenmiştir. AAY'leri dördüncül yapıların oluşumunda önemli olsalar da, sekansların oluşturduğu ve etkileşim yüzeylerinde bulunan hidrofobik kısımların topolojik detayları tanımladığı anlaşılmıştır. Prediction of structural classes of proteins has been pursued using various features of proteins such as amino acid composition (AAC), sequence information, structural motifs, and amino acid coordinates. In some studies, it has been shown that using only AACs is enough to predict structural classes such as α, β, α+β, α/β and being monomer or dimer. These studies implicate the evolutionary impact of AAC for secondary and quaternary structure preferences of proteins. In this study, we use AACs to predict the topological preferences of protein complexes by applying several machine learning models. We used k-Nearest Neighbor and Support Vector Machine (SVM) algorithms utilizing AACs as the only feature for the prediction of secondary and quaternary structural classes of proteins. We successfully predicted the five secondary structural classes (α, β, α+β, α/β, s) of proteins with average F1-score of 0.65, and five different quaternary structural classes of heteromeric protein complexes with average F1-score of 0.62 with a multiclass model. Further analyses of complexes having four subunits have also shown that distinctive complexes which have higher symmetry can be predicted more robustly, up to an F1-score of 0.83, proving how a simple feature of proteins is effective for quaternary structure of the protein complexes. To gain a physics-based understanding of these findings, we modeled the chains at the level of H/P (Hydrophobic/Polar) two-letter alphabet and detected unique 10-16 letter long sequences belonging to different quaternary topologies. We applied coarse-grained Dissipative Particle Dynamics simulations on complexes which have repetitions of these sequences and found associations unique to the sequences, despite having the same AACs. Thus, although the AACs are effective in the formation of quaternary structures, sequences creating special hydrophobic patches at the interface determine the topological details.
Collections