Protein structure prediction using decision lists
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
ÖzetProteinler hayatın yapıtaşlarıdır. Bu yapıtaşlarının yapıları ise işlevlerinde, dolayısıyla da canlıorganizmaların işlevlerinde hayati bir rol oynar. Protein yapısının tespiti için her seferindeöncekilerden daha etkili yöntemler geliştirilse de, hala bir proteinin amino asit dizisini bulmakkatlanmış yapısını bulmaktan daha kolaydır ve bilinen protein yapıları ile bilinen dizilerin sayılarıarasındaki fark ivmelenerek artmaktadır. Yapı tahmin yöntemleri bu farkın kapanmasında yardımcıolabilir.Bu çalışmada, yapı tahmininin (hem ikincil hem üçüncül yapı) çeşitli yönlerini inceledik. Örüntütabanlı protein yapı tahmini kurallarından oluşan bir liste öğrenen bir işlemsel süreç (Açgözlü KararListesi öğrenici, veya İngilizce kısaltmasıyla GDL) geliştirdik. Sonuçta oluşan kural listeleri kısa,okunaklı ve yoruma açıktır. Yöntemimizin ikincil yapı tahminlerindeki başarımı, 513 protein zinciriiçeren artıksız bir veri kümesi üzerinde (CB513) 7-kat çapraz doğrulama kullanarak tasdiklendi.Yöntemin ikincil yapı tahminindeki genel üç-durumlu doğruluğu, sadece dizi bilgisini kullanarak%62.5 ve çoklu dizi hizalaması kullanarak %69.2. GDL'i bir proteinin üçüncül yapısını omurgasınıniki-düzlemli açıları phi ve psi üzerinden tahmin etmek için kullandık. Açıların gösteriminde kullanılanufalanmanın üçüncül yapı tahminlerinin başarımına etkisi incelendi.Mevcut yapı tahmini yaklaşımları, doğruluğu yorumlanabilirliğin önünde tutarak gitgidekarmaşıklaşan modeller inşa ediyorlar. İnanıyoruz ki, GDL modellerinin sadeliği, proteinlerin yereldizisi ve yapıları arasındaki ilişkiye bilimsel bir sezgi sağlamaktadır.Anahtar kelimeler: protein yapı tahmini, ikincil, üçüncül, açgözlü karar listesi öğrenicivolkan [at] su.sabanciuniv.edu AbstractProteins are building blocks of life. Structure of these building blocks plays a vital role in theirfunction, and consequently in the function of living organisms. Although, increasingly effectivemethods are developed to determine protein structure, it is still easier to determine amino acidsequence of a protein than its folded structure and the gap between number of known structures andknown sequences is increasing in an accelerating manner. Structure prediction algorithms may helpclosing this gap.In this study, we have investigated various aspects of structure prediction (both secondary andtertiary structure). We have developed an algorithm (Greedy Decision List learner, or GDL) that learnsa list of pattern based rules for protein structure prediction. The resulting rule lists are short, humanreadable and open to interpretation. The performance of our method in secondary structure predictionsis verified using seven-fold cross validation on a non-redundant database of 513 protein chains(CB513). The overall three-state accuracy in secondary structure predictions is 62.5% for singlesequence prediction and 69.2% using multiple sequence alignment. We used GDL to predict tertiarystructure of a protein based on its backbone dihedral angles phi and psi. The effect of anglerepresentation granularity to the performance of tertiary structure predictions has been investigated.Existing structure prediction approaches build increasingly sophisticated models emphasizingaccuracy at the cost of interpretability. We believe that the simplicity of the GDL models providesscientific insight into the relationship between local sequence and structure in proteins.Keywords: protein structure prediction, secondary, tertiary, greedy decision list learnervolkan [at] su.sabanciuniv.edu
Collections