Prediction of permissive insertion sites in proteins
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Proteinlere farklı proteinlerin eklenmesi yönteminin, birbirinden farklı protein mühendisliği uygulamalarında kullanılan farklılaştırılmış protein üretimi sürecindeki etkinliği kanıtlanmıştır. Protein ekleme, proteini ifade eden gen üstünde belli başlı bölgelere gen yerleştirerek farklı bir protein elde edilir ve proteinin işlevselliğinde değişikliğe yol açar. Proteinler, sadece üzerlerinde belli başlı alanlara yapılan yerleştirmeleri tolere edebilirler. Bu yüzden bu tolere edilen yerleştirme alanlarının tanımlanması, başarılı bir yerleştirme yapabilmek için büyük önem taşır. Bu yerleştirime alanları, deneme yanılma yöntemiyle tanımlanabilir. Fakat, bu alanlara yönelik doğruluk oranı yüksek bir tahmin yöteminin geliştirilmesi, bu alanların ortaya çıkarılmasını kolaylaştıracaktır.Bu çalışmada, makina öğrenmesi ve veri madenciliği yöntemlerini kullanarak, proteinlerin tolere edilebilen gen yerleştirme alanlarını tahmin etmekteyiz. Bu tahminler eğitilmiş tahminler olarak adlandırmaktayız. Eğitilmiş tahminlere, gen yerleştirme alanını çevreleyen amino asitlerin belirgin özelliklerini seçerek ulaşmaktayız. Bu tek sayıdaki yerleştirme bölgesini çevreleyen amino asitleri, boyu ayarlanabilen bir pencere yardımıyla belirlemekteyiz. Yerleştirme bölgesi, bu pencerenin ya merkez noktasına ya da orta değer noktasına düşmektedir. Bu pencere içerisinden, amino asitlerle alakalı bir grup özellik elde edilmiştir. Sonrasında, SVM makine öğrenme yöntemini kullanılarak, 10 farklı proteinden elde edilen gen yerleştirmeye elverişli ve elverişsiz 135 bölge ile eğitilerek bir model oluşturulmuştur.Eğitilmiş modelimiz, Dış zar yer gösterici proteini FasD, Laktoz kalıt baskılayıcı LacI, Tip II sekresyon sistemi proteini XpsD ve de Maltoz periplazmik proteini MalE için sırasıyla %70.59, %61.11, %61.90 ve %90.00 doğruluk oranlarına erişmiştir. The procedure of domain insertion is proven to be very effective in the process of creating modified proteins that can be used for different protein engineering applications. Domain insertion alters the functionality of the protein by inserting gene or genes into certain domains. Proteins usually tolerate insertions in specific sites only, therefore identifying those permissive insertion sites is crucial for any successful insertion attempt. Normally, determining permissive insertion sites is performed experimentally by a genetic approach. However an educated guess can assist in predicting the potential permissive insertion sites.In this work, we introduced a method for predicting permissive insertion sites through the utilization of machine learning and data mining techniques. We have adopted an educated guess approach to predict permissive sites by extracting distinctive features from the amino acids surrounding the insertion site included within any captured amino acid window. The window size was made adjustable and can capture any odd number of amino acids. We used a number of features related to amino acids obtained from this window and then used a machine learning based approach to construct a trained SVM model using 135 permissive and non-permissive sites obtained from 10 different proteins.Our trained model was used to predict permissive insertion sites in Outer membrane usher protein FasD, Lactose operon repressor LacI, Type II secretion system protein XpsD, and Maltose periplasmic protein MalE and 70.59%, 61.11%, 61.90% and 90.00% accuracies were achieved respectively.
Collections