İnsan ve HIV-1 proteinleri arasındaki etkileşimlerin rastgele orman yöntemi ve birlikte öğrenme yaklaşımı ile tahmin edilmesi
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Protein-protein etkileşimi canlı organizmaların yaşamını devam ettirmesinde hayati önem taşır. Birçok hücresel fonksiyon proteinlerin etkileşmesi ile gerçekleşir. İnsan ve virüse ait proteinlerin etkileşmesi de viral enfeksiyon oluşmasında rol oynar. Bu nedenle etkileşen protein çiftlerinin bilinmesi hem insan biyolojisini hem de viral enfeksiyonları anlamak açısından önemlidir.Bu çalışmada HIV-1 virüsüne ve insana ait proteinlerin etkileşip etkileşmediğini tahmin etmek için yapay öğrenme teknikleri kullanıldı. HIV-1 virüsüne ait 17 protein, insana ait proteinler ile 354841 olası etkileşim çifti oluşturmaktadır. Bu olası protein çiftlerinin, gerçek dünyadaki etkileşim oranının 100'de 1 olması beklenir. Bütün bu olası çiftlerin gerçekten etkileşip etkileşmediğini deneysel olarak test etmek zamansal ve finansal kısıtlardan dolayı mümkün değildir. Bu yüzden hesaba dayalı yöntemler araştırmacılara, arama uzayını daraltmada ve iyi adaylar önermede yardımcı olur.Kullanılan veri kümesindeki örnekler, biri insana diğeri HIV virüsüne ait olmak üzere protein çiftlerinden oluşmaktadır. Her protein çifti 18 boyutlu bir vektör ile temsil edilmiştir. Protein çiftleri pozitif, negatif ve kısmi pozitif olarak sınıflandırılmıştır. Uzmanlar tarafından arasında etkileşim olduğu deneysel olarak onaylanmış protein çiftleri pozitif olarak sınıflandırılmıştır. Kısmi pozitif olarak sınıflandırılan protein çiftleri bazı anahtar kelimelere göre bilimsel literatürden elle çıkarılmıştır. Bu anahtar kelimeler iki grupta ele alınmıştır. Birinci grup anahtar kelimeler `interacts with' (ile etkileşime geçer), `binds' (bağlar) gibi etkileşimi göstermesi bakımından güçlüdür. İkinci grup anahtar kelimeler ise `upregulate' (artarak düzenler) ve `inhibits' (durdurur) gibi doğrudan etkileşimi göstermemesi bakımından daha zayıftır. Kısmi pozitif protein çiftleri negatife nazaran pozitife daha yakındır, ancak uzmanlar tarafından onaylanmadığı için pozitif sayılamaz. İki proteinin etkileşmediğini göstermek neredeyse imkansızdır. Dolayısıyla etkileşmeyen protein çiftlerinin geniş kümesi yoktur. Sınıflandırma işleminin yapılabilmesi için gerekli olan negatif örnekler, pozitif ve kısmi pozitiflerden arta kalan protein çiftlerinden örnekleme yöntemi ile alınır. Örnekleme etkileşime girmeyen protein çiftlerinin çoğunlukta olduğu varsayımına dayanarak yapılır. Negatif örneklerin bu yolla seçilmesi yaygın olarak kullanılan bir yöntemdir.Gözetimli yapay öğrenme yöntemleri sınıflandırılmış veriye ihtiyaç duyar. Üzerinde fazlaca çalışılmış organizmalar haricinde birçok organizma için, başarılı bir sınıflandırıcı geliştirmeye yetecek miktarda protein-protein etkileşim verisi bulunmaz. Bu da ek bilgi kullanmayı gerekli kılar. Bu tezde kullanılan veri kümesinde, ek bilgi literatürden çıkarılan kısmi pozitif protein çiftleridir. Kısmi pozitif örnekler uzmanlar tarafından doğrulanmamış olduğu için, gürültü içermeye yatkındırlar.Bu çalışmada kısmi pozitiflerin daha etkili kullanılabilmesi için çeşitli yaklaşımlar geliştirildi. Sade adı verilen ilk yaklaşımda kısmi pozitif veri yok sayıldı. Model, pozitif ve örneklenen negatif protein çiftleri kullanılarak geliştirildi. İkinci yaklaşımda bütün kısmi pozitif örnekler doğrudan pozitif kabul edilerek eğitim kümesine dâhil edildi. Test kümesi ise sadece uzmanlar tarafından onaylanan pozitiflerle örneklenen negatiflerden oluşturuldu. Üçüncü yaklaşımda kısmi pozitifler, beraber öğrenme yapısında şu şekilde kullanıldı. Pozitif ve örneklenen negatif protein çiftleri kullanılarak ilk model oluşturuldu. Bu model ile kısmi pozitif örnekler sınıflandırıldı. Bu sınıflandırma işleminin sonucunda yüksek değerde sınıflandırılan örnekler eğitim kümesine eklenerek model yeniden eğitildi. Bu işlem eğitim kümesine eklenecek örnek kalmayıncaya ya da eklenecek örnek sayısı önemsiz düzeye gelinceye kadar devam ettirildi. Rastgele Orman yöntemi kullanılarak gerçekleştirilen deneylerin sonucuna göre, en iyi performans kısmi pozitiflerin kullanılmadığı yaklaşımda elde edildi. Öte yandan, bütün kısmi pozitiflerin doğru kabul edilerek eğitim kümesine dâhil edilmesi performansı olumsuz yönde etkiledi ve kesinliği düşürdü. Kısmi pozitiflerin birlikte öğrenme yapısında kullanılması, tamamın doğru kabul edildiği yaklaşıma göre daha iyi sonuç verdi. Ayrıca bu yaklaşım ile kısmi pozitif örneklerin kullanılmasından doğan kesinlik değerindeki düşüşün de önüne geçildi. Ancak performans öngörüldüğü biçimde arttırılamadı. Pozitif örneklerin niteliği bunun başlıca sebebi olarak yorumlandı. Pozitif örneklerin yarısı kullanılarak geliştirilen modelin performansı, tamamının kullanıldığı duruma göre pek farklılık göstermedi. Bu sonuç, pozitif örneklerin birbirine benzediği ve insan-HIV arasındaki etkileşim kümesinin tamamını temsil edecek şekilde yeterince kapsayıcı olmadıkları fikrini verdi. Protein-protein interactions are very important for maintaining the life of an organism. Many biological functions are carried out with the interactions of proteins. Interactions between human and virus proteins play roles in viral infections. Therefore, identifying interacting pairs of proteins is critical to understand both human biology and viral infections.In this study, we used machine learning methods to predict interactions between human and HIV-1 proteins. HIV genome encodes for 17 proteins (two of them are actually precursors of the envelope (env gp160) and gag (gag pr55)), resulting in 354841 possible HIV-human pairings. Actual physical interactions among these possible pairs are expected to be only 1 in about 100. Due to financial and time constraints it is not possible to experimentally verify whether each pair really interacts. Therefore, computational methods are indispensable to help researchers narrow down the search space and to suggest good candidates to test experimentally.We approached this issue as a classification problem. We used machine learning methods to classify instances as interacting or non-interacting. Instances in the dataset are protein pairs, where one protein belongs to HIV-1 and the other to human. Each pair is represented by an 18 dimensional feature vector. These features can be grouped into three types: - Features extracted by considering the properties of the proteins that are involved in the interaction individually.- Features that represent information about the proteins as a pair.- Features extracted from human interactome.Protein pairs are labeled as positive, partial positive and negative. The instances with the positive label are verified by experts. There are only 158 such pairs. Partial positive protein pairs, on the other hand, were manually curated from the literature. Each pair is associated with a keyword which describes an evidence of the interaction between proteins. Pairs with keywords that are strong indicative of interaction such as `interacts with' and `binds' are named as group-1, and those with keywords that weakly suggest an interaction such as `upregulates' and `inhibit' are named as group-2. These pairs are more likely to be positive than negative. However, the interactions between them have not yet been verified by experts. There are 2129 protein pairs which are labeled as partial positive where 553 pairs belong to group-1 and 1575 pairs belong to group-2. We randomly sampled 16000 pairs from the remaining unlabeled data of 352328 protein pairs and used them as negative with the assumption that these are highly enriched for non-interacting pairs. It is possible that some of them are interacting pairs, but evidence for their interaction has not been found yet. We applied Multi-layer Perceptron and Random Forest machine learning techniques to predict interacting proteins. For training the machine learning models and calculating the performance, we used 5-fold cross-validation. We used WEKA and R software environments for implementation of the project. Since the positive and negative classes are highly unbalanced in size, we applied sampling methods to reduce the difference between them. In WEKA, we used SpreadSubSample filter to balance classes. As a pre-process filter, it provides sampling of intended amount of instances from each class. In R, we used sample base method without replacement. Because the size of negative class is excessively larger than positive, we sampled only 16000 instances from it.We investigated strategies for using partial positive instances efficiently. First strategy was called naive where the partial positive data is ignored. Training and testing was carried out by using only positive and sampled negative instances. In the second strategy, all partial positive data was included in the training set as positives. They were only used in training the model but not in testing. Test set consisted of positives validated by experts and sampled negative pairs. In the third strategy, we neither ignored the partial positives nor accepted them as positives. We applied the Random Forest algorithm in a co-training set-up as follows. We used positive data and sampled negative data to train an initial model. Then, we used this model to classify the partial positive instances and the ones that were predicted as positive with high confidence were added to the positive training set for the next iteration. This process was iterated several times until there were no more protein pairs to be added to the training set. We evaluated results using Mean Average Precision (MAP), Precision-recall Break-even Point (PRBE) and Area under the ROC Curve (AUC) performance metrics. MAP provides a measure of quality and it is the mean of values of average precision at different recall levels. PRBE is the value(s) of cut-off(s) where precision and recall are equal. In other words, it is the value of points where precision-recall curve cuts the diagonal of the graph. PRBE can have multiple values since the precision-recall curve can intersect with the diagonal more than once. In that case, the largest PRBE value is considered. AUC is the area under the ROC curve. ROC (receiver operating characteristic) curve is obtained by plotting true positive rate as a function of false positive rate for different threshold values. It assesses the discriminative power of the model independent of the threshold. AUC gives a single value of averaged performance score for the ROC curve. Supervised machine learning methods require labeled data to train the model. For most of the organisms except well-studied ones, there is no sufficient protein-protein interaction data to develop a successful classifier. Therefore, auxiliary information is essential. In the human-HIV protein-protein interaction dataset used in this thesis, the auxiliary information is partial positive protein pairs which are curated from the literature. Since the interaction between partial positive protein pairs have not yet been verified, they are prone to noise. As a result of our experiments using Random Forest classifier, the best performance is obtained by ignoring the partial positive instances (naive approach). Accepting all partial positive instances as true and using them in the training set decreased the performance in all performance metrics. However, using partial positive instances in a co-training set-up minimized their negative effect on performance and stopped the decrease in precision either. We proposed to increase the performance of the model using partial information but it didn't match our expectations. We reduced the size of the positive training data by half and the performance was not affected. This suggests that the instances in positive set are similar to each other and are not comprehensive enough to represent the whole set of human-HIV interactions.
Collections