Protein etkileşim tahmini için pozitif etiketsiz öğrenme algoritmalarının geliştirilmesi
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Protein etkileşim tahmini için ikili sınıflandırmada, mevcut iki adet proteinin negatif(etkileşime girmeyen) olduğunu tespit edebilmek zor bir işlemdir. Bu zorluğunsebeplerinden biri bu sınıflandırmayı yapmaya yardımcı olacak eğitim kümesi içinhiçbir zaman etkileşmeyen örnekleri temin etmenin güç olmasıdır. Ayrıca, bir proteinçiftinin etkileşmediği ispatlanmış olsa bile, protein etkileşim veri tabanlarında bunegatif örneklere yer verilmez. Bu durum sebebiyle gerçek negatif örnek kullanmayanöğrenme algoritmalarına bir ihtiyaç doğmuştur. Bu çalışmada, yüksek performanslarısebebiyle seçilen iki adet pozitif etiketsiz öğrenme algoritması, AGPS ve Roc-SVMiçin geliştirmeler yapılması hedeflenmiştir. Bu algoritmalara iki adet geliştirmeyapılacaktır: algoritmaların sınıflandırma için kullandığı support vector Machines(SVM) sınıflandırıcısı yerine Random Forest sınıflandırıcısını kullanmak (AGPS-RFve Roc-RF) ve iki algoritmayı birleştirerek sonuçlarını bir oylama sistemine sokmak(Karma Algoritma). Bu geliştirmeler yapıldıktan sonra algoritmalar önceki halleri ileve yaygın olarak kullanılan iki adet sınıflandırma algoritması (CLR ve ARACNE) ilekarşılaştırılarak performansları incelenmiştir. Yapılan karşılaştırmalarda, AGPS-RF,Roc-RF ve Karma Algoritma, SVM kullanan seleflerine göre daha iyi performansvermiştir. CLR ve ARACNE ile yapılan karşılaştırmalarda ise Roc-RF ve KarmaAlgoritma'nın daha performanslı olduğu görülmüştür. In binary classification for protein interaction prediction, labeling two proteins asnegative (not interacting) is a hard task. This problem is caused by the difficulty ofobtaining two training samples that would never interact. Furthermore, the proteininteraction databases do not include negative samples, even if the samples have beenshown to be non-interacting. The aforementioned difficulty in obtaining true negativesamples created a need for learning algorithms that does not use negative samples.This study aims to improve upon two well-performing positive unlabeled learningalgorithms, AGPS and Roc-SVM for protein interaction prediction. Two extensions tothese algorithms is proposed; the first one is to use Random Forests as the classifierinstead of support vector Machines (AGPS-RF and Roc-RF) and the second is tocombine the results of AGPS and Roc-SVM using a voting system (HybridAlgorithm). After these two approaches are implemented, the results were comparedto the original algorithms as well as two well-known learning algorithms, ARACNEand CLR. In the tests and comparisons, both Random Forest algorithms and theHybrid algorithm performed well against the original SVM-classified ones. Theimproved Roc-RF and Hybrid Algorithms also performed well against ARACNE andCLR.
Collections