Protein etkileşimlerinin tahmininde pozitif etiketlenmemiş öğrenme
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bir veri kümesindeki örneklerin belli bir özelliğe sahip olup olmayışlarına göre etiketlendirilmeleri işlemine ikili sınıflandırma adı verilir. Bir ikili sınıflandırıcı eğitebilmek için, genel yaklaşımda, hem pozitif hem de negatif örnekler içeren bir eğitim verisine ihtiyaç duyulur. Ancak bazı çalışma alanlarında negatif örneklerin elde edilmesi zor, hatta imkansız olabilir. Bu durumlarda veri kümesi sadece pozitif örnekler ve üye oldukları sınıfların belirlenmesi hedeflenen etiketlenmemiş örneklerden oluşur. Bu tür problemlere bir örnek protein-protein etkileşim ağlarının tahminidir.Bir canlı vücudunda hayati işlemlerin devamlılığı proteinlerin çalışmasına bağlıdır ve proteinler bu işlemler sırasında birbirleriyle etkileşime girerler. Hangi proteinlerin birbirleriyle etkileştiğinin bilinmesi tıbbi açıdan önemli bir bilgidir. Proteinlerin etkileştiği laboratuar deneyleri ile tespit edilebilirken, aksi durum kesin bir şekilde belirlenemez. Deneyler sırasında bir protein çiftinin etkileştiğine şahit olunmaması, bu çiftin başka bir zaman ve durumda etkileşmeyeceğinin kanıtı olamaz.Bu çalışmamızda negatif eğitim verisinin mevcut olmadığı bu durumlarda kullanılabilinecek olan algoritmaları özetledik ve bu algoritmaların bir kısmını protein-protein etkileşimlerinin tahmininde kullanarak test edip karşılaştırdık. Böylece protein-protein etkileşim ağlarının tahmininde kullanılabilecek veya bu işlem için ümit vadeden algoritmaları belirledik. Binary classification is the process of labeling the members of a given data set on the basis of whether they have some property or not. To train a binary classifier, normally one needs two sets of examples from each group, usually named as positive and negative examples. However, in some domains, negative examples are either hard to obtain or even not available at all. In these problems, data consist of positive and unlabeled examples. An example to this kind of problems is derivation of protein-protein networks.Biological processes in a living organism depend on proteins and mostly interactions of proteins. It is important to determine which proteins interact to understand how an organism survives. While it is possible to derive by experiments that two proteins interact with each other, it is much harder to conclude that they do not. Even if we do not observe the interaction of two proteins during an experiment, they may interact in a different time or condition.In this thesis we first present a survey of algorithms which can handle such problems, and then provide a comparison of some of these algorithms on the protein-protein interaction derivation problem by using the available (positive) interaction information. Thus we identify which algorithms can be used or have potential to be used for deriving protein-protein interaction networks.
Collections