Protein function prediction using hidden Markov models

Kömürlü, Caner

View/Open

File_322601 (1.142Mb)

Date

2008

Author

Kömürlü, Caner

Metadata

Show full item record

Abstract

Saklı Markov modellerininin biyoinformatik alanında kullanılmaya başlanması ile üzerine düşülen konu HMM profilleri olmuştur. Saklı Markov modellerinden önce çoklu hizalama yöntemleri ile üretilen profiller, bu modellerin kullanılması ile daha başarılı ve yüksek doğrulukla üretilmeye başladı. Uzak homoloji kavramının bu modellerle çalışmalara dahil edilmesi bu sayede gerçekleşti. Uzak homoloji üzerine geliştirilen araçlar ve bu araçların kullandığı diğer araçların başında, HHsearch (HMM HMM search), PRC (Profile Comparer), SAM (Sequence Alignment Modelling), HMMER gelir.Bu çalışmada HMMER, profil-dizi kıyaslaması yoluyla benzerlik matrisi üretiminde, HHsearch profil-profil kıyaslaması yoluyla benzerlik matrisi üretiminde, PRC yine profil-profil kıyaslaması yoluyla benzerlik matrisi üretiminde kullanıldı. Bu yöntemlerde gerekli yerlerde PSI-BLAST, ClustalW ve Kalign, hizalama ve demetleme yöntemleri için kullanıldı. Veri olarak Protein Data Bank veritabanınıdan Gene Ontology'ye bağlı olarak oluşturulan 5 sınıflı protein veritabanı, yine aynı veri kümesinin zenginleştirilmiş sürümü ve NR veri kümesi kullanıldı. Benzerlik matrislerinin üretiminin neticesinde elde edilen veri, örüntü tanıma tekniklerinde kullanıldı. 5 sınıflı veri kümesi için dizi-profil ve profil-profil kıyaslamasının katar hizlama yöntemlerinden daha kötü sonuç verdiği bulundu. İkincil yapının HMM'de hesaba katılmasının fonksiyon öngörüsünde faydalı olduğu görüldü. NR veri kümesi ile zenginleştirilmiş veri kümesinin profil üretiminde faydalı olduğu görüldü.

The profile-HMM's became popular with the use of hidden Markov models in bioinformatics. Profiles, which were conventionally produced using alignment methods, became more accurate and successfull by means of hidden Markov models. As a consequence, remote homolgs were included into function prediction studies with these models.In this study, HMMER is used in sequence-profile comparison, HHsearch is used in profile-profile comparison, PRC is used in profile-profile comparison for similarity matrix production. PSI-BLAST, ClustalW and Kalign are used in alignment and clustering steps. As the data set, 5-class protein database generated from Protein Data Bank database with respect to Gene Ontology Annotation is used. In addition, its variant, the enriched data set and NR data set are used. The similarity matrices produced by HMMER, HHSearch and PRC methods are used as inputs to machine learning techniques. For the 5-class data set used, it is found out that sequence-HMM-profile and HMM profile-profile methods cannot perform as well as sequence aligment techniques. It is also found out that using secondary structure in addition to the amino acid sequence helps with protein function prediction. Enrichment of data set with NR data is found to help with function prediction.

URI

https://acikbilim.yok.gov.tr/handle/20.500.12812/371898

Collections

TEZLER

Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess