Unsupervised clustering and its application to discovery of motifs in protein sequences
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
IV ÖZET Değişik kümeleme teknikleri ve bu teknikler ile protein motiflerinin bulunması Proteinler yaşamın temelini oluştururlar. Moleküler biyolojinin önemli amaçla rından biri de belli bir fonksiyona sahip proteinleri üretmektir. Bir proteinin fonksiyo nunu o proteinin motif adı verilen kısımları belirler. Benzer fonksiyonlara sahip proteinlerin motif adı verilen bu kısımlarının birbir lerine çok benzedikleri araştırmacılar tarafından bulunmuştur. Bu çalışmadaki amaç, verilen proteinlerdeki motiflerin bir ön bilgiye sahip olunmaksızın bulunmasıdır. Bunun için parametrik olarak EM metodunu kullandık. EM reel uzay üzerinde çalıştığı için aminoasitleri MDS metotlarıyla vektörlere çevirdik. Bu sayede protein dizilerini reel vektörler olarak ifade edebildik. Bunun yanısıra parametrik olmayan metotlar da kullanıldı. Bilinen protein dizileri üzerindeki sonuçlar diğer motif algoritmalarıyla karşılaştırıldı. MDS metodunun protein motiflerinin bulunmasında bilgi kaybına yol açmadığı ve elde edilen amino asit vektörlerinin, amino asitlerin bazı fiziksel ve kimyasal özelliklerini koruduğu gözlendi. Proteinlerin fonksiyonunu belirleyen motifler sunulan yöntemler tarafından başarıyla bulundu. Ill ABSTRACT UNSUPERVISED CLUSTERING AND ITS APPLICATION TO DISCOVERY OF MOTIFS IN PROTEIN SEQUENCES Proteins have a major role in living organisms. Designing a protein becomes a major topic in biological engineering. The aim here is to design the protein for the desired function. Subparts of proteins determine their function. These parts are called motifs. In this work the aim is to find an efficient algorithm to find the motifs in a set of protein sequences. Unsupervised vector quantization techniques are used in the motif discovery part. We use Expectation-Maximization (EM) method to find motifs, which is a parametric method. EM in these cases works on discrete domain. To extend the problem onto real domain, amino acids are mapped into continuous vectors using multidimensional scaling (MDS), that allows us to represent protein sequences and subsequences as real vectors. We also used non parametric clustering techniques. The results are compared with the existing algorithms on several well-known datasets. Our results indicate that there is not much information lost if continuous vectors for amino acids obtained from MDS methods are used instead of similarity matrices to solve motif discovery problem. It is shown that MDS also preserves some physio- chemical properties of amino acids. Proposed algorithms are able to detect functionally important motifs.
Collections