Detecting motifs for computational classification of dockerin and cohesin sequences

Şahin, Ebru

View/Open

File_460115 (1.451Mb)

Date

2013

Author

Şahin, Ebru

Metadata

Show full item record

Abstract

Selüloz dogada en yaygın bulunan biyopolimerdir. Selülozun sanayide çok çesitli kullanımalanları mevcuttur. Selülozun ilk hidrolizi, selüloz yıkımındaki hız beliryici basamaktır.Selülozom, katalitik olmayan birimlerden ve selüloz yıkımında rol alan enzimlerden olusankompleks bir yapıdır. Selülozomun yapısal birimleri birbirlerine kohezin ve dockerinbölgeleri arasındaki etkilesim ile baglanır. Dockerin ve kohezin bölgeleri tip I, tip II ve tipIII olmak üzere üç alt gruba ayrılır. Enzimler arasındaki sinerjik isleyisin artırılmasıamacıyla yeni kohezin ve dockerin bölgelerinin dizaynı ve gelistirilmesi biyoteknolojiuygulamaları için önemli arastırma konularından biridir. Bu çerçevede, dockerin ve kohezinalt gruplarının dogru bir biçimde sınıflandırılması ve anahtar etkilesim noktalarınıntanımlanması dizayn çalısmaları için büyük önem arzetmektedir.Bu çalısmada, çoklu dizi hizalaması temelli ve potansiyel anahtar etkilesim noktalarınıaçıga çıkaran bir sınıflandırma metodu tanıtıyoruz. Çoklu dizi hizalamalarını kullanarak,yalnızca bir alt grupta korunmus aminoasitler ve lokasyonları motif olarak tanımlandı.Motiflere ait sınıflandırma performansları, çogunluk oylaması temelli normalize edilmis bir skor seması kullanılarak belirlendi. Ayrıca, 20-harfli aminoasit alfabesinde görünmeyenbenzerlikleri yakalamak için indirgenmis aminoasit alfabeleri tanıtıldı.Bu çalısmada, kohezin dizileri %99'e varan oranda dogru sınıflandırıldı. Ayrıca, ortalama%96 hassasiyet ve %97 spesifiklik elde edildi. Dockerin dizileri %95'e varan oranda dogrusınıflandırılırken, ortalama %76 hassasiyet ve % 92 spesifiklik elde edildi. Potansiyelanahtar etkilesim noktaları ilintili mutasyon analizi kullanılarak tanımlandı.

Cellulose is the most abundant biopolymer in nature. It has several usage areas in industry.The initial hydrolysis of cellulose is the rate determining step in cellulose degradation. Cellulosomesare the complex structures composed of non-catalytic units and enzymes thattake part in cellulose degradation. Cellulosomal units are attached via the interaction betweencohesin and dockerin domains which are divided into three subclasses; type I, type IIand type III. Development and rational design of novel cohesin and dockerin domains toenhance synergistic actions is very important research topic for biotechnological applications.In this aspect, accurate classification of the subunits and identification of key interactionsites are of great importance for design purposes.In this thesis, we propose a multiple sequence alignment and information theory based classificationmethod that identifies potential key interaction sites. Based on the multiple sequencealignments, the residues that are conserved only in one subclass are determined asthe motifs. Classification performance of these motifs is determined using a majority votingbased normalized scoring scheme. In addition, reduced amino acid alphabets are introducedto capture the similarities that are invisible in 20-letter alphabet.In this work, we classify cohesin sequences with 99% accuracy, 96% sensitivity and 97%specificity, on average. For dockerin, the sequences are classified with up to 95% accuracy.76% sensitivity and 92% specificity are observed on average. Potential interaction sites betweencohesins and dockerins are determined from the correlated mutation analysis.

URI

https://acikbilim.yok.gov.tr/handle/20.500.12812/216924

Collections

TEZLER

Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess