Show simple item record

dc.contributor.advisorSezerman, Uğur
dc.contributor.authorAlbayrak, Aydin
dc.date.accessioned2020-12-10T07:35:42Z
dc.date.available2020-12-10T07:35:42Z
dc.date.submitted2011
dc.date.issued2018-08-06
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/217071
dc.description.abstractProteinlerin sınıflandırılması biyoinformatik araştırmalarında kullanılan önemli bir yöntemdir. Bu tez de proteinlerin yüksek doğrulukuta sınıflandırılması için üç farklı yöntem geliştirilmiştir. İlk olarak, farklı yapısal alt türlere sahip protein aileleri kümeleme ile sınıflandırma yöntemi ile Göreceli Zorluk Değeri (GZD) ve Sadeleştirilmiş Protein Alfabeleri (SPA) kullanılarak sınıflandırılmıştır. Bu geliştirilen yöntem ile Çoklu Dizi Sıralama yöntemini kullanmaksızın yüksek doğrulukta sınıflandırma yapılması sağlanmıştır. İkinci olarak, sabit uzunluktaki dizi motifleri ve SPA kombinasyonları dizileri tanımlamada özellik olarak kullanılmış ve sıcaklığa karşı dirençleri farklı olan proteinler sınıflandırılmıştır. T-test ile hipotez sınaması yapılarak özellik sayısı azaltılmış ve bu seçilen özellikler kullanılarak Destek Vektör Sınıflandırıcıları geliştirilmiştir. Bu yöntem ile proteinler normal protein alfabesine kıyasla daha az özellik kullanılarak doğruluk değerleri yüksek sınıflandırma sonuçlar elde edilmiştir. Üçüncü olarak, aşırı sıcağa dayanıklı, normal sıcağa dayanıklı ve orta derecede sıcağa dayanıklı homolog olmayan proteinlerden oluşan yeni bir veri kümesi oluşturulmuştur. Daha sonra bu veri kümesi üzerinde proteinlerin sıçağa karşı dayanıklı olmaları ile ilintili özelliklerini ayırt edebilmek için kapsamlı bir istatistiksel analiz yapılmış ve bilgisayarlı öğrenme yöntemleri kullanılarak proteinler sınıflandırılmıştır. Bu tez çalışması sonucunda yeni dizisel ve yapısal özelliklerin birlikte kullanılmasının proteinleri sıcağa karşı direncinin tahmin edilmesinde sadece dizisel yada yapısal özelliklerin kullanılmasından daha iyi sonuçlar alındığı gösterilmiştir. Ayrıca, proteinleri ayırmak için kullanılan bilgisayarlı öğrenme yöntemlerinin doğru sınıflandırma kapasitesinin kullanılan SPA'lere bağlı olduğu gösterilmiştir.
dc.description.abstractClassification of proteins is an important process in many areas of bioinformatics research. In this thesis, we devised three different strategies to classify proteins with high accuracy that may have implications for function and attribute annotation. First, protein families were classified into different functional subtypes using a classification-via-clustering approach by using relative complexity measure with reduced amino acid alphabets (RAAA). The devised procedure does not require multiple alignment of sequences and produce high classification accuracies. Second, different fixed-length motif and RAAA combinations were used as features to represent proteins from different thermostability classes. A T-test based dimensionality reduction scheme was applied to reduce the number of features and those features were used to develop support vector machine classifiers. The devised procedure produced better results with less number of features than purely using native protein alphabet. Third, a non-homologous protein structure dataset containing hyperthermophilic, thermophilic, and mesophilic proteins was assembled de novo. Comprehensive statistical analyses of the dataset were carried out to highlight novel features correlated with increased thermostability and machine learning approaches were used to discriminate the proteins. For the first time, our results strongly indicate that combined sequential and structural features are better predictors of protein thermostability than purely sequential or structural features. Furthermore, the discrimination capability of machine learning models strongly depends on RAAAs.en_US
dc.languageEnglish
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBiyoistatistiktr_TR
dc.subjectBiostatisticsen_US
dc.subjectBiyomühendisliktr_TR
dc.subjectBioengineeringen_US
dc.subjectBiyoteknolojitr_TR
dc.subjectBiotechnologyen_US
dc.titleClassification of proteins using sequential and structural features
dc.title.alternativeProteinlerin dizisel ve yapısal özelliklerinin kullanılarak sınıflandırılması
dc.typedoctoralThesis
dc.date.updated2018-08-06
dc.contributor.departmentBiyoloji Bilimleri ve Biyomühendislik Anabilim Dalı
dc.identifier.yokid411626
dc.publisher.instituteMühendislik ve Fen Bilimleri Enstitüsü
dc.publisher.universitySABANCI ÜNİVERSİTESİ
dc.identifier.thesisid309412
dc.description.pages141
dc.publisher.disciplineDiğer


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess