Classification of Cohesin family using class-specific motifs
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Biyoenformatik, biyolojik bilginin saklanması, elde edilmesi, organize edilmesi ve analiz edilmesini sağlayan ve iyileştiren bilim dalıdır. Bu sebeple biyoenformatik, moleküler biyoloji için önemli bir hale gelmiştir. Protein dizilimlerinin analizinde kullanılabilecek bir yöntem bunların sınıflandırılması ve yeni bulunan proteinlerin sınıfının belirlenmesini sağlamaktır. Bununla beraber proteinlerin görevlerini temsil eden küçük parçaları olan motiflerin bulunması, protein yapısını ve protein-protein ikişkilerini göstermesi açısından önemlidir.Bu çalışmada, Cohesin protein ailesinin sınıfa özel yüksek özgüllük içeren motifleri çeşitli indirgenmiş aminoasit alfabeleri/gruplamaları ve farklı n-gram uzunlukları ile bulunup J48, Support Vector Machine ve Naïve Bayes ile sınıflandırılmıştır. Sonuçta 5-gram uzunluklu Sdm13 alfabesi ile seçilen 10 özellik ile Naïve Bayes algoritması kullanılarak % 99.09 başarı ile sınıflandırma sağlanmıştır. Bioinformatics is an area of science that helps developing and improving methods to store, retrieve, organize and analyze biological data. Thus, bioinformatics has gained important role for molecular biology. One of the methods to analyze this big data is to use classification of protein sequences to predict unseen proteins types. In addition to this, finding motifs, which are a part of protein sequence that contains biological function of the sequence, is important to understand protein structure and protein-protein relationships.In this work, class-specific motifs with high specificity are found and supervised classification models are trained to classify new sequences to find types of cohesin protein using various machine learning algorithms like J48 Decision Tree, Support Vector Machines and Naïve Bayes and with different combinations of Reduced Amino acid Alphabets/Groupings. Results were compared by classification accuracies. Using 5-gram sized Sdm13 alphabet with 10 features and Naïve Bayes algorithm, highest accuracy of 99.09 % is achieved.
Collections