Show simple item record

dc.contributor.advisorSever, Hayri
dc.contributor.authorPolatkan, Aydin Can
dc.date.accessioned2020-12-04T08:43:43Z
dc.date.available2020-12-04T08:43:43Z
dc.date.submitted2007
dc.date.issued2018-08-06
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/67171
dc.description.abstractÖZETPROTEİN HOMOLOJİ TESPİTİNDE BİR ÜST SINIFLANDIRMA YAKLAŞIMIAydın Can POLATKANBaşkent Üniversitesi Fen Bilimleri EnstitüsüBilgisayar Mühendisliği Anabilim DalıHesaplamalı biyoloji alanında sınıflandırma problemleri için makine-öğrenmeteknikleri sıkça ve geniş şekilde kullanılmaktadır. Bu teknikler, girdi olarak sabituzunluklu nitelik vektörleri istemektedir. Proteinler farklı uzunluklara sahipolduklarından, tüm protein dizilimlerini sabit sayıda nitelik ile göstermek gerekir.Bu amaçla geliştirilen etkili yöntemlerden biri protein dizilimlerinin n-peptitbirleşimleridir. Yöntem n uzunluktaki her alt dizginin dizilim içerisindeki görülmeyüzdesini ifade eder. Alan karmaşıklığını azaltmak amacıyla, n'nin artan değerleriiçin, kullanılan aminoasit alfabesi, sonuç vektörün günümüz bellek kaynaklarıylauyumlu olmasını sağlayacak şekilde düzenli olarak küçültülmüştür.Kullanılan çözümde birleşime ait bütün özellik girdileri sadece bir sınıflandırıcıya topluolarak verilmekteydi. Bu tezde, özellik girdileri n-peptit birleşimlere ve küçültülenamino asit alfabelerine göre farklı gruplara ayrılıp, farklı sınıflandırıcılara verilmiştirböylece soyutlanarak daraltılan arama uzayında, gezinen birden fazla tekniğe, bir üstsınıflandırma yaklaşımı denenmiştir. Amaç doğru şekilde yakınsanan, bizi birbirindenfarklı çözüm bölgelerine ulaştıran tekniklere üstsel sınıflandırma yaklaşımı ile daha iyisonuçlar alabilmektir. Bu yaklaşımda farklı sınıflandırıcıların çıktı değerlerinideğerlendirmek üzere ortalama alma, ağırlıklı ortalama alma, öğrenme kümesinde enbaşarılı olanı seçme gibi değişik durumlar karşılaştırılmıştır.Herbir yöntem hesaplamalı biyolojinin önemli ve güncel problemlerinden biri olanuzak homoloji tespiti üzerinde test edilmiş, sonuçlar karşılaştırmalı olaraksunulmuştur.Sonuçlara bakıldığında eğitim kümesinde en başarılı olan sınıflandırıcının sonucunundoğru kabul edildiği durumun en etkili olduğu gözlenmiştir. Sonuçlar arasındakiistatistiksel anlamlılığı dikkatlice incelemek için yöntemler arasında öğrenci T-testleriyapılmış, testlerin sonuçları yorumlanmıştır. Denenen üst sınıflandırma yaklaşımlarıyalnız bir sınıflandırıcı kullanılan duruma göre daha etkili bellek kullanımına sahiptir.Destek vektör makineleriyle test edilen üst sınıflandırma yaklaşımının diğersınıflandırma problemlerinde de başarılı olacağı düşünülmektedir.Anahtar Sözcükler: Protein Homoloji Tespiti, N-peptit Birleşimler, Destek VektörMakineleri, Sınıflandırma, Üst Sınıflandırma.Danışman: Hayri SEVER, Prof. Dr., Çankaya Üniversitesi, Bilgisayar MühendisliğiBölümü
dc.description.abstractABSTRACTA DATA FUSION APPROACH IN PROTEIN HOMOLOGY DETECTIONAydın Can POLATKANBaskent UniversityComputer EngineeringMachine learning techniques are frequently and extensively used for classifyingproblems in the field of computational biology. These techniques require constantlength feature vectors as inputs. As far as it is known that proteins are in differentlengths, therefore all proteins are needed to be represented with a constant numberof features.One of the effective methods developed for this goal is n-peptite combinations of theprotein strings. These methods are represented with the availability percentage ofeach of the n-length substrings inside the sequence. To reduce the spacecomplexity, for increasing values of n, amino acid alphabet is reduced regularly forthe resulting feature vectors to conform available memory resources today.In this solution, all feature inputs were given to a single classifier. In this thesis, thesefeature inputs are classified into specific significant groups, according to the n-peptitecompositions and reduced amino alphabets. These groups are given to severaldifferent classifiers to achieve a data fusion approach with a few techniques that arewandering in the narrowed search space by abstraction. Aim is to have better resultswith techniques that are converging in exact and leading to different regions of asolution. In that approach, to evaluate the output values of different classifiers,various cases like averaging, weighted averaging and choosing the most successfulone in the training set are compared.Each of these methods was tested on remote homology detection problem which isone of the major and actual problems of computational biology and results arepresented relatively.As the results are considered, the case in which the output of the most successfultraining set is granted, observed as the more accurate one. To explore the statisticalsignificance of differences between results, paired samples T-tests were carried outbetween all methods. Furthermore, all data fusion approaches tested, through out thethesis has more efficient memory usage according to the single classifier case. Thedata fusion approach which has been tested with support vector machines is alsothought to be efficient for not only protein homology detection problems but alsoother problems of classification.Keywords: Protein Homology Detection, N-peptite Compositions, Support VectorMachines, Classification, Data Fusion.Supervisor: Hayri SEVER, Prof. Dr., Çankaya University, Department of ComputerEngineeringen_US
dc.languageTurkish
dc.language.isotr
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontroltr_TR
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.subjectBiyoteknolojitr_TR
dc.subjectBiotechnologyen_US
dc.titleProtein homoloji tespitinde bir üst sınıflandırma yaklaşımı
dc.title.alternativeA data fusion approach in protein homology detection
dc.typemasterThesis
dc.date.updated2018-08-06
dc.contributor.departmentBilgisayar Mühendisliği Anabilim Dalı
dc.identifier.yokid201279
dc.publisher.instituteFen Bilimleri Enstitüsü
dc.publisher.universityBAŞKENT ÜNİVERSİTESİ
dc.identifier.thesisid199497
dc.description.pages139
dc.publisher.disciplineDiğer


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess