Critical assessment of the methods and the features used for hot spot prediction at protein-protein interfaces
dc.contributor.advisor | Gürsoy, Attila | |
dc.contributor.advisor | Keskin Özkaya, Zehra Özlem | |
dc.contributor.author | Karagülle, Selin | |
dc.date.accessioned | 2020-12-08T07:44:49Z | |
dc.date.available | 2020-12-08T07:44:49Z | |
dc.date.submitted | 2014 | |
dc.date.issued | 2018-08-06 | |
dc.identifier.uri | https://acikbilim.yok.gov.tr/handle/20.500.12812/168323 | |
dc.description.abstract | Sıcak noktalar protein-protein ara yüzlerindeki aminoasitlerin sadece küçük bir alt kümesidir ama bağlanma serbest enerjisine büyük katkı sağlarlar. Sıcak noktalara deneysel olarak karar vermek için aminoasitlerin alanin aminoasidine mutasyonuna bağlı bağlanma serbest enerjilerinin değişimini ölçülür. Eğer aminoasidin mutasyonu bağlanma serbest enerjisinde çok büyük bir değişime yol açıyorsa bu aminoasit sıcak nokta olarak tanımlanır. Sıcak noktalara deneysel olarak karar vermek zaman alıcı, emek yoğundur ve ekonomik maliyeti yüksektir. Bu sebeple, sıcak nokta tahmini için hesaplamalı yöntemler geliştirilmiştir. Bu yöntemler eğitim ve test setleri kullanır. Ancak, sıcak nokta tahmini için standart değerlendirme (benchmark) seti yoktur. Biz hesaplamalı sıcak nokta tahmini için 13 veri setinin birleşiminden oluşan ve 79 protein kompleksinin 1203 aminoasidi için verileri içeren yeni bir değerlendirme veri setini sunuyoruz. Makine öğrenme tabanlı metotlar sıcak nokta tahminleri için sıklıkla kullanılan yöntemlerdir ve bu yöntemlerde çeşitli özellikler birbirleriyle kombine edilirler. Biz literatürü taradık, değişik özellikler topladık ve bu özelliklerin sonuçlar üzerine etkisini eleştirel olarak değerlendirdik. Sonuç olarak güçlü etkisi olan yetmiş özellik tespit edildi. Belirlenen özellikler kullanılarak çeşitli makine öğrenme tabanlı metotların, sunucuların ve bir programın eklentisinin değerlendirme seti üzerindeki performansları kıyaslandı. Sonuçlara göre random forest sınıflayıcı en yüksek kesinliğe (%80) sahiptir ve KFC2_A var olan diğer metotlar arasında en yüksek F-ölçü'süne (0.49) sahip olmasına rağmen naïve Bayes metodunun F-ölçü'sünü geçmez (0.50). Değerlendirme veri seti, güçlü özelliklerin değerleri ve dört sunucunun ve bir eklentinin tahmin sonuçları http://prism.ccbb.ku.edu.tr/hotbase adresinde yer alan HotBase internet ara yüzü aracılığıyla görülebilir ve indirilebilir. | |
dc.description.abstract | Hot spots are only a small subset of protein-protein interface residues but they account for the majority of the binding free energy. Measuring the binding free energy change upon mutating residues to alanine is an experimental way to determine hot spots. If mutation of a residue gives rise to a significantly large change in the binding free energy then this residue is defined as a hot spot. Experimental determination of hot spots is time-consuming, labor intensive and has high economic costs. Therefore, computational methods have been developed for hot spot prediction. These methods use training and testing data sets. However, there are no standard benchmark data sets for hot spot prediction. We present a new benchmark data set that is combination of 13 data sets and includes data of 1203 residues of 79 protein-protein complexes for computational hot spot prediction. The frequently used methods for hot spot prediction are machine-learning based and several features are combined in these methods. We reviewed literature, collected different features and critically assessed the effect of these features on results. As a result, seventy features that have strong effects are determined. The performances of different machine-learning methods, four servers and a plugin for a program using determined features on benchmark data set are compared. The results reveal that random forest classifier has the highest accuracy (80%) and although KFC2_A has the highest F-measure (0.49) among existing methods, but it does not exceed the F-measure of naïve Bayes method (0.50). The benchmark data set, values of powerful features, and prediction results of four servers and a plugin can be viewed and downloaded via HotBase web interface located at http://prism.ccbb.ku.edu.tr/hotbase | en_US |
dc.language | English | |
dc.language.iso | en | |
dc.rights | info:eu-repo/semantics/openAccess | |
dc.rights | Attribution 4.0 United States | tr_TR |
dc.rights.uri | https://creativecommons.org/licenses/by/4.0/ | |
dc.subject | Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol | tr_TR |
dc.subject | Computer Engineering and Computer Science and Control | en_US |
dc.subject | Biyoloji | tr_TR |
dc.subject | Biology | en_US |
dc.title | Critical assessment of the methods and the features used for hot spot prediction at protein-protein interfaces | |
dc.title.alternative | Protein-protein ara yüzlerindeki sıcak noktaların tahmininde kullanılan metotların ve özelliklerin kritik değerlendirmesi | |
dc.type | masterThesis | |
dc.date.updated | 2018-08-06 | |
dc.contributor.department | Hesaplamalı Bilimler ve Mühendislik Anabilim Dalı | |
dc.subject.ytm | Proteins | |
dc.identifier.yokid | 10040077 | |
dc.publisher.institute | Fen Bilimleri Enstitüsü | |
dc.publisher.university | KOÇ ÜNİVERSİTESİ | |
dc.identifier.thesisid | 357211 | |
dc.description.pages | 79 | |
dc.publisher.discipline | Diğer |