Classification of short biosequences
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Dizilim sınıflandırma biyobili?imin en temel problemlerinden bir tanesidir. Ne olduğu bilinmeyen bir moleküler birimi sadece bu birimin dizilim verisi kullanılarak, daha önceden bilinen bir sınıfa atamak için birçok araç ortaya çıkmıştır. Fakatçıkan bu araçların hepsi ilgili olduğu problemler e özeldir. Ayrıca bu araçlar problemin ait olduğu biyolojik dizilim alfabesine bağlıdır. Bu tezde alfabeden bağımsız yeni bir genel dizilim sınıflandırıcı (TRAINER) java programla dili kullanılarak gerçekleştirilmiştir. Bu araç ile kullanıcılar kendi eğitim veri setleri ve kendi dizilim alfabeleri ile dizilim sınıflandırması yapabilecektir. TRAINER kullanıcıların sistemde tanımlı öğreticiyle (supervised) öğrenme yöntemlerinden istediğini, yöntemin parametrelerini ve önceden tanımlı çeşitli özellik belirtme kalıplarından birini seçerek kullanmasını sağlar. Sistemde eğitilmiş modellerkullanıcının isteğine bağlı olarak sisteme ileride tekrar eğitilmeden kullanılmak üzere kayıt edilebilir. Aday efektör tahmini, mikroRNA hedef tahmini ve nükleolar konumlanma sinyal tahmini çalı?maları ile sistemin DNA, RNA ve proteindizilimleri için verimli bir ?ekilde çalıştığı gösterilmi?tir. Ortaya çıkan sonuçların biyolojik manaları tezde tartışılmıştır. Classifying sequences is one of the central problems in computational biosciences. Several tools have been released to map an unknown molecular entity to one of the known classes using solely its sequence data. However, all of the existing tools are problem- specific and restricted to an alphabet constrained by relevant biological structure. Here, we introduce TRAINER, a new online tool designed to serve as a generic sequence classification platform to enable users provide their own training data with any al phabet therein defined. TRAINER is implemented by using java programming language. TRAINER allows users to select among several feature representation schemes and supervised machine learning methods with relevant parameters. Trained models can be saved for future use without retraining by other users. Three case studies are reported for effective use of the system for DNA, RNA and protein sequences; Candidate effector prediction, microRNA target prediction and nucleolar localization signal prediction. Biological relevance of the results is discussed.
Collections