Biological data integration and relation prediction by matrix factorization
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Yaşam bilimleri alanındaki yeni teknolojik gelişmeler sayesinde, üretilen moleküler sekans verisi miktarı son yıllarda fazlasıyla artmıştır. Bu verinin bilim dünyasına faydalı olabilmesi için anlamlandırılması gerekmektedir. Geleneksel olarak bu anlamlandırma işlemi, deneyler ile üretilen moleküler verinin elle işlenmesi ve biyolojik veri tabanlarında saklanması suretiyle yapılır. Ancak bu verinin muazzam büyüklükte olması, otomatik ve sistematik analiz ihtiyacını doğurmaktadır. Bu sistematik analizin önemli bir kısmını, farklı veri tabanlarından elde edilen ögelerin arasındaki ilişkilerin tanımlanması ile verinin birleştirilmesi oluşturmaktadır. Bu çalışmada negatif olmayan matris faktorizasyonu (non-negative matrix factorization – NMF) yöntemi ile büyük çaplı gen/protein verisini birleştirecek bir yaklaşım önerilmektedir. NMF ürün tavsiye sistemlerinde sıklıkla kullanılan ve başarılı uygulamaları olan bir yöntemdir. NMF ayrıca biyoenformatik ve kemoenformatik gibi çeşitli alanlardaki çoklu-ilişkili verinin birleştirilmesinde de kullanılmıştır. Bu çalışmanın amacı doğrultusunda, öncelikle moleküler işlev, biyolojik süreç, hücre-içi konumlandırma ve hastalık ilişkileri gibi protein anotasyonlarını UniProt-GOA, DisGeNET gibi farklı kaynaklardan topladık ve bunları ikili ilişki matrisleri olarak düzenledik. Sonrasında bu çok-boyutlu ilişkili biyomoleküler sekans anotasyon verisine (genler/proteinler ve işlevler, genler/proteinler ve hastalıklar, hastalıklar ve işlevler) çeşitli NMF tabanlı algoritmaları uyguladık; ardından her modelin sonuçlarını ilişkili verideki esas yapıyı öğrenme yeteneği üzerinden çapraz doğrulama aracılığıyla değerlendirdik. Sonuçlar, NMF'in bilinen protein anotasyonlarının çoğunu herhangi bir sekans veya yapı tabanlı protein özelliği kullanmadan elde etme yeteneğinin olduğunu gösterdi (AUROC: 0.80 – 0.94, doğruluk: 0.53 – 0.64, F1-skoru: 0.06 – 0.40, MCC: 0.13 – 0.38). Bu çalışmanın nihai amacı, NMF'i kullanarak bu biyolojik varlıklar arasındaki bilinmeyen ikili ilişkileri tahmin etmektir. Devamında ise, bu varlıkları (proteinler, işlevler ve hastalık girdileri) faktorizasyon işlemiyle üretilmiş az ranklı öznitelik matrislerini kullanarak bilgilendirici ve artıksız niceliksel öznitelik vektörleri olarak sunmaktır. Bu öznitelik matrislerinin gelecekte proteinlerin otomatik anotasyonu veya biyolojik ağ oluşturulması gibi çeşitli veri madenciliği ve makine öğrenmesi uygulamalarında kullanılması hedeflenilmektedir. The available molecular sequence data has increased greatly in the last decades, thanks to the new technological developments in the field of life-sciences. In order for this data to be useful to the scientific community, it should be characterized. Traditionally, this characterization is done manually, where the experimentally produced molecular data is curated and stored in the biological databases. The huge volume of the currently available data summons the need for the automatic and systematic analysis. A crucial part of this systematic analysis is data integration with the identification of the relationships between the elements from different biological data types. In this study, we propose to integrate large-scale gene/protein annotation data by using non-negative matrix factorization (NMF), which is a frequently used method for recommender systems with successful real-world applications. NMF has also been employed for uniting multi-relational data in many different fields including bioinformatics and cheminformatics. Within the purposes of this study, we first collected protein annotations such as molecular functions, biological processes, sub-cellular localizations and disease relations from different resources such as UniProt-GOA and DisGeNET, and organized them as binary relation matrices. We then applied various NMF-based algorithms to this multi-dimensional relational biomolecular sequence annotation data (i.e. genes/proteins vs. functions, genes/proteins vs. diseases, diseases vs. functions) and evaluated the results of each model in terms of their capacity to learn the intrinsic structure in relational data, via cross-validation. The results indicated that NMF has the capacity to retrieve most of the known protein annotations without using any sequence or structure-based protein features (AUROC: 0.80 – 0.94, accuracy: 0.53 – 0.64, F1-score: 0.06 – 0.40, MCC: 0.13 – 0.38). Using NMF, the ultimate aim here is to predict the unknown binary relationships between these biological entities; and to represent these entities (i.e., proteins, functions and disease entries) as informative and non-redundant quantitative feature vectors (using the low-rank feature matrices generated by the factorization process), which can be used in diverse data mining and machine learning tasks in the future, such as the automated annotations of proteins or the construction of biological knowledge graphs.
Collections