Literatürden bilgi çıkarımı; bir gerçek zamanlı web tabanlı metin madenciliği uygulaması
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Amaç: Bu çalışmanın amacı, Pubmed literatür veri tabanında bulunan makale özetleri kullanılarak, sağlık bakım profesyonellerine hasta bakımında veya klinik araştırmalarda ihtiyaç duydukları bilgiye (kanıta) erişimlerinde ve bilgiyi değerlendirmelerinde yardımcı olacak web tabanlı bir sistem geliştirmektir.Yöntem: Sistem geliştirme süreci, Pubmed literatür veri tabanından makale özetlerine erişim, metin madenciliği teknikleri kullanılarak metnin ön işlenmesi, medikal varlıkların etiketlenmesi, özetlerden amaç ve istatistiksel terimlerin çıkarımı ve web ara yüzü aracılığı ile gösterimini kapsamaktadır. Özetlere erişim için Biopython Kütüphanesi, medikal varlıkları etiketlemek için Becas Annotator web servisi, istatistiksel terimler için ise NCBO Annotator ve terimleri içeren bir liste kullanılmıştır. Özetlerdeki amaç cümleleri sözlük tabanlı olarak geliştirilen yeni bir algoritma ile çıkartılmaktadır. Etiketlenen varlıklar arasındaki ilişki örüntülerinin bulunması amacıyla birlikte bulunma frekansları hesaplanmaktadır. Bulgular: Özetler içerisinde etiketlenen varlıklar farklı renklerle vurgulanarak Pubmed benzeri bir ara yüzle kullanıcıya sunulmaktadır. Sistem erişilen makalenin amacını, çalışmada kullanılan istatistiksel terimleri otomatik olarak belirlemekte ve makaleye ait bazı özellikler ve etiketlenen medikal varlıklar ile birlikte tablo biçiminde kullanıcıya sunmaktadır. Farklı sınıflara ait kavramların birlikte bulunma frekansları tablo biçiminde ve grafiksel olarak sunulmaktadır. Amaç çıkarma modülünün kesinlik, hassasiyet ve f-ölçütü değerleri sırasıyla %95, %83,5, %90, istatistiksel terimleri çıkarma modülünün kısmi eşleşme değerlendirme sonuçları %95,4 kesinlik, %88,3 hassasiyet ve %91,7 f-ölçüt, tam eşleşme değerlendirme sonuçları sırasıyla %94,1, %67,8 ve %78,8 şeklindedir.Sonuç: Sistem Pubmed'te yer alan özetleri analiz ederek medikal bilgiye hızlı erişimi web tabanlı olarak sunmaktadır. Ayrıca literatürdeki diğer sistemlerle karşılaştırıldığında; (i) geniş çaptaki sınıflara ait varlıkları çıkartması (ii) farklı ara yüzlerle kullanıcıya daha hızlı gözden geçirme imkanı sunması ve (iii) ikiden fazla sınıfa ait varlıklar arasındaki ilişki örüntülerini çıkarması ile ayrıcalıklı olduğu görülmektedir. Objective: The aim of this study is to develop a web based literature mining system which retrieves Pubmed abstracts to provide tools for information search and evaluation needs of healthcare professionals and researchers in their research and clinical routines. Method: System development process includes retrieving abstracts from Pubmed literature database, text preprocessing by using text mining techniques, annotating and extracting medical entities, aim sentences and statistical methods of studies, and presenting the results through the web interfaces. In order to retrieve abstracts from Pubmed, a library called BioPython has been used. Becas annotator has been prefered to annotate the medical entities like disease, gene and protein, drug etc. A new algorithm based on dictionary-based method was developed to extract aim sentence of studies. Frequency distribution has been calculated to discover relationship between the tagged entities. Results: The system tags entities in different color in accordance with their classes and presents the results in a similar interface with Pubmed. It automatically extracts aim of a study and statistical terms used in a study and it demonstrates the results in a different interface with tabular format along with several features of article and the tagged medical entities. Based on the selected entity class by user, co-occurrence frequency of entities are calculated and presented in a table format and visualized with a bar chart. The aim extraction module achieved 83.5% recall, 95% precision and 90% f-measure and statistical term extraction module achieved 95.4% precision, 88.3% recall ve 91.7% f-measure in partial evaluation, 94.1% precision, 67.8% recall and 78.8% f-measure in exact evaluation.Conclusion: The system provides a web-based platform for mining medical information from Pubmed and it is unique in that it (i) extracts a wide range of entity classes; (ii) allows users to rapid review the results with different interfaces; and (iii) extracts not only binary relation but also relation between more than two entity types with multiple selection choices.
Collections