Application of automatic mutation-gene pair extraction to diseases
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Günümüzde, akdeniz anemisi gibi birçok kalıtsal hastalığın genlerde olanmutasyonlar sonucu ortaya çıktığı bilinmektedir. Bu hastalıkların ilerlemelerinin ve hattaortaya çıkmalarının engellenmesini sağlayacak yöntemlerin bulunması konusundamutasyonlar ve bu mutasyonların gerçekleştiği genlerin bilgisi büyük önem taşımaktadır.Hastalıklara ilişkin mutasyon ve gen bilgilerine herkese açık veri bankalarından vebiyomedikal literatür kaynaklarından erişmek mümkündür. Yalnız, bu kaynaklardan ilgilibilgilerin elde edilmesi iki sebepten ötürü problemli olabilir. İlk olarak bilgilerin ellegirildiği veri bankaları genellikle eksik ve güncel olmayan bilgiler içermektedirler. İkinciolarak çok büyük miktarda biyomedikal dökümanı okumak oldukça zaman almaktadır.Bu yüzden ilgili bilgileri erişime açık mevcut kaynaklardan otomatik olarak çıkartacaksistemlere ihtiyaç vardır.Bu tezde, istenilen bir hastalık için MEDLINE özetlerinden mutasyongençiftleriniotomatik olarak çıkartan MuGeX isimli sistemin tasarımı ve uygulanması sunulmaktadır.MuGeX sistemi temel olarak üç işlem gerçekleştirmektedir. İlk işlem, özetlerde geçenmutasyonların örüntü eşleştirme yönteminin bir makine öğrenimi algoritması ile birliktekullanılması yolu ile tanımlanmasıdır. İkinci işlem, gen isimlerinin sözlük kullanımınadayanan bir metod ile tanımlanmasıdır. Sonuncu işlem ise mutasyonlar ve genler arasındayakınlık göz önünde bulundurularak ilişkilerin kurulmasıdır.Gerçekleştirilmiş olan deneylerin sonuçları gösteriyorki MuGeX deney özetlerindemevcut olan mutasyonların %85.9'unu %95.9 doğruluk oranı ile bulmaktadır. Mutasyongençiftlerinin tanımlanması işlemi için Alzheimer hastalığına odaklandık.Gözlemlediğimiz üzere MuGeX Alzheimer hastalığına ilişkin mutasyongençifleriningetirilmesinde %88.9'luk bir doğruluk oranına sahiptir. Nowadays, it is known that several inherited genetic diseases? such as sickle cellanemia, are caused by mutations in genes. In order to find ways to prevent and evenbetter to circumvent occurrence of these diseases, knowledge of mutations and the geneson which the mutations occur is of crucial importance.Information on disease related mutations and genes can be accessed throughpublicly available databases or biomedical literature sources. However, acquiringrelevant information from such resources can be problematic because of two reasons.Firstly manually created databases are usually incomplete and not up to date. Secondlyreading through vast amount of publicly available biomedical documents is very timeconsuming. Therefore, there is a need for systems that are capable of extracting relevantinformation from publicly available resources in an automated fashion.This thesis presents the design and implementation of a system, MuGeX, thatautomatically extracts mutationgenepairs from MEDLINE abstracts for a given disease.MuGeX performs mainly three tasks. First task is identification of mutations, applyingpattern matching in conjunction with a machine learning algorithm. The second task isidentification of gene names utilizing a dictionarybasedmethod. The final task isbuilding relations between genes and mutations based on proximity measures.Results of experiments indicate that MuGeX identifies 85.9% of mutations that areon experiment corpus at 95.9% precision. For mutationgenepair extraction, we focusedon Alzheimer?s disease. We observed that 88.9% of mutationgenepairs retrieved byMuGeX for Alzheimer?s disease are correct.
Collections