Text mining in Turkish radiology reports
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Metin madenciliği ve sınıflandırma, makine öğrenmesi ve bilgi erişimi alanlarında popüler birkonudur. Tıbbi metinlerin otomatik analizi ve sınıflandırılması medikal veri akışında verimliğinartırılması, teşhis ve tedavinin iyileştirilmesi gibi konularda katkı sağlayabilir. Literatürderadyoloji raporlarının analizi ve sınıflandırılması konusunda çalışmalar mevcuttur. Ancakbahsedilen çalışmalar Türkçe raporların anatomik bölgeye göre sınıflanması problemineeğilmemiştir.Dolayısıyla bu tez, metin madenciliği kullanarak sözlük temelli bir yöntemle Türkçe radyolojiraporlarını anatomik bölgelere göre sınıflandırmayı hedefleyerek literatürdeki eksiği kapatmayıamaç edinmiştir. Önerilen çözüm, radyoloji departmanlarında teknisyenler tarafından elleyapılan bu işin hızlandırılmasını, otomatikleştirilmesini ve doğruluğunun artırılmasınısağlayacaktır.Raporlardaki alt ve üst bilgilerinin silinmesi, Türkçe karakterlerin elenmesi, kök bulma, kelimefrekans analizi, normalizasyon ve skorlama aşamalarından oluşan önerilen yöntem Bashortamında tasarlanmıştır. Yöntemin geliştirilmesi(n=69) ve başarımının ölçülmesi(n=161) içinhastane ortamında rutin olarak hazırlanan 8 farklı anatomik bölgeye ait toplam 230 Türkçeradyoloji raporu kullanılmıştır. Önerilen yöntemin başarımı F-ölçütü kriterine göre %98,6olarak ölçülmüştür. Ayrıca yöntemin elle sınıflamada hatalı sınıfa atanmış olan 7 adet raporudoğru sınıfladığı gözlenmiştir.Önerilen yöntemin başarımının artırılması için öğrenme kümesinin büyütülmesi, doğal dilişleme çözümlerinden yararlanılması ve anatomik/patolojik bilgileri kodlayan ontolojilerinkullanılması gibi yollar denenebilir. Buna ek olarak bu yöntem konuşma tanıma çözümleri ilebirlikte kullanılarak radyologların ses kayıtlarından raporların otomatik üretilmesigerçekleştirilebilir. Son olarak, bu sistem kullanıcı geribildirimi yoluyla geliştirilebilir. Text mining and text classification is a popular area of machine learning and informationretrieval. Automated categorization and analysis of medical documents may improve workflow, and aid in better diagnosis and therapy planning. There is already some research done onanalysis and categorization of radiology reports. However, to the best of our knowledge thereis no prior work on anatomical region based classification of Turkish radiology reports. In orderto fill this gap, this thesis focuses on dictionary-based classification of Turkish radiology reportsinto anatomical regions.The proposed solution is intented to automatize, speed up, and improve the accuracy of the taskof classifying these documents, which is manually realized traditionally.The proposed solution, implemented in Bash environment, consists of header-footer removal,Turkish character elimination, stemming, word frequency analysis, normalization, and scoringsteps. Training (n=69) and performance evaluation (n=161) of the system is realized using atotal of 230 Turkish radiology reports from 8 different anatomical regions acquired from routineclinical practice. F-score of the system is measured as 98,6%, and it is observed that theproposed system correctly identifies the actual classes of 7 reports that were previouslymisclassified by the radiology staff.In order to improve the accuracy of the system one can increase the size of the training set,incorporate natural language processing solutions, or make use of ontologies that encodeanatomical/pathological knowledge. In addition to that, the proposed system can be integratedwith speech processing solutions to automatically create radiology reports from audiorecordings of radiologists. Lastly, the system can be further improved by user feedback.
Collections