Resim tabanlı osmanlıca belgelerde sınıflandırma
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bu çalışmanın amacı resim formatındaki Osmanlıca belgeleri içeriklerine göresınıflandıran bir model ortaya koymaktır. Bu amaçla resim formatında taranmışOsmanlıca matbu belgelerde, ''Görüntü İşleme'', ''Kümeleme'' ve ''Doğal Dilİşleme'' tekniklerini birlikte kullanarak ''Doküman Sınıflandırma'' yapan etkin birsınıflandırma yöntemi önerilmiştir.Çalışmamızda veri olarak Türkiye Büyük Millet Meclisi (TBMM) Kütüphane veArşiv Hizmetleri Başkanlığı'nın resmi web sitesinden alınan Osmanlıca belgeörnekleri seçilmiştir. Görüntü işleme teknikleriyle belgeler sayısal formadönüştürülmüş, ardından satırlar ve satırlardaki kelime ya da harf grupları tespitedilmiş ve her bir harf grubu ayrı birer resim olarak kaydedilmiştir. Resimlerarasında kümeleme yapılarak aynı (ya da benzer) harf grupları aynı kümeyeatanmıştır. Harf gruplarının ait oldukları küme bilgileri kullanılarak bu belgelerin,birbirini izleyen etiket numaralarını içeren metin formatındaki karşılıkları eldeedilmiştir. Bu aşamadan sonra doküman sınıflandırma alanında geçerli bir teknikolan kelime frekans analizi, elde ettiğimiz dönüştürülmüş metin dosyalarında kümefrekans analizi olarak uygulanmıştır. Sonuç olarak; resim formatında taranmışOsmanlıca belgeler; semantik analize tabi tutulmadan, belgeyi oluşturan harfgruplarının benzerlik ölçütleri baz alınarak sınıflandırılmıştır.Proje MATLAB ortamında geliştirilmiş ve bir makine öğrenmesi uygulaması olanWEKA programında sınıflandırma sonuçları elde edilmiştir. Ayrıca aynı veri setiüzerinde kelime frekans analizine dayalı bir doküman sınıflandırma uygulaması da gerçeklenmiştir. Aim of this work is developing a model which classifies image-formatted Ottomanrecords by their contents. For this purpose, an effective classification method, whichconjunctively uses `Image Processing`, `Clustering` and `Natural LanguageProcessing` techniques, is proposed for image-formatted scans of Ottoman printedrecords.In our work, Ottoman record samples from the official web page of Turkish GrandNational Assembly (TBMM) Library and Documentation Center were used as data.Records were converted into digital form via image processing techniques, thenwords or letter groups in documents were detected and stored separately asindividual pictures. By clustering between these pictures, identical (or similar) lettergroups were registered to the same cluster. By using cluster information of lettergroups, text-formatted counterparts, which include consecutive label numbers, wereobtained for records. After that step, word frequency analysis, which is a validtechnique in document classification, was used on converted text files as clusterfrequency analysis. As a result, image-formatted scans of Ottoman records wereclassified based on similarity criteria of constituting letter groups, without usingsemantic analysis.Project was developed on MATLAB environment and classification results wereobtained by a machine learning application software, WEKA. Another classificationmethod based on word frequency analysis was also implemented using the same dataset.
Collections