Show simple item record

dc.contributor.advisorCuhacı, Levent
dc.contributor.authorPehlivan, Ramazan
dc.date.accessioned2021-05-08T07:10:59Z
dc.date.available2021-05-08T07:10:59Z
dc.date.submitted2014
dc.date.issued2018-08-06
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/628858
dc.description.abstractBu çalışmanın amacı resim formatındaki Osmanlıca belgeleri içeriklerine göresınıflandıran bir model ortaya koymaktır. Bu amaçla resim formatında taranmışOsmanlıca matbu belgelerde, ''Görüntü İşleme'', ''Kümeleme'' ve ''Doğal Dilİşleme'' tekniklerini birlikte kullanarak ''Doküman Sınıflandırma'' yapan etkin birsınıflandırma yöntemi önerilmiştir.Çalışmamızda veri olarak Türkiye Büyük Millet Meclisi (TBMM) Kütüphane veArşiv Hizmetleri Başkanlığı'nın resmi web sitesinden alınan Osmanlıca belgeörnekleri seçilmiştir. Görüntü işleme teknikleriyle belgeler sayısal formadönüştürülmüş, ardından satırlar ve satırlardaki kelime ya da harf grupları tespitedilmiş ve her bir harf grubu ayrı birer resim olarak kaydedilmiştir. Resimlerarasında kümeleme yapılarak aynı (ya da benzer) harf grupları aynı kümeyeatanmıştır. Harf gruplarının ait oldukları küme bilgileri kullanılarak bu belgelerin,birbirini izleyen etiket numaralarını içeren metin formatındaki karşılıkları eldeedilmiştir. Bu aşamadan sonra doküman sınıflandırma alanında geçerli bir teknikolan kelime frekans analizi, elde ettiğimiz dönüştürülmüş metin dosyalarında kümefrekans analizi olarak uygulanmıştır. Sonuç olarak; resim formatında taranmışOsmanlıca belgeler; semantik analize tabi tutulmadan, belgeyi oluşturan harfgruplarının benzerlik ölçütleri baz alınarak sınıflandırılmıştır.Proje MATLAB ortamında geliştirilmiş ve bir makine öğrenmesi uygulaması olanWEKA programında sınıflandırma sonuçları elde edilmiştir. Ayrıca aynı veri setiüzerinde kelime frekans analizine dayalı bir doküman sınıflandırma uygulaması da gerçeklenmiştir.
dc.description.abstractAim of this work is developing a model which classifies image-formatted Ottomanrecords by their contents. For this purpose, an effective classification method, whichconjunctively uses `Image Processing`, `Clustering` and `Natural LanguageProcessing` techniques, is proposed for image-formatted scans of Ottoman printedrecords.In our work, Ottoman record samples from the official web page of Turkish GrandNational Assembly (TBMM) Library and Documentation Center were used as data.Records were converted into digital form via image processing techniques, thenwords or letter groups in documents were detected and stored separately asindividual pictures. By clustering between these pictures, identical (or similar) lettergroups were registered to the same cluster. By using cluster information of lettergroups, text-formatted counterparts, which include consecutive label numbers, wereobtained for records. After that step, word frequency analysis, which is a validtechnique in document classification, was used on converted text files as clusterfrequency analysis. As a result, image-formatted scans of Ottoman records wereclassified based on similarity criteria of constituting letter groups, without usingsemantic analysis.Project was developed on MATLAB environment and classification results wereobtained by a machine learning application software, WEKA. Another classificationmethod based on word frequency analysis was also implemented using the same dataset.en_US
dc.languageTurkish
dc.language.isotr
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontroltr_TR
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.subjectMatematiktr_TR
dc.subjectMathematicsen_US
dc.titleResim tabanlı osmanlıca belgelerde sınıflandırma
dc.title.alternativeClassification of image-based ottoman records
dc.typemasterThesis
dc.date.updated2018-08-06
dc.contributor.departmentMatematik Bilgisayar Ana Bilim Dalı
dc.identifier.yokid10028327
dc.publisher.instituteFen Bilimleri Enstitüsü
dc.publisher.universityİSTANBUL KÜLTÜR ÜNİVERSİTESİ
dc.identifier.thesisid352453
dc.description.pages73
dc.publisher.disciplineDiğer


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess