Show simple item record

dc.contributor.advisorAkın, Hüseyin Levent
dc.contributor.authorResko, Moiz
dc.date.accessioned2020-12-04T11:53:32Z
dc.date.available2020-12-04T11:53:32Z
dc.date.submitted1994
dc.date.issued2018-08-06
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/81430
dc.description.abstractÖZET Bu çalışma, Türkçe dokümanlara yönelik bir Doküman Analizi Sisteminin gereklerini ve öğelerini tanıtmaktadır. Literatürde böyle bir sistemin bazı kritik problemlerine ve yapılması gereken bölümlerine çözümler getirilmiştir. Bazı problemler için de, bu çalışmada yeni yaklaşımlar geliştirilrniştir. ikili görüntüler elde etmek amacıyla, gönümüz okuyucularında kullanılan geleneksel görüntü dosya tipleri mcelenmiştir. Görüntülerin herhangi bir tipte saklanmasından sonra, gri-tonhı görüntülerden, ikili görüntüler elde etmek işlemlerin ileriM bölümlerinde rahat çalışabilmek için önemlidir. Bir Doküman Analizi Sistemindeki önemli problemlerin arasında her görüntüde olabilen, gürültü veya eğim açısı gibi hataların anlaşılması ve düzeltilmesi gelir. Açıyı anlamak için çizgi yerleştirme metodu güzel bir yaklaşımdır; açı düzeltmek için ise basit matematiksel denklemler kullanılmıştır. Gürültü giderimi için birkaç yaklaşım tanıtıldıktan sonra Uzamsal Pürüz Giderme metodu en uygun bulunmuştur. Diğer bir problem, yazı içeren kısımların, grafik veya çevre çizgileri gibi diğer bölümlerden ayrılmasıdır. Siyah bölgelerin ayrılıp, bazı özellMerinin analiz edilmesi bu problemi çözmekte yardımcı olacaktır. Görüntüyü içindeki ayrı bölümlere dilimlendirmek için üç yöntem tanıtılmıştır; sınır takip etme, noktalara bağlı diliııüendirme, ve satırlara bağlı dilimlendirme. Sınır takip etme yöntemi literatürden alınmış, diğer iki yöntem ise bu çalışmada geh^tirilmiştir. Bölümlenmiş kısımlar daha sonra uygun bir şekilde tanımlanıp, bu tanımlardan gösterdikleri şekle göre sınıflandmlmahdırlar (Harf, sayı, v.b.). Tanımlama her bir bölümün tipik bazı özelliklerine göre yapılır. Bu özellikler, asıl karakter tanımlama bölümü olan sınıflandırmada kullanılırlar. Yazı tipine, harf boyuna, veya duruş şekline bağlı kalmayan bir sınıflama yapmak için yapay sinir ağlarında hata geri yayma yöntemi kulanurnıştır.
dc.description.abstractIV ABSTRACT This study outlines the requirements and components of a Document Analysis System for Turkish texts. Several critical solutions are given in literature for some of the main problems. Here we present new approaches to solve other problems. In order to obtain binary images, the image formats of typical files used in conventional scanners are investigated. After storing the image in any format, binarization of the gray-scale images is crucial, in order to process documents easily. Among the most common topics of a Document Analysis System are detection and elimination of noises and skew angles that occur in almost every scanning environment For angle detection, line fitting is a good approach; to correct angles simple mathematical equations may be used. After discussing popular noise elimination approaches, spatial smoothing is found to best fit to this problem. The separation of the text part, from non-text shapes such as graphical parts or gridlines, is another problem. Separating black regions and analysing them as lines of text or graphics, helps to overcome this problem. For segmentation of the image into distinct symbol images, three methods are discussed: boundary following, pixel based segmentation, and line based segmentation. Boundary following algorithm is taken from literature whereas the other two methods are developed in this study. The segmented portion then must be well represented, and according to this representation, must be classified (letters, digits, etc.). The representation is done according to certain features of each segment. Then these features are used in the classification process which is the main character recognition part. In order to have a character recognition system not constrained by font, size, and orientation, artificial neural networks with Back Propagation learning algorithm is used.en_US
dc.languageEnglish
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/embargoedAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontroltr_TR
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.titleDevelopment of a software tool for optical text recognition for Turkish
dc.typemasterThesis
dc.date.updated2018-08-06
dc.contributor.departmentDiğer
dc.subject.ytmText recognition
dc.subject.ytmComputer programs
dc.subject.ytmComputer softwares
dc.identifier.yokid35314
dc.publisher.instituteFen Bilimleri Enstitüsü
dc.publisher.universityBOĞAZİÇİ ÜNİVERSİTESİ
dc.identifier.thesisid35314
dc.description.pages143
dc.publisher.disciplineDiğer


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/embargoedAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/embargoedAccess