Doküman kategorizasyonu ve imza bölge analizi
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bu tezde, taranmış doküman görüntülerinin otomatik analizi üzerine çalışmalar yapılmıştır. Bu amaçla doküman analizinde iki alt problem ele alınmıştır; dokümanların otomatik kategorizasyonu ve doküman üzerinde imza tespiti. Doküman tabanlı resimlerin kategorizasyonu birçok uygulama için önemli bir araçtır. Bu çalışma bankacılık uygulamalarında sık kullanılan dokümanları kategorize eden bir altyapıyı tanıtmaktadır. Altyapı, dokümandan oluşturulan metin bilgisi ve doküman resim özniteliklerini kullanmaktadır. Özniteliklerin çıkartılması ve seçilmesi ile ilgili teknik uygulanmış ve Türkçe metinler için özelleştirilmiştir. Dokümanın resim özniteliklerini kullanarak yapılan kategorizasyon ise, işlem maliyeti yüksek olan optik karakter tanıma işlemine gereksinim duymadığından daha hızlı sonuç veren bir alternatif sunmaktadır.Dokümanlarda elle atılan imzanın bulunduğu bölgenin otomatik olarak belirlenmesi bankacılık, sigorta ve kamu sektöründeki iş süreçlerinde katma değer üretebilecek bir özelliktir. Çalışma, herhangi bir tip sigorta dokümanından imzanın çıkarılmasını sağlayan bir altyapıyı tanıtmaktadır. Geliştirilen altyapı, bölütlere ayrılmış resmin temsil eden resim öznitelikleri ile sınıflandırılması işlemine dayanmaktadır. Bölütleme, iki etaplı bağlı bileşenlerinin etiketlenmesi ile gerçekleştirilmektedir. Bölütler, farklı öznitelik temsil yöntemleri ile vektöre çevrilip, destek vektör makineleri ile sınıflandırılarak imza içeren ve içermeyen olarak ayrıştırılmaktadır. Gerçek sigorta dokümanlarından oluşan veri kümesi üzerinde yapılan deneyler, geliştirilen altyapının yüksek doğruluk değerlerine ulaşabildiğini ve gerçek hayattaki uygulamalarla birlikte çalışabileceğini göstermektedir. This thesis contains studies related to automated analysis of document images. Two sub-problems in document analysis are considered for his purpose; automated categorization of documents and handwritten signature detection on documents. Classifying document images is an essential tool for many applications. This work presents a framework for categorizing documents which are frequently used in bank applications. The framework is based on the extracted text information and document image features. A feature extraction and selection technique is applied customized for Turkish texts. Categorization based on document image features is an alternative giving results in a faster way, because it works without the optical character recognition process, which is a computational intensive task.Automated localization of a handwritten signature in a scanned document is a promising facility for many banking and insurance related business activities. This work also describes here a discriminative framework to extract signature from a insurance service application document of any type. The framework is based on the classification of segmented image regions using a set of representative features. The segmentation is done using a two-phase connected component labeling approach. The combined effects of several feature representation schemes in distinguishing signature and non-signature segments is evaluated over a Support Vector Machine classifier. The experiments on a real insurance data set have shown that the developed framework can achieve a reasonably good accuracy to be used in real life applications.
Collections