Ottoman-Turkish optical character recognition and latin transcription
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Arşivlerde veya çevrim içi kaynaklarda sayısız Osmanlıca belgeler vardır. Bu belgeler maalesef Osmanlıca okuyamayan kişiler tarafından anlaşılamamaktadır. Osmanlı Türkçesi optik karakter tanıma ve Latince transkripsiyonu bu problemin çözümü olabilir. Bu tezde Tesseract optik karakter tanıma motoru Osmanlıca karakterleri tanımak için kullanılmıştır. Ayrıca Osmanlı Türkçesinden Latinceye transkripsiyon için çeşitli metotlar geliştirilmiştir. Bazı Osmanlıca resimlerdeki karakterler optik karakter tanıma metotları ile tanınamamaktadır. Tanınamayan bu karakterleri Osmanlıca alfabesi ile yazmak için Osmanlıca klavye geliştirilmiştir. Transkripsiyon işlemi için sözlük tabloları kullanılmaktadır. Sözlük tablolarındaki veriyi zenginleştirmek transkripsiyon başarısını artıracağından dolayı sözlük tablolarını geliştirmek için bir uygulama geliştirilmiştir. There are numerous documents in Ottoman-Turkish on the archives or online resources. Unfortunately these documents could not be understood by the people who cannot read Ottoman-Turkish alphabet. Ottoman-Turkish optical character recognition and Latin transcription could be the solution of this problem. In this thesis, Tesseract optical character recognition engine is used in order to recognize Ottoman-Turkish characters. Also, various methods are developed for the transcription from Ottoman Turkish to Latin. Characters on some Ottoman-Turkish images could not be recognized by optical character recognition methods. So, Ottoman-Turkish keyboard was developed for writing unrecognized characters with Ottoman-Turkish alphabet. Dictionary tables are used for transcription process. So enrichment data in the dictionary tables will increase of transcription success. Thus, an application was developed for enrichment data in the dictionary tables.
Collections