Coğrafi bilgi sistemlerinde geovideo/audio kullanımı
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Coğrafi bilgi sistemleri kullanımının artması ve yaygınlaşması, yüksek çözünürlüklü görsel bilgilere ve mekânsal verilere talebi artırmaktadır. Teknolojik gelişmelerle beraber bu talep, uygulanan sistemleri ve veri toplama yöntemlerini değiştirmektedir. Bunun bir sonucu olarak klasik grafik ve non-grafik verilerle birlikte, multimedya veri türleri CBS uygulamalarında yerini almaya başlamıştır. Söz konusu multimedya CBS uygulamaları klasik verilerle birlikte, ses, video, animasyon, panoramik görüntü vb. farklı tipte verileri de barındırmaktadır.Konuşma tanıma insan ve bilgisayarın etkileşiminde kullanılabilecek en doğal araçlardandır. Böylece CBS verilerine yapay olarak sentezlenmiş ses verileriyle erişilebilir veya CBS veri tabanına konuşma tanıma ile veri sağlanabilir. Konuşma tanıma sistemi giriş olarak aldığı insan sesini komutlara ve karakterlere dönüştürmektedirMobil video haritalama veya mekânsal video olarak bilinen geo-video kavramı, görüntü framelerini konumlandırma sistemleriyle birleştiren gelişmekte olan bir teknolojidir. Bu yaklaşım hem veri toplama etkinliğini hem de zamansal-mekânsal analiz yeteneğini artırmaktadır. Bu tez çalışması, geo-videolarda kullanılabilecek yüksek başarımlı, kullanıcı bağımlı, kısıtlı-veri havuzlu ve geniş sözlüklü ayrık konuşma tanıma teknikleri kullanarak ilgili video içeriğin konuşma tabanlı indekslene bilirliğini ve sorgulana bilirliğini göstermeye odaklanmıştır. Konuşmacı bağımlı ayrık konuşma tanıma problemi, Coğrafi Bilgi Sistemi veri tabanı beslemek amacıyla, ulaşım teknik terminolojisini içeren Türkçe mesleki bir sözlükten seçilmiş 400 kelimelik bir kod kitabı için çözülmüştür. MFCC (Mel-frequency cepstral coefficients ) öznitelikleri kullanılarak HMM (Saklı Markov Modeller), DTW (Dinamik Zaman Bükmesi), GMM (Gaussian Karışım Modelleri) öznitelik sınıflandırıcı yöntemleriyle konuşma tanıma motoru tasarlanmış, söz konusu sınıflandırıcıların konuşma tanıma performanslarının karşılaştırılması yapılmıştır. Tez çalışması kapsamında GMM yöntemi BSA (Backtracking Search Algorithm) sezgisel arama algoritmasıyla geliştirilerek yeni bir yöntem sunulmuştur. The increasing use and spread of geographic information systems is increasing the demand of high resolution visual information and spatial data. This demand changes the applied systems and data collection methods with technological developments. As a result, multimedia data types have begun to take place in GIS applications by using classical graphics and non-graphic data. These multimedia GIS applications include classical data as well as different types of data such as audio, video, animation, panoramic images. Speech recognition is the most natural tool for human and computer interaction. Through speech recognition, GIS data can be accessed by artificially synthesized voice data or data can be provided by speech recognition to the GIS database. The speech recognition system converts the human voice, received as input, into commands and characters.The geo-video concept, known as mobile video mapping or spatial video, is an developing technology that combines image frames with positioning systems. This approach increases both data collection efficiency and temporal-spatial analysis capability.This paper focuses on demonstrating speech-based indexability and queryability of relevant video content using high-performance, user-dependent, constrained-data repository and extensive dictionary discrete speech recognition techniques that can be used in geo-video. User dependent discrete speech recognition problem has been solved for a 400 word in order to feed the GIS database. Code book were selected from a Professional Turkish dictionary which includes technical transportation terminology. Using the MFCC (Mel-frequency cepstral coefficients) attributes, the speech recognition engine is designed with HMM (Hidden Markov Models), DTW (Dynamic Time Warping), GMM (Gaussian Mixture Models) attribute classifier methods and the speech recognition performance of the classifiers was compared. In the paper, the GMM method has been developed by the heuristic search algorithm BSA (Backtracking Search Algorithm).
Collections