Modelling of Turkey Turkish words by discrete Markov processes
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
SUMMARY The Redhouse Turkish Dictionary was transferred to the electronic environment and then gone under a filtration process. The filtration process involved all words starting with capital letters being replaced with small case ones, spaces between idioms and two or more word phrases being deleted to make them appear as a single word, and words that are spelled exactly the same but carry different meanings were eliminated so that only a single one was left in the sample space. Cryptanalytical measures of Turkey Turkish words converted into their corresponding c-v patterns were obtained by Markov processes approach. These measures were obtained for 0, 1st, 2nd, 3rd, and 4th degree approaches each. For each word available in the sample space and/or dictionary; 1 ) The word itself 2) It's c-v pattern 3) Word length 4) Its c-v pattern's conditional probability starting from 0 order to n^ order (n=wordlength~ 1 ) 5) For each order the corresponding entropy values were calculated. The number of words analyzed is 21,395. 35 ÖZET Redhouse Türkçe sözlüğü elektronik ortama aktarılmış ve daha sonra saflaştırma işlemine tabii tutulmuştur. Saflaştırma işleminin aşamaları sırasıyla şöyledir; büyük harfle başlayan kelimeler küçük harflerle değiştirilmiş, deyimler ve birden fazla sözcükten oluşan isimler arasındaki boşluklar silinmiş, aynı şekilde yazılan fakat farklı anlamlar taşıyan kelimelerden yanlızca bir tanesi kalmak üzere diğerleri örnek uzayından silinmiş, son olarak günümüz Türkçesi'nde kullanılmayan sözcükler elimine edilmiştir. Türkiye Türkçesi'nde kullanılan kelimelerin kriptanalitik ölçütleri ayrık Markov yaklaşımlarıyla belirlenmiştir. Bu ölçütler sırasıyla 0, 1., 2., 3. ve 4. derece yaklaşımlarla elde edilmiştir. Örnek uzayında ve/veya sözlükte yer alan tüm kelimeler için; 1 ) Kelimenin kendisi 2) Sesli-sessiz deseni 3) Kelime uzunluğu 4) 0 ile n arası yaklaşımların her biri için sesli-sessiz deseninin koşullu olasılık (n=kelime uzunluğu -1) 5) Her derece için karşılık gelen entropi değerleri belirlenmiştir. Analiz edilen toplam sözcük sayısı 21,395 tanedir. 36
Collections