Кыргыз текст корпустарынын негизинде гипертексттик-көрсөткүч сөздүгүнтүзүү(журналдык жанр тексти
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Dergi türü metinden frekans sözlüğü oluşturup, bu tür metinlere ait olan özelliklerincelenir. Toplam olarak 169 dergi üzerinden çeşitli istatistik hesaplamalargerçekleştirilir. Kırgız dilinin dergi türü korpusun oluşturma işleminin ilk adımlarıngözleyebilirsiniz.Tezimde üç dergi yayınlarını kullandım: `Жаңы Ала-Тоо` 2009 – 2013 yıllarında çıkan yayınları (56 tane yayın) `Шоокум` 2005 – 2014 yıllarında çıkan yayınları (95 tane yayın) `Акбашат` dergisinin bütün yayınları (18 tane yayın)`Жаңы Ала-Тоо` dergisi çoğunlukla edebi dergisidir. Yazarlar, şairler ve edebi eserile ilişkisi var olan insanlar kendi çalışmalarını yayınlayabilirler. Bu derginin 56 yayınıMS Word doküman ortamında saklandı. Her yayın yaklaşık 220-300 sayfalık kitapbiçimindedir. Demek ki bu yayınlarda milyonlarca kelimeler vardır. Bu yüzden dergiyiyıllara göre böldük (5 tane). Dergiler PDF formatında serbest dağıtılır.`Шоокум` dergisi ise bilim, sosyal hayat ve kültür dergisidir. Toplam 95 yayın içinde1500-2000 bilimsel araştırma makaleleri vardır. 2005 yılının 25 Aralık günü birinciyayını cıkmış. Bütün dergileri web site ortamında HTML biçiminde yayınlanır.`Акбашат` dergisi bize İslam dini dergisi olarak bilinir. Genelde Kırgızistandaki İslamkültürünün durumu tartışılır. Toplam olarak tezimde 18 yayını kullanıldı. Bu dergi deweb site ortamında yayınlanır.Demek bu üç dergi bizim dini, edebi eser ve sosyal hayatımızı kapsar. Toplam 169dergi yayını MS Word 2010(OpenXML formatı) biçimine getirildi. Tezim için yeterlisayıda dergi yayınları toplandı. ixTezde hipermetin sözlük dizisini oluşturmak için gerekli olan materyaller ve onlarıgerekli olan hale getirme aşamaları gösterilir. Dergileri veri tabana saklama işlemi, Javaprogramlama dili ve JavaFX teknolojisi yardımıyla metinleri paragraflara ve kelimelerepaylaşma süreci adım adım anlatılır. Çeşitli istatistik verilerin bilgisayar üzerinden nasılüretildiğini görebiliriz. İstatistik iki çeşit kaynak üzerinden hesaplanır: Metin üzerinden Sözlük üzerinden (benzersiz kelimeleri içeren)Dergileri işaretleme - tezin en uzun vakit süren işlemidir. Her dergi yayını MS Word2010 ortamına getirilecek şekilde saklanması gerekir. Bu ortam hepimize belli veyazımda ortak olduğu için seçilmiş. JavaFX teknolojisi ile üretilen yazılım MS Worddokümanlarını okuyabilir. Dokümanları okuduğu zaman paragrafları dört stile görebölecek(MS Word programın içindeki stiller): 1. stil derginin adını belirleyecek 2. stil derginin bir bölümün belirleyecek 3. stil derginin herhangi bölümünün alt bölümün belirleyecek 4. stil ise genel metin stili olacakHer dergi yayını 1. stildeki metin ile başlayacaktır. Ondan sonra her hangi bir bölüm'ünadı gider. Bölüm adın'dan sonra alt bölüm'ün adı ve o alt bölüme ait olan bütünparagraflar gider. Böylece her paragraf için hangi dergiye, bölüme ve alt bölüme aitolduğu bilgilerimiz olacak. Bu durumda dergileri veri tabana yüklemeye hazırız. Aynızamanda her paragraf kelimelere bölünüp frekans sözlüğe yüklenir. Paragraflarıkelimelere bölürken belli strateji kullanmamız gerekir. Kelimeleri paragraftan ayırmaişlemi belli simgelere göre yapılacak. Bu simgelerin toplamı bizim stratejimizi belirler.Ama farklı dergiler için farklı strateji kullanmak zorundayız. Çünkü farklı dergilerinyazma stilleri de farklı. Örnek olarak `Жаңы Ала-Тоо` dergisinin kelimelere ayırmastratejisi `/t /`0123456789«»·¹°_][@?;:/.,+*)('&…%$•!``'—№–//` simgelerdenoluşur. Program paragrafı parçalarken bu simgelerin birisine karşılaşırken kelimeninbaşladığını veya bittiğini anlar. Böylece frekans sözlüğümüzü doldurmuş oluruz. xKarşılaşacak olacağımız en büyük problem – dergileri MS Word 2010 biçiminegetirmektir. Dergilerimizin en büyük kısmın `Жаңы Ала-Тоо` dergisi oluşturuyor.Dergi editörleri PDF biçiminde kendi yazı tiplerini kullnıyorlar. Maalesef çeviriciprogramlar bu yazı tipleri MS Word ortamına hata ile dönüştürüyorlar. En son seçimiAdobe Acrobat XI Pro programı üzerinden yaptım. Dönüştürmede olabildikçe en azhata yapabilecektiğini gördüm. `Шоокум` ve `Акбашат` dergileri HTML biçimindeyayınlandığı için onları doğrudan web sayfalardan kopyaladım. Bu iki derginin yaklaşık1500 web sayfası MS Word dokümanlarına kopyalandı ve stilleri kullanarak işaretlendi.Yukarıda anlatıldığı gibi bu dergiler için ayrı strateji kullanmamız gerekir. Örnekolarak, web sayfalardaki boşluk simgesi MS Word programındaki boşluk simgesindenfarklı olabilir. Çünkü web sitelerde ` ` işareti kullanılır ve programımız o işaretekarşılaştığı zaman kelimenin pragraf içindeki sınırını belirlemesi gerekir.Cümleler veri tabanına yazılırken onlara ait olan dergi adı, bölüm adı, paragrafın sıranumarası belirlenir. Sonuçta üretilen yazılım kullanıcılara dergi içerisinde istenilenmaddeyi aramaya fırsat verir.Frekans sözlüğü üzerinden aşağıdaki istatistik hesaplamalar yapıldı: En uzun kelimelerin dizisi En sık kullanılan kelimelerin dizisi En sık kullanılan harflerin dizisi Harflerin kombinasyonları ve kullanma frekansları (36x36 tablo şekilde)En uzun kelimelerin listesi her dergi için ayrı ayrı yapılır. Sonradan onları birbiriylekarşılaştırabiliriz. Bu listeler SQL komutların kullanarak veya yazılım üzerinden eldeedilir.En sık kullanılan kelimelerin ve harflerin dizisi dergi türü metnine ait olan özellikleriincelemede gerek olur.Harflerin kombinasyon istatistiği metnin aktif ve pasif bölgelerin bulmaya yardımcıolur.Anahtar Kelimeler: dergi, metin, frekans sözlük, korpus. Журналдык жанр тексттердин негизинде 169 журналдык номерди камтыганкорпус түзүлөт. Түзүлгөн жыштык сөздүктүн жардамы менен ар түрдүүстатистикалык эсептер ишке ашырылат. Журналдарды берилиштер базасынакиргизиш үчүн атайын колдук өнөр менен калыптоо жасалат жана програмдыкжабдыктын жардамы менен тексттик документтер берилиштер базасынажызылат.Гипертексттик көрсөткүч сөздүгүн түзүү үчүн материалдар MS Word документформатында даярдалышы керек. Иштелип чыккан програмдык жабдык JavaFXтехнологиясы менен түзүлгөн. Көптөгөн проблемалар калыптоо учурундакездешет. Анткени оригиналдуу документтер PDF жана веб баракчаларындажайгашат. Журналдарда корголгон стильдер колдонгондугу үчүн аларды MSWord документ форматына келтирүү процессинде көптөгөн каталар жана туураэмес форматтоолор ортого чыгат. Диссертацияда колдонулган журналдардынбаары MS Word 2010(Open XML форматы) форматына келтирилген.Диссертацияда төмөнкү журналдар колдонулган:• `Жаңы Ала-Тоо `• `Акбашат`• `Шоокум`Жалпысынан алганда 169 журнал номерлери калыптоодон өткөзүлгөн. Алардыннегизги көлөмүн `Жаңы Ала-Тоо` журналы түзөт. Бул журналдын номерлериорточо эсептөөлөр менен 200-300 барактардан турат.Жүргүзүлгөн статистика боюнча төмөнкү маалыматтар белгилүү: vii• Эң узун сөздөрдүн тизмеси• Эң жыш колдонулган сөздөрдүн тизмеси• Эң жыш кодонулган тамгалардын ирети• Тамга айкаштарынын комбинациялык-квантитативдик мүнөздөрүMS Word документин калыптоодо төрт стиль колдонулган (1, 2, 3, 4). Стильдерирети менен журналдын атын, бөлүмүн, бөлүгүн жана сүйлөмдү белгилейт.JavaFx программасы бул калыптоонун негизинде сүйлөмдөрдү берилиштербазасына жазат жана корпус боюнча издөө мүмкүнчулүгүн колдонуучуга берет.Натыйжада каалаган сөз үчүн сүйлөмдөрдү жана ал сөздүн колдонуу жыштыгынтапсак болот.Aчкыч сѳздѳр: жыштык сөздүк; корпус; калыптоо.
Collections