Türkçe eğitsel içerikli verilerin okunabilirlik seviyelerine göre sınıflandırılması
Bu tez çalışmasında, eğitim çağındaki çocukların okunabilirlik seviyesindeki verilere daha kolay ulaşabilmesini sağlamak amacıyla Türkçe dili için daha başarılı okunabilirlik seviye tespiti yapılması hedeflenmiştir. Çalışmada, Türkçe için geliştirilen Ateşman ve Çetinkaya-Uzun okunabilirlik formülleri, farklı dillerde kullanılmış otomatik okunabilirlik dizini (ARI) formülü ve tespit edilen bazı yeni öznitelikler kullanılmıştır. Milli Eğitim Bakanlığınca yayınlanan 1, 2, 3, 4, 5, 6, 7 ve 8. sınıf Türkçe ders kitapları ile 9, 10, 11 ve 12. sınıf Türk Dili ve Edebiyatı ders kitapları, bu tez çalışmasında analiz edilmiştir. Bu kitaplardan sınıflandırma algoritmaları ile modeller oluşturulmuş ve 14 farklı eğitsel içerikli web sitesinden elde edilen veriler üzerinde test edilmiştir.Tezin sonucunda, önerilen kelime öznitelikleri okunabilirlik formülleri ile birlikte kullanıldığında, okunabilirlik formüllerine göre daha iyi sonuçlar elde ettiği gözlemlenmiştir. In this thesis, it is aimed to detect the level of readability for the Turkish language more successfully, in order to provide easier access to the data in readability level of children of school age. Ateşman and Çetinkaya-Uzun readability formulas developed for Turkish, Automated Readability Index (ARI) formula that is used in different languages and some new features that are detected were used in this study. 1st, 2nd, 3rd, 4th, 5th, 6th, 7th and 8th-Grade Turkish Language course textbooks and 9th, 10th, 11th and 12th-Grade Turkish Language and Literature course textbooks published by Turkish Ministry of National Education were analyzed. From these books, models were created with classification algorithms and it has been tested on educational data obtained from 14 different web sites.As a result of the thesis, the readability formulas with the suggested word features achieved more successful readability level detection than the readability formulas without them.