Veri madenciliğinde bir metin madenciliği uygulaması
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Veri madenciliğinin alt dallarından olan metin madenciliği ile yüksek kapasiteli metinler içerisindeki istenilen öz bilgilere ulaşılmaktadır. Verilerin çoğunlukla metinsel halde bulunmalarından ötürü veri madenciliği uygulamalarının büyük bir çoğunluğu metin madenciliği ile gerçekleştirilmektedir. Bu çerçevede metin madenciliği aslında veri madenciliğinin yansımasıdır diyebiliriz.Bu tez çalışmasında; son yıllarda birçok alanda kullanılan veri madenciliği ve alt dalı olan metin madenciliğinin gelişim süreçleri, kullanılan modeller ve bu uygulamaların çözüm getirebilecekleri alanlar üzerinde durulmuştur. Veri ve metin madenciliği teknikleri ile veritabanlarında bulunan gizli ilişkiler açığa çıkarılabilecektir.Metin madenciliğinin yaygın olarak kullanıldığı alan; Türkçe metinlerin analiz edilmesidir.Metin madenciliği teknikleri kullanılarak Türkçe kelimelerin anlam haritalarının çıkarılması üzerine iki modülden oluşan bir uygulama geliştirilmiştir. Uygulama bölümünde ilk olarak metin içerisinde yer alan kelimeler, açık kaynak kodlu ?zemberek? programı yardımıyla köklerine ayrılmıştır. Köklerine ayrılan kelimeler arasındaki gizli ilişkiler bu tez kapsamı süresince geliştirilen bilgisayar programı yardımıyla keşfedilmiştir. Keşfedilen bu bilgiler ışığında kelimeler arası anlamsal bağ durumu analiz edilmiş ve analiz sonucunda kelimelerin anlam bilgisi tahmini gerçekleştirilmiştir. Ayrıca metin madenciliği alanında, ileriye dönük çalışmalar için bir dizi öneride bulunulmuştur.Anahtar Kelimeler: Veri madenciliği, Metin madenciliği, Veritabanı, Kelime ilişkileri, Metin analizi. By using text mining which is one of the sub-branches of data mining, the desired core information within the high capacity texts can be reached. Since the data are mostly in text form, most of the data mining applications are performed through text mining. In this scope, we can actually say that text mining is a reflection of data mining.In this thesis; the development processes of the data mining which has been used in many areas in recent years and the text mining which is the sub-branch of data mining, the models used and the areas where these applications may bring solutions are emphasized. The hidden relations in the databases can be revealed with data and text mining techniques.The area at which the text mining is commonly used is analysing the Turkish texts. An application consisting of 2 modules has been developed on extracting the significance charts of the Turkish words. At the application phase, the words in the text are separated into their roots by using open source software ? zemberek?. The hidden relations between the texts which are separated into their roots are discovered with the help of the software developed within the scope of this thesis. In light of these discovered data, the semantic relation status between the words are analysed and the estimation of the meaning of the words is performed as the result of the analysis. Furthermore a range of suggestions have been made for the further studies on text mining.Key words: Data mining, Text mining, Database, Word Relations, Text Analysis.
Collections