Türkçe metinler için konu belirleme sistemi
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bilgi erişimi (BE), bilginin temsil edilmesi, saklanması, düzenlenmesi ve gerektiğizamanda erişilebilmesini mümkün hale getirmek için yöntemlerin geliştirildiğiaraştırma konusudur. Genel Ağ'ın (İnternet) yaygınlaşması ile sayısal olarak saklananve erişilmek istenen belgelerin sayısı her geçen gün artmaktadır. Bu durum, BilgiErişimi'ni günümüzde en çok ilgilenilen ve araştırılan konulardan biri haline getirmiştir.Metin işleme BE uygulamaları arasında önemli bir yer tutmaktadır. Metin işlemeuygulamalarının bir alt kümesi olan Metin Sınıflandırma doğal dil ile yazılmışmetinlerinin içeriklerine göre ilgili kanallara yönlendirilmesi, e-posta iletilerinin önemliönemsiz olarak ayrıştırılması, ya da metinlerin konularının belirlenmesi gibi alanlardauygulanmaktadır.Doğal Dil İşleme, sözlü veya yazılı dili incelemek üzere, yazılım ya da donanım olarakbilgisayar sistemleri geliştirilmesi işlemini açıklayan bir terimdir. Bilgi Erişimi alanındaele alınan metinler doğal dil ile yazılmış olduğundan, Bilgi Erişimi sistemlerininbaşarımını artırmak için Doğal Dil İşleme yöntemlerinden yararlanılmasıgerekmektedir.Metin sınıflandırma, yazılı belgelerin içeriklerine bağlı olarak belirli sınıflara atanmasıişlemine verilen isimdir. Metin sınıflandırma işlemine örnek olarak bir kaynaktan gelenhaberlerin konularına göre ayrıştırılması işlemi verilebilir.Bu tezde, Türkçenin belirtilen özellikleri göz önüne alınarak, Türkçe bir metninkonusunun belirlenmesine yönelik algoritmalar gerçeklenen yazılımlarla birliktetanıtılmıştır. Yapılan çalışmada, Bilgi Erişimi için gerekli olan ön çalışmalardan biriolan sözcüklerin yapım eklerinin korunarak çekim eklerinin atılması anlamına gelengövdeleme işlemi için kullanılabilecek yöntemler karşılaştırılarak incelenmiş veuygulanmıştır. Ön işlemlerden geçmiş olan metnin sınıflandırılması için gereklisınıflandırma algoritmaları da incelenmiş ve uygulanmıştır.Anahtar Kelimeler: Bilgi Erişimi, Doğal Dil İşleme, Metin sınıflandırma, Gövdeleme Information Retrieval (IR) is the research subject that deals with the representation,storage, organization and retrieval of information. With the increasing number ofdocuments available online, information retrieval is becoming more needed andimportant.Text processing is one of the main subjects in IR. Text Classification, which is a subset oftext processing, has many applications such as routing, spam e-mail detection ordetecting topics of texts.Natural Language Processing (NLP) is described as developing hardware or softwaresystems in order to analyze spoken or written natural language. In the subject of textprocessing, since many texts are in natural laguage, NLP is used in order to improveperformance.Turkish is a agglutinative language and every word in Turkish has a root and affixeswhich are added to the root. Stem is used to describe a word that is derived from a rootwith a derivational affix. Stemming is the process of removing inflectional affixes whilekeeping derivational ones. In agglutinative languages like Turkish, stemming is a veryimportant proccess that mostly affects the overall performance.Text classification is the process of assigning a document into one or more classes withrespect to its content. A system that classifies news texts with respect to their topics canbe considered as a text classification system.In this study, a text classification system for Turkish is explained incuding developedalgorithms and software. Stemming algorithms, and text classification methods areresearched, compared and implemented.Keywords: Information Retrieval, Text Classification, Stemming
Collections