Vekil sunucu verisi üzerinde veri madenciliği ile kullanıcı sorguları kümelemesi
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Yüksek Lisans Tezi, Vekil Sunucu Verisi Üzerinde Veri Madenciliği ile Kullanıcı Sorguları Kümelemesi , Maltepe Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Anabilim Dalı.Bu tez çalışmasında Maltepe Üniversitesi vekil sunucusu üzerinden derlenen günlük dosyası önişlemeye tabi tutularak bölümleme tabanlı ve graf tabanlı kümeleme algoritmaları ile kümelenmiş ve sonuçlar CLUSION adlı yöntem ile görselleştirilmiştir. Kullanıcıların arama motorlarında yaptıkları sorgular, günlük dosyasından önişleme ile elde edilmiş ve kümeleme amacı ile kullanılmıştır.Toplam 5 bölümden oluşan tezin birinci bölümünde genel kavramlardan bahsedilmiştir. İkinci bölümde veri madenciliğinin genel tanımından, güncel sorunlarından, WWW ile olan ilişkisinden, üçüncü bölümde web madenciliği bileşenleri ve alt süreçlerinden, web madenciliğinde kullanılabilecek veri ve web madenciliğinin kullanım alanlarından bahsedilmiştir. Dördüncü bölümde benzerlik ölçümleri ile k-means ve graf tabanlı kümeleme algortimaları ele alınmıştır. Beşinci bölümde uygulamanın geliştirilme aşamaları, kullanılan araçlar ve geliştirme ortamı başlığı altında Zemberek doğal dil işleme kütüphanesi ve graf tabanlı kümeleme yöntemleri içeren Strehl küme analizi kütüphanesi anlatılmıştır. Bu bölümde ayrıca çalışmada kullanılan veri kümesi ve önişleme süreci açıklanmış, elde edilen sonuçlar irdelenmiştir. In this master thesis, log files from web proxy server of Maltepe University have been preprocessed and clustered using partitioning and graph-based clustering algorithms. Results have been illustrated by using CLUSION algorithm. Queries performed by users on search engines have been compiled by processing proxy log files and are used for clustering.General concepts about data mining have been presented in first section of the thesis which actually has 5 sections. In second section general definition of Data Mining has been given with contemporary problems in the field. In this section also the points which WWW and Data Mining have in common are mentioned. In third section web mining components and sub processes, data that can be used in web mining and usage of web mining in industry have been discussed. In fourth section similarity measures, k-means and graph based clustering have been presented to be basis in the following section. In fifth section which is the last one, the phases of the application have been discussed while Zemberek NLP library and Strehl cluster analysis library have been presented under tools and environments heading. In this section also the data set which has been used in the study and preprocessing task has been discussed and the results are investigated.
Collections