K- ortalamalar algoritması ile ileriye dönük modellemeler

Koşuta, Kemal

View/Open

File_10193589 (3.724Mb)

Date

2018

Author

Koşuta, Kemal

Metadata

Show full item record

Abstract

Çağımızdaki üretilen verilerin sayısı hızla artmaktadır ve sürekli artmaya devam edecektir. Makine öğrenmesi, popülerliği gün geçtikçe artmakta olan bir araştırma alanıdır. Makine öğrenmesi algoritmaları veriye dayalı modeller kurulmasına olanak sağlar. Elde edilen veriden faydalanıp değerli bilgilerin çıkarımı yapılması oldukça önemlidir. Bu alanın alt başlıkları ise genel olarak, denetimli öğrenme algoritmaları, kümeleme algoritmaları, birliktelik kuralları olarak adlandırılmıştır. Tez kapsamında kümeleme yöntemlerinden faydalanılacaktır. Yapılan çalışma ile veri kümesinin kaç kümeye ayrılması gerektiği ve daha sonra kümelenen veriler ile rezervasyon işlemleri için ne yapabileceğimiz belirlenecektir. Bu tezin amacı, kümeleme algoritmalarına ile ileriye dönük modellemeler gerçekleştirmektir. Kümeleme algoritmalarından hiyerarşik ve K - Ortalamalar algoritması üzerinde çalışılmıştır. Hiyerarşik kümelemede elde edilen sonuçlar ile uygun olmadığı anlaşıldığından çalışmanın devamı için K-Ortalamalar algoritması ile detaylı çalışılmasına karar verilmiştir. K-ortalamalar algoritması kullanılarak dinamik bir kümeleme yapılması sağlanmıştır. Aykırı değer analizi, veri dönüştürme, eksik gözlemleri doldurma gibi veri ön hazırlık aşamalarından sonra Gap istatistik değeri ve Elbow yöntemi ile veri kümesinin kaç kümeye ayrılması gerektiğine karar verilmiştir. Bu aşamada belirlenecek olan k değeri ilk aşamada geniş bir aralıkta tutulmaktadır. Yapılan uygulamada k değeri 2 ile 15 arasında seçilip, her bir k değeri için Gap İstatistik değeri ve Dirsek yöntemi hata terimi hesaplandıktan sonra, çizdirilen grafikler yardımıyla seçilmesi gereken doğru k değeri belirlenmiştir. Belirlenen değerler için K-Ortalamalar algoritması ile kümeleme yapılır. Bu yöntemlere göre belirlenen k değerlerinin farklı çıkması durumunda Davies - Bouldin, Dunn, Calinski – Harabasz, Wemmert Gancarski, ve Silhouette'nun kümeleme değerlendirme kriterleri ile bulunan k değerlerinden hangisinin daha doğru olduğu kesin olarak belirlenmiştir. Bu çalışma ile doğru k değerini belirleme yöntemleri ile kümeleme değerlendirme kriterleri birlikte kullanılıp, veri kümesini kaç kümeye ayırmak gerekir sorusuna cevap verilmiştir. Yapılan çalışma sonucu Turizm sektörü üzerinde, gerçek veriler kullanılarak on farklı modelleme gerçekleştirilmiştir. Elde edilen sonuçlar kıyaslanmıştır ve modellemelerden en kayda değer başarıya sahip olan belirlenmiştir.Anahtar Kelimeler: Kümeleme Analizi, K- Ortalamalar Algoritması, Dirsek Yöntemi, Kümeleme Değerlendirme Kriterleri.

The number of collected data in our epoch is increasing rapidly and will continue to increase continuously. Machine learning, a research field that is growing popularity day by day. Machine learning algorithms allow for the build models based on the data. It is very important to take advantages of the data and to extract valuable knowledges. Sub-headings of this field are generally called supervised learning algorithms, clustering algorithms and association rules. We will use clustering algorithms within the thesis. The study will determine how many clusters should be separated and then what we can do with the clustered data for reservation processes.The purpose of this thesis is to realize reservation optimization with the prediction of the conversion rate based on clustering algorithms. Hierarchical and K- Means algorithms have been studied. Since it is understood that the results obtained from the hierarchical clustering are not appropriate, therefore it has been decided to study in detail by K-means algorithms for the continuation of the study. A dynamic clustering is also achieved by using the K-means algorithm. After the data preparation steps such as outlier analysis, data scaling, filling in missing observations, it was decided how many clusters of data should be separated by Gap statistic value and Elbow method. The k to be determined at this stage is kept in a wide range in the first stage. The true k value between 2 to 15 is selected by the plotted graphs is determined by the Gap statistic and the Elbow method. Their errors are calculated. After the determined values, the clustering is done by K-means algorithms. If the true k values determined by these methods are different, the k values found with the clustering validation criteria by Davies - Bouldin, Dunn, Calinski - Harabasz, Wemmert Gancarski and Silhouette are more precisely determined. In this study, the optimal k value determination methods and clustering evaluation criteria are used together, and the answer is given to how many clusters of data should be separated. A conclusion of the study, on the tourism sector, we work on ten forecasting models by the use of the real data for tourism company. The results from the forecasting models are found, compared and then the model with a remarkable success is obtained.Keywords: Cluster Analysis, K-Means Algorithm, Elbow Method, Cluster Validation Techniques.

URI

https://acikbilim.yok.gov.tr/handle/20.500.12812/382078

Collections

TEZLER

Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess