Birkaç veri kümesi ile WEKA ve MATLAB üzerinde kümeleme algoritmalarının karşılaştırılarak incelenmesi
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Günümüzde teknoloji takip edilmesi zor bir hızla ilerlemektedir. Bu ilerlemenin birsonucu olarak teknolojiden direkt veya dolaylı olarak etkilenen sektörlerde birçok yeni işalanları ve alt sektörleri oluşmuştur. Bilişim teknolojilerinin alt dallarından biri olan veritabanı sistemleri de bu teknolojik gelişimden etkilenmiş ve kendi içerisinde yeniteknolojik dallara sahip olmuştur. Veri tabanı analizi veya veri madenciliği bunaörnektir. Önceki zamanlarda verilerin önemli olanları saklanmakta ve geri kalanıoluşturdukları ek depolama maliyetleri yüzünden kullanılmamakta iken, gelişen yapayzeka ve bilimsel esnek hesaplama yöntemleri ile bu önemsiz gibi gözüken veriler ciddiönem kazanmıştır. Veri madenciliği üzerinde bilgi sahibi olan bireyler çalıştıklarısektörler ile paralel olarak; geleceğe yönelik çeşitli tahminler, firmalarının içindebulundukları durumun anlık incelenmesi, sosyal medya verilerine göre müşterimemnuniyeti ve bunu arttırmak için yapılması gerekenler gibi birçok alanda başarılısonuçlar elde edebilirler. Daha çok tahmin ve analiz işlemlerinin önem kazandığı bugünlerde, tez çalışmamızda bu işlemlerin kullanıldığı kümeleme algoritmaları elealınmıştır. Bu tez çalışmasındaki amacımız K-Means kümeleme algoritması, ExpectationMaximization kümeleme algoritması ve Hiyerarşik kümeleme algoritmaları üzerindederinlemesine bilgi sahibi olmak ve edindiğimiz bilgileri uygun yazılım platformlarıüzerinde denemektir. Bu amaçla, Boğaziçi Üniversitesi Kandilli Rasathanesi ve DepremAraştırma Enstitüsünden alınan iklim verileri anlatılan kümeleme algoritmaları üzerindedenenmiştir. Kümeleme algoritmalarının her biri MATLAB ve WEKA programlarıüzerinde uygulanmıştır. Elde edilen sonuçlar üzerinden kullanmış olduğumuzprogramlar ve algoritmaların karşılaştırılmaları yapılmıştır. Son olarak MATLAB veWEKA kullanımlarının avantajları ve dezavantajlarından bahsedilmiştir. Nowadays, it is impossible to follow technological developments because of it's rapidlygrowing trend. As a result of this trend, new branches of business sectors appear. One ofthe sub branch of technology area which is called as database systems faced with samesituation. It is effected by this technological growing trend. Data mining sector had beenderivated like this way. Former database systems only cares personal and meta datas andsee the other datas as a weight. But today, with the help of artifical intelligence andscientific flexible calculation ways data stacks has become more important than ever.The people who become experienced about data mining and it's usage, can use theirabilities in parallel business sectors.For instance, finance sector personnels can performtheir datamining skills on predicting the future of their special area. On the other hand,company can measure gladness of their customers according to social media responses.Business men can predict or estimate their current and future position in the global andlocal market. As a summary, expectation of the employees which includes tech workersand business specialists are using data mining solutions for prediction. And predictionjob has always links with clustering algorithms. That's why I choose comparingclustering algorithms over some Boğaziçi University Kandilli Observatory andEarthquake Research Institute values of Turkey as a master thesis of mine. Foraccomplish this task, I used Matlab and Weka platforms as computer programmes. Ichoosed mostly used clustering algorithms which are K-Means, ExpectationMaximization and Hierarchical Clustering algorithms to compare with each other. Withthe help of these comparisons, I would like to be experienced about clusteringalgorithms and their mostly used platforms. Firstly, I defined each algorithm on bothplatforms and than I opportunity to compare them with each other according to theiradvantages and disadvantages.
Collections