K-means ile DBSCAN algoritması`nın paralelleştirmesi ve Hadoop üzerinde büyük veri analizinde kullanılması, performans ve yeterlilik karşılaştırması
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Hayatımızdaki her türlü eylem bilgisayar üzerinden yürütülmeye başlamıştır. Neredeyse tüm sektörlerde yapılan işin merkezine yerleşen bu teknoloji, iş süreçlerinin yürütülmesinde kolaylaştırıcı ve süreci hızlandırıcı adımları da gün geçtikçe gerekli kılıyor. Nitekim bilgisayar temelli çalışmalarda karşılaşılan aksaklıklar uzun vadede şirketlerin ciddi oranda kayıplar yaşamasına neden olurken; yaşanan bu olumsuzlukların özünü giderek büyüyen verilerin kontrolsüz yönetimi oluşturuyor. Büyük verilerle yapılan her türlü işlem veri saklama, veri analizi, verilerin gösterimi gibi pek çok soruna neden olabilmektedir. Bu sorunlar başta veri kayıpları olmak üzere pek çok olumsuzlukla sonuçlanabilmekte, bu da alanda yapılacak çalışmanın gerekliliğini bir kez daha hissedilir kılmaktadır. Bu tezde büyük verilerle çalışma yöntemleri araştırılarak, bu verilerle daha hızlı çalışma yapılabilmesi ve daha kararlı sonuçlar alınabilmesine yönelik uygulamalara yer verilmiştir. Bu bağlamda öncelikle büyük verilerle veri madenciliği algoritmalarının birlikte nasıl kullanılabilecekleri performans değerlendirmeleri ile ele alınmış ve veri madenciliği algoritmalarından DBSCAN ve K-means algoritmalarının paralelleştirmesi incelenmiştir. Ardından Hadoop teknolojisi araştırılarak Pig, Hive, Impala performans karşılaştırılması yapılmış, Hadoop teknolojilerinin hangi projelerde kullanılabileceği irdelenmiştir. Hadoop üzerinde veri madenciliği algoritmalarının Mahout ile çalıştırılabileceği de ayrıca görülmüştür. All actions in our life are now carried out through computers. This technology, which is now at the center of businesses performed in almost all sectors, day by day necessitates steps that facilitate and accelerate performance of business processes. Indeed, faults encountered in computer-based works result in significant losses for companies in the long run; while uncontrolled management of growing data constitute the essence of these problems.All operations performed with large data can cause many problems such as data storage, data analysis and data display. These problems may end up with many problems, especially data loss, and once again indicates the need for carrying out works in this field.In this thesis, methods for working with big data have been explored and applications for performing fast operations and obtaining more stable results with such data have been provided. In this context, methods for joint use of data mining algorithms for large data have been primarily considered with performance evaluations and parallelization of data minin algorithms DBSCAN and K-means have been analyzed. The Hadoop technology has been analyzed and performance comparison has been made with Pig, Hive and Impala, also projects have been examined where Hadoop technologies could be used. It has also been observed that data mining algorithms on Hadoop can be used with Mahout.
Collections