Donanım hızlandırmalı veri demetleme
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Günümüzde veri demetleme algoritmaları, arama; spam, saldırı tespiti; hücre, gen, doküman analizi; moleküler dinamik simülasyonlarının biçimlerinin analizi gibi uygulamalar için oldukça önemlidirler. Veri demetleme algoritmaları için birçok araç geliştirilmiştir; ancak teknolojinin hızla gelişmesiyle toplanan veri miktarı git gide büyümektedir. Veri miktarının artması, analizin neticesini olumlu etkilese de mevcut veri demetleme araçları, büyük ölçekli veri kümeleriyle çalışan uygulamaların gereksinimlerini hız bakımından karşılayamaz hale gelmişlerdir. Veri demetlemede hızın rolü, veri madenciliği araştırma topluluğunun bir süredir ilgi alanındadır. Araştırmacılar, çeşitli optimizasyon tekniklerinden, veri yapısı tasarımlarından, CPU'da paralelleştirme tekniklerinden ve PC küme sistemi kullanımı gibi yöntemlerden yararlanmaktadırlar. Fakat son zamanlarda düşük maliyet ile yüksek performans sunan yeni bir yaklaşım tüm ilgiyi üzerine çekmiştir: Genel Amaçlı GPU Programlama (GPGPU). GPU'ların yüksek paralel hesaplama gücü ve grafik kartlarındaki gelişimin CPU'ya oranla daha hızlı hızlanması, aslında grafik canlandırma ve oyunlar için yoğun matematiksel hesaplamalar yapmak üzere tasarlanan grafik kartlarından genel amaçlı programlar için de yararlanmayı söz konusu hale getirmiştir. Bu tez çalışmasında, binlerce veri içeren büyük veri kümeleriyle çalışıldığında hesaplama yoğunluklu bir veri demetleme algoritması olan OPTICS algoritmasının zayıf düşen performansını artırmak amacıyla bir uygulama geliştirilmiştir. GPGPU yaklaşımına dayanan uygulama ile algoritma kısmen paralelleştirilmiş ve CPU versiyonuna göre 4 kata kadar hızlanma elde edilmiştir. Today data clustering algorithms are quite important for applications such as search; spam, attack detection; cell, gene, document analysis; analysis of conformations of molecular dynamics simulations. Many tools are developed for data clustering algorithms. However, technology is improving rapidly so that collected data amount grows more and more. Although increased data amount affects the result of analysis positively, when current data clustering tools work with large scale datasets, they don't meet the requirements of such applications in terms of speed. Data mining research community is interested in the role of speed on data clustering for a while. Researchers take advantage of methods such as various optimization techniques, data structure designs, parallel techniques on CPU and using PC cluster systems. However, recently a new approach which offers low cost and high performance, attracts all attention: General Purpose GPU Programming: (GPGPU). Through high parallel computing power of GPUs and more rapid development of graphics carts than CPUs, it has become to benefit graphics carts, which design to do intensive mathematical computations, for general purpose programs. In this thesis, an application has been developed in order to improve the low performance of OPTICS algorithm, which is a computationally-intensive data clustering algorithm, when working with large data sets that includes thousands of data. In the application OPTICS algorithm has been partially parallelized based on GPGPU approach and experimental results show up to 4x speed increase to a fully optimized CPU implementation.
Collections