Design and implementation of a data stream management system with advanced complex event processing capabilities
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Son yıllarda dünyada veri akışı uygulamalarında hızlı bir artış görülmüştür. Bu uygulamalara örnek olarak bilgisayar ağ gözleme sistemleri, radyo frekanslı kimlik tanıma (RFİD) temelli tedarik zinciri ve trafik yönetim sistemleri, e-ticaretler, çevrimiçi finansal işlemler, web (örün) tıklama-akışları, bazı mobil komünikasyon uygulamaları ve sensör ağları kullanan sivil-askeri uygulamalar verilebilir. Bütün bu uygulamalar etkileri açısından ilgili kurumlarca ?kritik görev? addedilmekte ve gerçek-zamanlı işleme tabi tutularak içlerindeki basit ve karmaşık olayların hızla bulunması istenmektedir. Amaç stratejik kararların çabuk alınmasıdır. Projemize temel teşkil eden Veri Akışı Yönetim Sistemleri (VAYS) mimarisi yüksek hızlı akışların farklı sürekli sorgularla bellek içinde hızla işlenebilmesini sağlamakta ve ortaya çıkan yeni uygulama alanlarının veri analiz ihtiyaçlarına daha iyi cevap verebilmektedir.Günümüzde bilişim dünyası faydalı bilgiye ulaşma yolunda ?büyük veri? problemleri (verinin kütlesi, hızı, çeşitliliği, tutarsızlığı) ile baş etmeye çalışmaktadır. Bu makalede, büyük veri akışları üzerinde İlişkisel Kural Madenciliği'nin (İKM) daha önce literatürde yapılmamış bir şekilde ?çevrimiçi? olarak gerçeklenme detayları ile başarım bulguları paylaşılacaktır. En önemli bulgularımız çevrimiçi kural çıkarımı sayesinde: (1) çevrimdışı kural çıkarımından çok daha fazla kuralın, (2) çok daha hızlı ve etkin olarak, ve (3) çok daha önceden hesaplanabileceği gösterilmiştir. Ayrıca müzik tercihlerine uygun ?George Harrison dinleyen The Beatles dinlemiştir? gibi pek çok ilginç ve gerçekçi kural bulunmuştur. Sonuçlarımızın ileride diğer büyük veri analitik sistemlerinin tasarım ve gerçeklemesine ışık tutacağını ummaktayız. The world has seen proliferation of data stream applications over the last years. These applications include computer network monitoring, Radio Frequency Identication (RFID)-based supply chain and traffic management systems, e-trading, online financial transactions, web click-streams, some mobile communication applications, and civilian or military applications using sensor networks. All of these applications are considered ?mission-critical? by related organizations and require real-time stream processing to detect simple or complex events, so that strategic decisions can be made quickly. An emerging system architecture called Data Stream Management System (DSMS) is well-suited to address the analysis needs of emerging data stream applications. DSMS forms the basis for our project and allows processing of high-speed data streams with different continuous queries. In this thesis, we present design and implementation details of a data stream management system with advanced Complex Event Processing (CEP) capabilities. Specifically, we add ?online? Association Rule Mining (ARM) and testing capabilities on top of an open-source DSMS system and demonstrate its capabilities over fast data streams. Our most important findings show that online ARM can generate (1) more unique rules, (2) with higher throughput, (3)much sooner (lower latency) than online rule mining. In addition, we have found many interesting and realistic musical preference rules such as ?If a person listens to George Harrison, then s/he also listens to The Beatles?. We demonstrate a sustained rate of 15K rows/sec per core. We hope that our findings can shed light on the design and implementation of other fast data analytics systems in the future.
Collections