Scalable Data Analytics using Spark
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bu tez çalışmasında Apache Spark ve Apache Hadoop platformları üzerinde ölçeklenebilir veri analitiği çalışılmıştır. Temel olarak üç tane temsili uygulama geliştirilmiştir: (1) Duygu Analizi, (2) İşbirliğine Dayalı Filtreleme ve (3) Konu Modellemesi. Bu uygulamaların 8 makinelik bir küme üzerinde ölçeklenebilirliği gösterilmiştir. Her makine hesaplama havuzuna 4 çekirdek, 8 GB RAM ve 100 GB disk alanı kadar katkıda bulunmuştur. GÖzlemlerimize göre, Apache Spark üretim ortamlarında güvenli bir şekilde kullanılabilir olgunluktadır. This thesis presents our experience in designing a scalable data analytics platform ontop of Apache Spark (major) and Apache Hadoop (minor). We worked on three repre-sentative applications: (1) Sentiment Analysis, (2) Collaborative Filtering and (3) TopicModeling. We demonstrated how to scale these applications on a cluster of 8 workers.Each worker contributes 4 cores, 8 GB RAM, and 100 GB of disk space to the com-pute pool. Our conclusion is that Apache Spark has enough maturity to be deployed inproduction comfortably.
Collections