Show simple item record

dc.contributor.advisorGencer, Cevriye
dc.contributor.authorBeyazit, Burhan Erdoğdu
dc.date.accessioned2020-12-29T08:23:34Z
dc.date.available2020-12-29T08:23:34Z
dc.date.submitted2019
dc.date.issued2020-02-03
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/362143
dc.description.abstractTeknolojik gelişmeler ile veri boyutu, çeşitliliği ve akışında meydana gelen değişimler, BigData (Büyük veri) kavramın ve veriden bilgi elde etme sürecinde verinin toplanması, dönüştürülmesi, işlenmesi, saklanması ve sunulması gibi yeni bir paradigmanın ortaya çıkmasına neden olmuştur. Yeni paradigma veri toplama, işleme, saklama, bileşenleriyle, sıradan donanımlar üzerine kurulabilen, hata toleranslı, yatay genişleyebilen Hadoop ekosistemidir. Hadoop üzerinde paralel işlem çatısı olarak Apache Spark veri işleme süreçlerinde makine öğrenmesi kabiliyetlerini veri bilimcilerin kullanımına sunmaktadır. Günümüzde büyük veri kavramı ile bilgi keşfinin anlık olarak yapılabilmesi önemli bir ihtiyaç haline gelmiştir. Bu noktada büyük veri sistemleri üzerinde makine öğrenmesi ile veriden bilgi keşfi süreçlerinin otomatikleştirilmesi fikri ortaya çıkmıştır. Ancak literatürde tartışmalı bir husus olan otomatikleştirme fikirleri, için öncelikle çözüm bulunması gereken konuların başında özellik seçimi ve boyut azaltma işlemlerinin, en az alan bilgisi ve yüksek performans ile gerçekleştirilebilmesi gelmektedir. Bu çalışmada ülkemizde bir internet hizmet sağlayıcıdan elde edilen veriler ve açık kaynaklı telekomünikasyon veri seti ile Apache Spark makine öğrenmesi kütüphanesi kullanılarak özellik seçme ve boyut azaltma uygulaması gerçekleştirilmiştir. Özellik seçimi için Filter (Filtre), Embedded (Gömülü) ve Wrapper (Sarmalayıcı) metotlar, boyut azaltma için Principal Component Analysis (PCA) uygulanmıştır. F1- measure, Precision, Recall ve Accuracy başarım kriterlerine göre yapılan denemelerde Filter metotların bu kapsamda kullanışlı bir seçenek oldukları görülmüştür.
dc.description.abstractTechnological developments and changes in volume, variety and velocity of data have led to define both new concept of Big data, and new paradigm in the process of acquiring information from data. The new paradigm is a fault-tolerant, scalable, built for commodity hardware, Hadoop ecosystem with data collection, data processing, data warehousing components. As a parallel processing framework on Hadoop, Apache Spark offers to the data scientists the ability of using machine learning libraries in easy way. In present, with the concept of big data, it has become an important necessity to make discovery of information instantaneously. The idea of automatizing information discovery based on machine learning on big data systems has been introduced. However, for automation ideas, which is a controversial issue in the literature, the first of the issues that need to be resolved is that feature selection and dimensionality reduction operations can be performed with minimum field knowledge and high performance. In this study feature selection and dimensionality reduction application were performed using Apache Spark machine learning library on the data obtained from an internet service provider and the open source telecommunication data set. The Filter, Embedded and Wrapper methods for Feature Selection were applied and Principal Component Analysis is used for dimensionality reduction. According to the tests measured by F1- measure, Precision, Recall Accuracy, filter methods have been seen to be a useful option in this context.en_US
dc.languageTurkish
dc.language.isotr
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontroltr_TR
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.titleBüyük veri problemlerinde performans arttırmaya yönelik özellik seçimi ve boyut indirgeme optimizasyonu
dc.title.alternativeFeature selection and dimensionality reduction optimization to improve performance in big data problems
dc.typemasterThesis
dc.date.updated2020-02-03
dc.contributor.departmentYönetim Bilişim Sistemleri Anabilim Dalı
dc.subject.ytmMachine learning
dc.subject.ytmData mining
dc.subject.ytmBig data
dc.identifier.yokid10312263
dc.publisher.instituteBilişim Enstitüsü
dc.publisher.universityGAZİ ÜNİVERSİTESİ
dc.identifier.thesisid606428
dc.description.pages76
dc.publisher.disciplineDiğer


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess