Experimental study for extending data mining standards
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Veri madenciliği, iş zekası çözümlerinde çeşitli endüstri ve iş kollarını destekleyen ana teknoloji olarak kullanılmaya başlanıyor. Birçok veri madenciliği ürününün piyasada olmasına rağmen, standart protokollerin olmamasından dolayı bu ürünler uygulamalar ile entegre edilememektedir. Genel standartlara uymak, uygulama geliştirmeyi, bakımını ve uygulamalar arasındaki iletişimi kolaylaştırır. Ayrıca, bu standartlar veri madenciliği sürecinin daha kolay yapılabilmesine olanak verir. İleri seviye veri madenciliği standartlarından bir tanesi olan Java Data Mining (JDM) ile Java uygulamaları veri madenciliği motorları ile iletişim kurarak modellerin yaratılması, test edilmesi ve uygulanması işlemleri yapılabilir. JDM'in ilk versiyonu ile sınıflandırma, regresyon, öbekleme ve eşleştirme gibi temel veri madenciliği fonksiyonlarını yapılabilmektedir. Gelişmekte olan JDM 2.0 versiyonu ek gelişmiş bazı veri madenciliği fonksiyonları önermektedir; zaman serileri, özellik çıkarma ve metin madenciliği. Bu çalışmada JDM 2.0 standartlarını genişletmek üzere geliştirdiğimiz deneysel çerçeveyi sunmaktayız. Bu çerçevede, Bootstrap ile tahmin doğruluğunu belirleme, Bagging ve Boosting ile tahmin doğruluğunu artırma çalışmaları bulunmaktadır. Genişlettiğimiz JDM fonksiyonlarını iyi bilinen iris ve Sales History (SH) verisetleri üzerinde uyguladık. Data mining is becoming a mainstream technology used in business intelligence solutions supporting various industries and lines of business. Although there are plenty of data mining products at the market, these products are difficult to integrate with user applications due to the lack of standardization protocols. Conforming to common standards facilitates development, implementation and maintenance of applications as well as communication among them. In addition, these standards enable data miners to develop data mining process easily. As being one of the well-established data mining standards, Java Data Mining (JDM) allows Java applications to communicate with data mining engines to build, test and apply mining models. First release of JDM supports the basic data mining functionalities; classification, regression, attribute importance, clustering, and association. Currently developing version (JDM 2.0) proposes the additional set of functionalities such as time series, feature extraction, text mining. In this study, we present the experimental framework developed to extend the JDM 2.0 by including ensembles methods such as boosting, bagging to improve the classification accuracy and bootstrap to assess accuracy. We have applied our extended JDM functionalities with two well known datasets that are iris dataset and Sales History (SH) dataset.
Collections