Öğrencilerin akademik performanslarının veri madenciliği teknikleri ile analizi
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bu tezin amacı Eğitsel Veri Madenciliği sınıflandırma yöntemlerini kullanarak öğrencilerin akademik performansını tahmin etmektir. Bu amaçla öğrencilerin demografik ve akademik bilgilerinden oluşan iki farklı veri seti kullanılmaktadır. Öğrenci performansını tahmin etmek amacıyla üç farklı yöntem uygulanmaktadır. İlk yöntemde öğrencilerin akademik performansları iki ve beş seviyeli olmak üzere Yapay Sinir Ağı algoritması ile tahmin edilmektedir. Önerilen yöntem veri ön işleme, öznitelik seçme, veri normalizasyonu, model oluşturma, modelin hiper-parametrelerinin optimize edilmesi ve modelin değerlendirilmesi aşamalarından oluşmaktadır. İkinci yöntemde öğrencilerin akademik performansını tahmin etmek amacıyla yeni bir Hibrit Topluluk Öğrenme Algoritması önerilmektedir. Bu yöntemde Gradyan Artırma, Ekstrem Gradyan Artırma, Hafif Gradyan Artırma Makineleri gibi temel sınıflandırıcılardan ve bu sınıflandırıcıların farklı kombinasyonlarından elde edilen tahmin sonuçları Super Öğrenici algoritmasına girdi olarak verilmektedir. Temel sınıflandırıcıların hiper-parametreleri, Rastgele Arama algoritması ile optimize edilmektedir. Üçüncü yöntemde öğrencilerin akademik performansları AutoML yöntemi ile tahmin edilmektedir. Bu yöntemde veri ön işleme, öznitelik seçimi, model seçimi, hiper-parametre optimizasyonu ve model performansının değerlendirilmesi aşamaları kullanıcı müdahalesi olmadan, otomatik olarak gerçekleştirilmektedir. AutoML yöntemi veri seti için Dağıtılmış Rastgele Orman algoritmasının en iyi algoritma olduğunu belirlemektedir. Çalışmada aynı zamanda Dağıtılmış Rastgele Orman algoritmasının hiper-parametreleri Izgara Arama yöntemi kullanılarak optimize edilmektedir. Ayrıca önerilen yöntem ile elde edilen sonuçlar, geleneksel makine öğrenmesi algoritmalarından K en Yakın Komşu ve Destek Vektör Makineleri ile elde edilen sonuçlar ile karşılaştırılmaktadır. Önerilen yöntem ile daha iyi sonuçların elde edildiği gözlemlenmektedir. Deneysel sonuçlar her üç yöntemin literatürde incelenen çalışmalar ile kıyaslandığında öğrencilerin performansını tahmin etmede etkili olduğunu göstermektedir. The aim of this thesis is to predict the academic performance of students by using Educational Data Mining classification methods. For this purpose, two different data sets consisting of demographic and academic information of students are used. Three different methods are applied to predict student performance. In the first method, the academic performance of the students is predicted by the Artificial Neural Network algorithm The proposed method consists of data preprocessing, feature selection, data normalization, model creation, hyper-parameters optimization and model evaluation. In the second method, a new Hybrid Ensemble Learning Algorithm is proposed to predict the academic performance of students. In this method, the prediction results obtained from base classifiers such as Gradient Boosting, Extreme Gradient Boosting, Light Gradient Boosting Machines, and different combinations of these classifiers are given as input to the Super Learner algorithm. Hyper-parameters of base classifiers are optimized by the Random Search algorithm. In the third method, the academic performance of the students is predicted by the AutoML method. In this method, data preprocessing, feature selection, model selection, hyper-parameter optimization, and evaluation of model performance are performed automatically without user intervention. The AutoML method determines that the Distributed Random Forest algorithm is the best algorithm for the data set. At the same time, the hyper-parameters of the Distributed Random Forest algorithm are optimized using the Grid Search method. In addition, the results obtained with the proposed method are compared with the results obtained with the K Nearest Neighbor and Support Vector Machines from traditional machine learning algorithms. The better results are obtained with the proposed method. Experimental results show that all three methods are effective in predicting students' performance.
Collections