Bireyselleştirilmiş bilgisayarlı sınıflama testi kriterlerinin sınıflama doğruluğu ve test uzunluğu açısından karşılaştırılması
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bireyselleştirilmiş Bilgisayarlı Sınıflama Testleri (BBST) bireyi, önceden belirlenenbir ya da birden fazla sayıda kesme noktasına göre en az sayıda maddeyle enyüksek sınıflama doğruluğunda sınıflamayı amaçlar. Bu sınıflamaların etkililiği,madde havuzlarına, sınıflama kriterlerine, madde seçme ve yetenek kestirimyöntemlerine göre değişkenlik göstermektedir. Buna göre BBST'de farklıdesenlerin oluşturulması ve bu desenlerin Monte Carlo (MC) ve Post Hoc (PH)simülasyonlar altında incelenmesi gerçek uygulamalar için önem arz etmektedir.Bu çalışmada BBST'de farklı sınıflama kriterleri, yetenek kestirim ve madde seçmeyöntemleri hem MC hem de PH simülasyonları altında, sınıflama doğruluğu, testuzunluğu ve ölçme kesinliği bakımından karşılaştırılmıştır. Araştırmada sınıflamakriterlerinden Ardışık Olasılık Oran Testi (AOOT), Genelleştirilmiş Olabilirlik Oranı(GOO) ve Güven Aralığı (GA) yöntemleri; yetenek kestirim yöntemlerindenBeklenen Sonsal Dağılım (BSD) ve Ağırlıklandırılmış Olabilirlik Kestirimi (AOK)yöntemleri; madde seçme yöntemlerinden ise kesme noktasında (KN) ve kestirilenyetenek (KY) temelinde Maksimum Fisher Bilgisi (MFB) ve Kullback-Leibler Bilgisi(KLB) yöntemleri incelenmiştir. Bu amaçla MC simülasyonu için 3 PLM temelalınarak kesme noktası 1,0 ve etrafında yüksek bilgi verecek şekilde 500 maddelikbir havuz oluşturulmuş; PH simülasyonu için ise 80 maddelik gerçek veri setindenyararlanılmıştır. MC simülasyonunda birey yetenekleri normal dağılım yardımıyla(N(0,1)) toplam 3000 kişi üzerinden türetilmiştir. PH simülasyonunda ise verisetindeki 994 bireyin yetenek düzeyleri 3 PLM temelinde BSD ile kestirilmiştir. MCsimülasyonunda bireylerin madde cevap örüntüleri R yazılımda rasgele türetilmiş;PH simülasyonda ise herhangi bir manüpülasyon olmaksızın gerçek madde cevapörüntüsü kullanılmıştır. Çalışmada PH ve MC simülasyonları için toplam 96 koşulincelenmiştir. BBST simülasyonu sonunda, ortalama test uzunluğu (OTU),ortalama sınıflama doğruluğu (OSD), bireylerin gerçek yetenek düzeyleriyleviikestirilen yetenek düzeyleri arasındaki korelasyon (r), yanlılık, RMSE ve ortalamamutlak hata (OMH) değerlerinin 25 tekrara ait ortalamaları hesaplanmıştır.Araştırma sonuçlarına göre hem MC hem de PH simülasyon çalışmasında testetkililiği bakımından GOO ve GA yöntemlerinin AOOT'ye kıyasla daha iyiperformans gösterdiği; AOOT'nin yanlılık, RMSE ve OMH bakımından diğer ikiyönteme kıyasla daha başarılı çalıştığı; sınıflama kriterlerinin farksızlık bölgesigenişledikçe veya hata düzeyi değeri küçüldükçe OTU'nun azaldığı ve testetkililiğinin arttığı görülmüştür. Bununla birlikte sınıflama kriterlerinin tümünün herkoşulda oldukça yüksek düzeyde sınıflama doğruluğuna sahip oldukları; gerçek vekestirilen yetenekler arasındaki korelasyonlar bakımından BSD ve AOK yetenekkestirim yöntemlerinin her ikisinin de başarılı kestirimlerde bulundukları ancakyanlılık, RMSE ve OMH bakımından BSD'nin AOK'tan göreli olarak daha iyiperformans sergilediği belirlenmiştir. İncelenen madde seçme yöntemlerinin isetümünün birbirine benzer çalıştığı; ancak MFB-KY'nin tüm bağımlı değişkenleraçısından tüm koşullarda daha iyi performans gösterdiği görülmüştür. Computerized Adaptive Classification Testing (CACT) aims to classify the personswith the highest classification accuracy using the least number of items accordingto one or more predefined cut-points. The efficiency of these classifications variesby item pools, classification criteria, item selection methods and ability estimationmethods. According to this, in the CACT, forming of different patterns andidentification of these patterns under Monte Carlo (MC) and Post Hoc (PH)simulations are important for real applications.In this study, different classification criteria, various methods for item selection andability estimation in the CACT, are compared using classification accuracy, testlength and precision of measurement under the simulations of both MC and PH. Inour research, as classification criteria, Sequential Probability Ratio Test (SPRT),Generalized Likelihood Ratio (GLR) and Confidence Interval (CI) methods; asability estimation methods, Expected a Posteriori (EAP) and Weighted LikelihoodEstimation (WLE) methods; and as item selection methods, Maximum FisherInformation (MFI) and Kullback-Leibler Information (KLI) methods on the basis ofcut-point (CP) and estimated ability (EA) have been examined. For this aim, for theMC simulation, a pool of 500 items, which is based on 3 PLM and informs at thecut-point (theta=1,0) and around, has been generated; for the PH simulation, areal data set including 80 items has been used. In the MC simulation, individualabilities have been generated using normal distribution (N(0,1)) for 3000individuals. In the PH simulation, the ability level of the 994 individuals in the dataset have been estimated by EAP on the basis of 3 PLM. The item responsepatterns have been generated randomly in R software in the MC simulation,whereas, the real item response pattern has been used without any manipulationin PH simulation. In our study, 96 conditions have been investigated for the MCand the PH simulations. At the end of the CACT simulations, the mean values ofAverage Test Length (ATL), Average Classification Accuracy (ACA), correlationixbetween the real thetas and estimated thetas (r), bias, Root Mean Square Error(RMSE) and Mean Absolute Error (MAE) for 25 replications have been calculated.According to results of the study, it has been observed in both the MC and the PHsimulation results that the GLR and the CI classification criteria perform bettercompared to the SPRT in terms of test efficiency, however the SPRT works bettercompared to the other two methods in terms of bias, RMSE and MAE. It has alsobeen deduced that the ATL decreases and test efficiency increases as theindifference region of classification criteria expands or the error value decreases.In addition, it has been concluded that all classification criteria have considerablyhigh level of the classification accuracy in all conditions; and both ability estimationmethods, the EAP and the WLE, have successful estimation results in terms of thecorrelation between real and estimated thetas (r); wheras the EAP relativelyperforms better than the WLE in terms of the bias, RMSE and MAE. It has alsobeen observed that, all of the item selection methods work similarly to each otherhowever the MFI-EA performs better for all conditions in terms of all dependentvariables.
Collections