Madde düzeyinde boyutluluk modellerinin bilgisayar ortamında bireyselleştirilmiş test yöntemleri üzerindeki etkisinin incelenmesi
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bu çalışmanın amacı, farklı yetenek kestirimi yöntemleri, madde seçim yöntemleri ve test sonlandırma kurallarını dikkate alarak bireylerin yabancı dil yeteneklerinin telafi-edici modellere dayalı Çok Boyutlu Bilgisayar Ortamında Bireyselleştirilmiş (BOB) Testi yöntemleri ile ölçülmesi ve madde-içi ve maddeler-arası boyutluluğun çok-boyutlu BOB testi yöntemlerinin performansları üzerindeki etkisinin incelenmesidir. Bu amaç doğrultusunda, Hacettepe Üniversitesi tarafından uygulanan dinleme, okuduğunu anlama ve dilbilgisi olmak üzere üç boyuttan oluşan İngilizce Yeterlik Sınavlarına (İYS) ilişkin gerçek veri seti kullanılarak gerçek verilere dayalı simülasyon (post-hoc simulation) yapılmıştır.Bu çalışmada, 2009-2013 eğitim-öğretim yıllarında uygulanan 10 İngilizce yeterli sınavına ait veri seti kullanılmış ve her bir testte yer alan maddelere ait madde parametreleri telafi-edici (compensatory) çok boyutlu 2 parametreli lojistik model (CM-2PLM) kullanılarak kestirilmiştir. Madde-içi boyutluluk modeline ait madde havuzu 565 maddeden oluşurken, maddeler-arası boyutluluk modeline ait madde havuzu ise 559 maddeden oluşmaktadır. Bu çalışmada en uygun çok-boyutlu BOB testine karar vermek için iki farklı yetenek kestirim yöntemi (Fisher'in puanlama ve Bayesyen MAP yöntemi), üç farklı madde seçim yöntemi (A-optimality, D-optimality, Seçkisiz madde seçim yöntemi) ve iki farklı test sonlandırma kuralı (sabit madde sayısı ve hata varyansı durdurma kuralı) kullanılmıştır. Toplamda 72 koşul analiz edilmiş ve her bir koşula ilişkin analiz sonuçları güvenirlik katsayıları, ölçmenin standart hatası, ortalama madde sayısı, gerçek ve kestirilen yetenek parametreleri arasındaki korelasyon ve RMSD değerleri açısından karşılaştırılmıştır.Madde düzeyinde boyutluluk modellerine dayalı çok boyutlu BOB testi analiz sonuçlarına bakıldığında, farklı madde seçim ve yetenek kestirim yöntemlerinin kullanımının standart hata, testin uzunluğu, gerçek ve kestirilen yetenek parametreleri arasındaki korelasyon ve RMSD değerlerini etkilediği bulgusuna ulaşılmıştır. D-optimality madde seçim yöntemi yerine A-optimality madde seçim yöntemi kullanıldığında her bir boyutluluk modeli için hem test uzunluğunun ve RMSD değerlerinin azaldığı hem de her bir boyuta ilişkin testin güvenirliğinin arttığı bulgusuna ulaşılmıştır. Diğer taraftan, madde seçim yöntemlerinden D-optimality ve yetenek kestirim yöntemlerinden MLE'ye dayalı Fisher'in puanlama yönteminin madde düzeyinde boyutluluk modellerinden etkilendiği görülmektedir. Gerçek verilere dayalı (post-hoc) simülasyon analizi bulgularına göre kağıt-kalem testleri ile karşılaştırıldığında çok boyutlu BOB testlerinin daha az madde ile daha yüksek güvenirlikte ölçümler yaptığı görülmektedir. Sonuç olarak, A-optimality madde seçim ve Bayesyen MAP yetenek kestirim yöntemlerinin kullanıldığı madde-içi boyutluluk modeline dayalı çok boyutlu BOB testlerinin diğer çok boyutlu BOB testlerine göre daha güvenilir ve tutarlı sonuç verdiği söylenebilir. Bu çalışmanın sonuçları İYS sınavının gerçek çok-boyutlu BOB testi yöntemleri ile uygulanmasında önemli bir katkı sağlayabilir. The purpose of this study is to measure students' language abilities with Compensatory Multidimensional Computerized Adaptive Testing (MCAT) designs using different ability estimation, item selection methods and stopping rules; and to examine the effect of item-level dimensionality models on MCAT. For this purpose, real data set from English Proficiency Test (EPT) administered by Hacettepe University was used to conduct post-hoc simulation, in which each test consist of three dimensions listening, reading and grammar, respectively. In this study, 10 EPT data sets administered between 2009 and 2013, were used to conduct analysis. Item parameters were estimated with compensatory multidimensional 2 parameter logistic model (CM-2PLM) and item pool for with-in item dimensionality model consisted of 565 items, while item pool for between item dimensionality consisted of 559 items. In order to determine the best MCAT algorithm for EPT, two different theta estimation (Fisher scoring and Bayesian MAP) methods, three different fisher information based item selection methods (A-optimality, D-optimality and Random) and two different termination methods (fixed number of item, precision based) were used. In total, 72 different conditions were taken into consideration, and results of these conditions were compared with respect to, reliability index, SEM, averaged number of items administered and RMSD values between full bank theta and estimated MCAT theta. MCAT Results indicated that using different theta estimation and item selection methods affected SEM, averaged number of administered items, correlation between true and estimated theta and RMSD values. Using A-optimality rather than D-optimality to select items both decreased average number of items administered, RMSD values and increased test reliability for both dimensionality models. On the other hand, both D-optimality item selection and MLE-based Fisher's scoring methods were affected from item-level dimensionality methods. Results also indicated that post-hoc MCAT simulation for EPT provided ability estimations with higher reliability and fewer items compared to paper and pencil format. Overall, MCAT designs based on within-item models with A-optimality and Bayesian theta estimation method outperformed other MCAT designs. Results of this study would also provide an important guideline for live MCAT application of EPT.
Collections