Çok kategorili puanlanan maddelerde madde işlev farklılığının mantel test ve olabilirlik oran testi ile karşılaştırılması
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bu araştırmada, çok kategorili tepki gerektiren maddelerde MİF belirleme testlerinden Mantel Test ve MTK-Olabilirlik Oran Testi'nin farklı test koşullarında I.Tip hata ve istatistiksel güç (power) oranları karşılaştırılmıştır. Çalışmada, Monte Carlo simülasyon tekniği yaklaşımıyla araştırma koşullarına uygun yapay veri setleri elde edilmiştir. Bu çalışmada grupların yetenek dağılımı, örneklem büyüklüğü, MİF miktarı ve MİF örüntüsü manipüle edilen değişkenler olarak belirlenmiş; çok kategorili MTK modeli, madde sayısı, MİF içeren madde sayısı ve MİF türü (tek biçimli) bütün koşullar altında sabit tutulmuştur. Son durumda I. Tip hata çalışması için 18 [3 (yetenek dağılımı) x 3 (örneklem büyüklüğü) x 2 (MİF belirleme testi)] simülasyon koşulu ortaya çıkmıştır. İstatistiksel güç çalışmaları için 76 [3 (yetenek dağılımı) x 3 (örneklem büyüklüğü) x 2 (MİF miktarı) x 2 (MİF örüntüsü) x 2 (MİF belirleme tekniği)] simülasyon koşulu ortaya çıkmıştır. Her bir koşul için 100 tekrar yapılmıştır. I. Tip hata oranları MİF içermeyen 20 madde için hesaplanırken güç oranları MİF içerecek biçimde modellenen üç madde üzerinden hesaplanmıştır. Çalışmada veri üretmek için WinGen1, MTK-OOT karşılaştırmaları için MULTİLOG ve Mantel Test analizleri için DIFAS programı kullanılmıştır. Araştırma sonuçları, referans ve odak grubun yetenek dağılımı birim normal dağılım gösterdiği koşulda her iki MİF belirleme testin de I. Tip hatayı iyi kontrol ettiğini göstermiştir. Grup yetenek dağılımlarının benzer olduğu koşul için artan örneklem büyüklüğüne bağlı olarak I. Tip hata oranları Mantel Test için yükselirken MTK-OOT için düşme eğilimi göstermiştir. Her iki MİF belirleme testi için de artan örneklem büyüklüğü ve odak grup yetenek dağılım ortalamasındaki sapmalara bağlı olarak I. Tip hata değerleri artma eğilim göstermiştir. Mantel Test ile karşılaştırıldığında, artan örneklem büyüklüğü ve grupların yetenek ortalamasındaki sapmaya bağlı olarak MTK-OOT için I. Tip hata değerlerindeki artış daha yüksek olmuştur.Her iki MİF belirleme testi için de, artan MİF miktarı ve örneklem büyüklüğüne bağlı olarak ilgili testlerin istatistiksel güç oranlarını yükselmiştir. Araştırma bulguları tüm örneklem büyüklüğü ve MİF miktarı koşullarında MTK-OOT'in istatistiksel güç oranlarının, Mantel Test'e göre daha yüksek olduğunu göstermektedir. Yüksek MİF örüntüsü koşullarında ilgili testlerin MİF'i belirlemedeki performansı zayıftır. Mantel Test ve MTK-OOT'nin MİF belirlemedeki gücü odak grubun yetenek ortalamasındaki sapmaya bağlı olarak bir miktar yükselmiştir. Ancak genel olarak farklı sapma koşulları için ilgili testlerin istatistiksel gücü birbirine yakın değerler almıştır.Anahtar kelimeler: Çok kategoride puanlanan maddeler, Madde İşlev Farklılığı, Mantel Test, Olabilirlik Oran Testi, I. Tip Hata, istatistiksel güç The purpose of this study was to investigate the power and Type I error rate of the likelihood ratio goodness-of-fit (LR) statistic and Mantel Test in detecting differential item functioning (DIF) under Master's (1969, 1972) Partial Credit Model. A multiple replication Monte Carlo study was utilized for simulated data sets. Several variables were manipulated in this study, including the sample size, group mean difference, DIF condition and DIF magnitude. On the other hand some variables were held constant, including polytomous IRT model, test length, Percent of Items with DIF and Type of DIF. In final study design, there were 18 conditions [3 (sample size) x 3 (group mean difference) x 2 (methods of DIF detection)] for Type I error rate study and 76 conditions [3 (sample size) x 3 (group mean difference) x 2 (DIF magnitude) x 2 (DIF pattern) x 2 (methods of DIF detection)] for power study. Simulation was replicated for 100 times for each simulation condition. The conditions investigating Type I error had twenty items with no DIF, whereas the conditions investigating power had three items with DIF. In this study, WinGen3 was used to simulate ability estimates and to generate response data sets. MULTİLOG and DIFAS were used to conduct the Mantel and IRT likelihood-ratio test DIF analyses. Results indicated that with equal group distribution, Mantel Test and IRT-LR Test performed similarly under all testing conditions and had better Type I error rate control. Type I error rate for Mantel Test increased as sample size increased. Conversely, as sample size increased, the Type I error rate for IRT-LR decreased under equal group distribution condition. The presence of group mean difference affected the Type I error results of both DIF detection tests. The results showed that large sample size and presence of group mean difference tended to inflate the Type I error rates of both DIF detection tests. IRT-LR had higher Type I error rates than Mantel Test when large sample size and when group mean difference conditions.For both DIF detection tests, the power to detect DIF increased as the DIF Magnitude and sample size increased. The results also showed that IRT-LR had higher DIF detection rates than Mantel test under all test conditions. For both DIF detection tests, conditions with high-shift DIF pattern had the poorest power. The presence of group mean difference had minimal effect on the power results of both DIF detection tests.Key words: Polytomous items, Differential item functioning, Mantel test, Item Response Theory- Likelihood Ratio test, Type I error, power
Collections