Developing a valid and reliable speaking test
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Yabancı dilde konuşma becerilerini test etme problematik bir konudur. Adayların konuşma becerilerini gerçekten yansıtan konuşma örneklerini ortaya çıkaran konuşma görevlerine, konuşmanın hangi yönlerinin değerlendirileceğine ve sınavı icra etmede ve değerlendirme de standartları sağlamaya karar vermek ve bunları tanımlamak konuşma sınavlarındaki güçlüklerdir. Bu konulardaki hatalar bir testin olmazsa olmaz iki koşulunda çatlaklara sebep olabilir; geçerlilik ve güvenilirlik. Bu bağlamda, aynı zamanda pilot adayı yetiştiren mühendislik fakültesinin hazırlık sınıfında AODRÇ B1 yeterlilik seviyesini ölçebilecek geçerli ve güvenilir bir konuşma sınavı ihtiyacı ortaya çıkmıştır. Dolayısıyla, bu çalışmada kurumun gereksinimi olan CEFR B1 seviyesini ölçebilen geçerli ve güvenilir bir konuşma sınavı geliştirme amaçlanmıştır. Bu çalışmada 164 sınava girecek olan, 36 puanlayıcı, 3 yönetici vardır. Sınavı geliştirmek için öncelikle test özellikleri belirlenmiş, sınav görevleri seçilmiş ve değerlendirme ölçekleri hazırlanmıştır. Daha sonra 36 puanlayıcıya puanlama eğitimi verilmiştir. Bu çalışmada hem nicel hem de nitel araştırma yöntemleri kullanılmıştır. Yapı geçerliliğini, puanlayıcılar arası güvenilirliği, puanlayıcı iç güvenilirliğini araştırmak için SPSS 22.0 istatistik programı kullanılmıştır ve testin standart hatasını araştırmak için çevrimiçi istatistik hesaplayıcıdan yararlanılmıştır. Kapsam geçerliliği, testin ölçtüğü yetenekler ile ders kitabının müfredatında bulunan hedef ve kazanımlar ve testte kullanılan konuşma konuları ile ders kitabının konu kapsam ve içerikleri bir karşılaştırma tablosu kullanılarak araştırılmıştır. Yönetici, öğretmen ve öğrencilerin sınav hakkındaki görüşlerini öğrenmek için mülakat yapılmıştır. Faktör analizi yoluyla yapılan yapı geçerliliği analizi bulguları konuşma notunu oluşturan dokuz maddenin eigen değeri 6.42 olarak ve değişkenin %72.1'ini açıklayarak bir faktör altında gruplandığını göstermektedir. Puanlayıcılar arası güvenilirlik analizi sonuçları 18 komisyonun 17'sinde puanlayıcılar arası korelasyonun pozitif ve güçlü olduğunu ortaya çıkarmıştır (rs ≥ .69, p. ≤ 0.03). Puanlayıcı iç güvenilirlik analizleri 36 puanlayıcıdan 33'ünün puanlamasının yüksek güvenilirlikte olduğunu ortaya çıkarmıştır (α ≥ .70, 9 madde üzerinden). Ayrıca, testin standart hatası da SE = .095 olarak bulunmuştur. İçerik geçerliliği araştırmasında konuşma sınavında test edilen yeteneklerin ders kitabı müfredatındaki hedef ve kazanımların %70'i ile eşleştiği ve sınavda konuşulan konu başlıklarının ders kitabının konu kapsam ve içeriğinin %50'sini doğrudan test ettiği bulunmuştur. Mülakat sonuçları konuşma sınavının özgün, pratik olduğu ve öğrenci ve öğretmenler üzerinde olumlu bir etki oluşturduğu sonucunu göstermiştir. Sonuç olarak, geliştirilen bu sınav güvenilir, geçerli, otantik, pratiktir ve olumlu bir etki oluşturmaktadır. Testing foreign language speaking abilities has been a problematic issue. Deciding on tasks, eliciting desired samples of speech, aspects of speech to assess, standards and procedures in making assessment are the challenges in speaking exam. Mistakes in these issues could create fractures in the two indispensible conditions of a test; validity and reliability. In this context, in preparation class of an engineering faculty also graduating pilot candidates, the necessity to a valid and reliable speaking test arose. Therefore, this study aimed to develop a valid and reliable speaking examination testing CEFR B1 proficiency level, the requirement of the institution. There are 164 test takers, 36 raters and 3 administers as participants. To develop the test, firstly test specifications were defined, tasks were chosen and assessment scale was prepared. Then, a rater training session was held for 36 raters. Both quantitative and qualitative research methods were used in the study. Construct validity, inter-rater and intra-rater reliability were investigated through using statistical analysis software of SPSS 22.0 and standard error of measurement was investigated through an online statistical calculator. Content validity was investigated by comparing the abilities and topics in the speaking exam with objectives and content of the course book curriculum. An interview was conducted to find the views of administers, teachers and students about the speaking exam. Investigation of construct validity through factor analysis revealed that nine items constituting the speaking score of a test taker were grouped under a factor with eigen-value of 6.42 explaining 72.1% of the variance. Inter-rater reliability analysis revealed that in 17 out of 18 commissions, raters' ratings correlated positively and strongly with each other (rs ≥ .69, p. ≤ .03). Intra-rater reliability analysis revealed a Cronbach's alpha score of α ≥ .70 over 9 items in the speaking test for 33 raters out of 36. Also, standard error of the speaking test was SE = .095. Investigation of content validity revealed that abilities tested in the speaking exam matched with the 70% of the abilities in the course book and 50% of the topics in the course book were tested in the exam. Results of interview revealed that the speaking exam was authentic, practical and created a positive washback effect on teachers and students. As a conclusion, the developed speaking test is a valid and a reliable test which also is authentic, practical and leaving positive washback effect.
Collections