TIMSS 2015 sekizinci sınıf matematik başarı testinin OECD ülkelerine göre ölçme değişmezliğinin incelenmesi
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bu çalışmada TIMSS 2015 verileri kullanılarak, matematik başarı testine katılan sekizinci sınıf öğrencilerinin matematik başarılarının ülkelere göre ölçme değişmezliği incelenerek, ülkeler bakımından farklılık gösterip göstermediği, değişmezliği sağlayıp sağlamadığı, sağlıyor ise en iyi hangi değişmezlik türünde sağlandığı tespit edilmiş, önceden bu alanda yapılmış çalışmalarda ortak ve farklı yönlere bakılarak, uygulayıcıya ve araştırmaya yönelik önerilere önemli noktalarda değinilmiştir.İlk aşamada, ilişkisel tarama modelinde yürütülen araştırmaya TIMSS 2015 değerlendirmesinde uygulanan bilişsel test kitapçıklarından tüm ülkelerde ortak olarak uygulanmış olan 11 no'lu kitapçık seçilmiştir ve araştırma TIMSS'e katılan ülkelerde 11 no'lu kitapçığı almış olan 301.472 öğrenciye ait veri seti üzerinden yürütülmüştür. Ülkelerin sekizinci sınıf matematik başarı testi puanları için test istatistikleri, normallik testleri ve güvenilirlik katsayılarına bakılmış, merkezi eğilim ve dağılım ölçülerinin birbirine yakın olduğu sonucuna varılmıştır. Normallik için basıklık ve çarpıklık katsayıları incelenerek, veri setinin normale yakın bir dağılım gösterdiğini söylemek mümkündür. Test maddelerinin güvenilirlik katsayılarının ve iç tutarlılığının genel olarak iyi olduğu sonucuna ulaşılmıştır. Daha sonraki aşamada OECD ülkeleri seçilerek bu ülkelerde bulunan sekizinci sınıfa giden 7.223 öğrenci için ayrı ayrı doğrulayıcı faktör analizi yapılarak χ2/sd oranının oldukça iyi olduğu sonucuna ulaşılmıştır. Uyum indekslerine bakıldığında, CFI değerlerinin örneklemde yer alan bütün ülkelerde iyi uyum gösterdiği, GFI değerlerinin Hong Kong, İsveç, İtalya, Japonya, Kore ve Türkiye için iyi uyuma yakın, diğer ülkeler için oldukça iyi uyum gösterdiği, SRMR değerlerinin Hong Kong, İsveç, İtalya için iyi uyuma yakın, geri kalan ülkeler içinse çok iyi uyum gösterdiği tespit edilerek uyum indeksleri genel olarak değerlendirildiğinde tüm ülkelere ait ölçme modellerinin tüm gruplar için ayrı ayrı doğrulandığına karar verilmiştir.Daha sonra tüm gruplar için kovaryans matrislerinin eşitliği testi yapılarak ölçme değişmezliğinin test edilmesi aşamasına geçilmiştir. OECD üyesi ülkelerin matematik başarı testi puanları için kovaryans matrislerinin eşitliği testi sonuçlarını ele aldığımızda, uyum indekslerinin oldukça iyi bir uyum gösterdiği ifade edilebilir. H0 (daha kısıtlı model ile daha az kısıtlı model arasında uyum açısından anlamlı bir fark yoktur) ve H1 ( daha kısıtlı model ile daha az kısıtlı model arasında uyum açısından anlamlı bir fark vardır) hipotezleri kurularak, ölçme değişmezliği çoklu-grup doğrulayıcı faktör analizi ile test edilmiştir. Yapısal değişmezlik için uyum indekslerinin değerlerinin kabul edilebilir düzeylerde olduğu ve modelin doğrulandığı söylenebilir. Daha sonra Model 1'e alternatif olarak kurulan Model 2, Model 3 ve Model 4'ün yuvalanmış model (nested) temel alınarak karşılaştırılması sonucunda, sırasıyla yapısal değişmezlik (Model 1) ve zayıf faktöriyel değişmezlik (Model 2), yapısal değişmezlik (Model 1) ve güçlü faktöriyel değişmezlik (Model 3), zayıf faktöriyel değişmezlik (Model 2) ve güçlü faktöriyel değişmezlik (Model 3) arasında manidar bir fark olması sebebi ile H0 ret edilmiştir (H1 kabul edilmiştir). Yapısal değişmezlik (Model 1) ve katı faktöriyel değişmezlik (Model 4), güçlü faktöriyel değişmezlik(Model 3) ve katı faktöriyel değişmezlik (Model 4) arasında manidar bir farkın olmaması sebebi ile H0 kabul edilmiştir (H1 ret edilmiştir) şeklinde ifade edilebilir. Sonuç olarak, araştırma sonuçları OECD üyesi ülkeler için ölçme değişmezliğinin sağlanamadığını, ölçme değişmezliğine ilişkin modeller arasında en iyi çalışan modelin güçlü faktöriyel değişmezlik modeli olduğunu göstermiştir.Literatürde bazı araştırma sonuçları, geniş ölçekli çalışmalarda farklı ülkeler arasında ölçme değişmezliğinin sağlandığını, bunun aksine bazı araştırma sonuçları da farklı dil ve farklı kültürlere sahip bireyler arasında kullanılan ölçme araçlarında ölçme değişmezliğinin sağlanamadığını raporlaştırmıştır. Bu sonuçlar bağlamında, madde yazımında her ülkenin kendine has yaşanmışlığı, tarihi ve kültürel değer ve gelenekleri olması sebebi ile farklı kültürden ve milletlerden insanların komisyonda yer alması gerekliliği, sınav sorusu hazırlanmasından, sınavın uygulanması hatta sınavın sonucunun açıklanıp analiz edilmesine kadar eğitimde karar alıcılar ve politikacıların bu sınavlarda çok önemli işlevleri olması sebebi ile grup karşılaştırmalarına çok da güvenmemek gerektiği, ölçülen özellik ve uygulama türüne göre ölçme değişmezliğinin yorumlama, karşılaştırma çalışmalarının değişiklik gösterebileceği ve bu yüzden çalışmanın titizlikle yapılması gerekliliği uygulayıcıya yönelik önerileri oluşturur. Araştırmaya yönelik öneriler olarak da gelecek çalışmalarda farklı ülkeler ve demografik değişkenlerin de dahil edilmesi, farklı kitapçık türlerinin ve başarı alanlarının da analiz edilmesi, ölçme değişmezliğinin daha farklı yöntemlerle test edilerek, hangi yöntemin daha etkili olabileceğinin bulunması, farklı gruplar arasında dil, cinsiyet, kültür gibi değişkenlerle karşılaştırmalar yapılmadan önce yapılan yorumların daha anlamlı ve sağlıklı olabilmesi için ölçme aracına ilişkin ölçme değişmezliği çalışmalarının büyük bir titizlikle yapılması oldukça önemlidir.Tüm sonuçlar değerlendirildiğinde, TIMSS 2015 uygulamasında matematik başarısına ait elde edilen sonuçların farklı ülkeler, diller, cinsiyetler ve kültürlere sahip katılımcılardan elde edilen sonuçların karşılaştırılabilirliği ve buna bağlı olarak yapılan yorumlar ölçme değişmezliğinin sağlanamaması yani uygulanan ölçme aracının tüm katılımcılar için aynı anlamı ifade etmemesi nedeniyle tartışmaya açık hale gelmektedir. Bununla birlikte, geniş ölçekli sınav uygulamalarının sonuçları değerlendirilirken ölçme değişmezliğinin sağlanamıyor oluşu, özellikle ülkeler arası karşılaştırmalar ve yorumlamalar yapılırken titizlikle göz önünde bulundurulması gereken bir durumdur. In this study by using TIMSS 2015 data, the mathematical achievement of the eighth grade students who participated in the mathematics achievement test is analysed. It is tried to determined what kind of invariance is the best provided if this success is different in terms of countries, whether it provides invariance or not. Considering common and different aspects in the studies conducted previously in this field, the recommendations for the practitioner and the research are mentioned in important points.In first step, among cognitive test booklets implemented in TIMSS 2015, booklet 11 which was used commonly by all countries was selected for this correlational survey study and the study was conducted using dataset belonging to 301.472 students that took booklet 11 in the countries that attend TIMSS. Test statistics, normality tests and reliability coefficients were examined for the eighth grade mathematic achievement test scores of the countries and it was concluded that the measures of central tendency and distribution were similar. For simplicity, it is possible to say that the data set has a close distribution to normal. The reliability coefficients and internal consistency of test items were generally good. In the following stage, OECD countries were selected and 7.223 students attending the eighth grade in these countries were subjected to confirmatory factor analysis and the measurement models were validated for all groups. The χ2 / sd ratio was found to be quite good. When considered to the compliance indices, it is seen that CFI datas are compatible with the patterns in all countries. It is determined GFI datas are delivering compatible results in Hong Kong, Swedish, Italy, Japan, Korea and Turkey , for the other countries it extremely shows the compatible results, SRMR datas are closed to harmony in Hong Kong, Swedish, Italy, and for the rest of the other countries it is estimated that they show the best compatible. When compatible index evaluated in general, it is decided that evaluation models of all countries are verified for all groups.Then, for all groups, covariance matrices were tested for equality. The other step is testing of measurement invariance. Considering the results of the covariance matrices equality test for the mathematics achievement test scores of OECD member countries, it can be stated that the fit indexes are in good agreement. H0 (there is no significant difference between the more restricted model and the less restricted model) and H1 (there is a significant difference between the more restricted model and the less restricted model) hypotheses are established, and the measurement invariance is tested by multi-group confirmatory factor analysis. It can be said that the values of the fit indices for the structural invariance are acceptable and the model is confirmed. Then, H0 has been rejected because of a significant difference between the models based on the nested model based on Model 2, Model 3 and Model 4, which were established as an alternative to Model 1, respectively the configural (structural) invariance (Model 1) and the weak factorial invariance (Model 2), configural (structural) invariance (Model 1) and strong factor invariance (Model 3), weak factorial invariance (Model 2) and strong factorial invariance (Model 3). (H1 was accepted.) H0 was accepted because of a significant difference between the configural (structural) invariance (Model 1) and the strict factorial invariance (Model 4), the strong factorial invariance (Model 3) and the strict factorial invariance (Model 4) (H1 was rejected). As a result, the results of the study showed that the measurement invariance was not achieved for OECD member countries, and the best model for measurement invariance was the strong factorial invariance model.In the literature, some research results reported that the measurement invariance between different countries was ensured in large scale studies. On the contrary, some research results reported that the measurement invariance could not be achieved in the measurement tools used among individuals with different languages and different cultures. In the context of these results, the necessity of the presence of people from different cultures and nationalities in the article writing because each country has its own unique experience, historical, cultural values and traditions. From the preparation of the exam question, to the implementation of the exam and even to the examination and analysis of the exam result, the decision-makers and politicians in the education should not be too confident in the group fixtures because they have very important functions in these exams. The interpretation of the measurement invariance according to the measured characteristics and the type of application, and the efforts to be meticulously performed, create suggestions for the practitioner. Including different countries and demographic variables in future studies as suggestions for research, analysis of different booklet types and success areas, determining which method can be more effective by testing the measurement invariance with different methods, In order to make the interpretations made before different comparisons between different groups such as language, gender and culture, to be more meaningful and healthy, it is very important to carry out the measurement invariance of the measurement tool with great care.When all the results are evaluated, the comparability of the results obtained from the results of mathematics achievement in the TIMSS 2015 application against the participants with different countries, languages, genders and cultures, and the comments made accordingly, cannot be ensured by the measurement invariance is becoming. However, measurement of the results of large-scale exam applications can not be achieved in measuring the results, especially when making comparisons between countries and must be taken into consideration diligently.
Collections