İç göç verilerini kullanarak kümeleme analizinde elde edilen kümelerin geçerliliğinin sınanması
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Kümeleme analizinde, anlamlı ve geçerli sonuçlara ulaşabilmek birçok araştırmacının hem hedefi hem de karşılaştığı en önemli sorunlardan biridir. Bu bakımdan elde edilen kümeleme çözümlerinin kalitesini test etmek amacıyla geliştirilen bazı yöntemler bulunmaktadır. Bu yöntemlerden biri de, çalışmada incelenen çok değişkenli bir istatistik analiz tekniği olan diskriminant analizinin kümeleme sonuçlarına uygulanmasıdır. Bu çalışmada, SPSS Paket Programı ve Minitab Paket Programı kullanılarak Türkiye İstatistik Kurumu 2017 yılı 15 yaş ve üzeri iç göç verileri üzerinde hiyerarşik kümeleme analizi tekniklerinden tek bağlantı kümeleme tekniği, tam bağlantı kümeleme tekniği, merkezi bağlantı kümeleme tekniği, medyan bağlantı kümeleme tekniği ve Ward tekniklerinden her birine karesi alınmış Öklid, Pearson, City-Block(Manhattan) ve Minkowski uzaklıkları uygulanarak elde edilen kümeler karşılaştırılmış ve ortaya çıkan bu kümelerin her biri için varyans-kovaryans matrislerinin eşitliğine göre doğrusal veya karesel diskriminat analizi uygulanarak meydana gelen kümelerin geçerliliği sorgulanmıştır. Bu çerçevede söz konusu uygulama özelinde, hangi uzaklık ölçüsünün hangi kümeleme tekniğinde nasıl kümeler oluşturduğu incelenmiş ve doğrusal veya karesel diskriminant analizi gerçekleştirilerek hangi oranda doğru sınıflandırma ortaya koyduğu belirlenmeye çalışılmıştır. Gerçekleştirilen analiz sonuçlarına göre, tek bağlantı kümeleme tekniğinde tüm uzaklıkların aynı oranda doğru sınıflandırma yaptığı, tam bağlantı kümeleme tekniği ve medyan bağlantı kümeleme tekniğinde Pearson uzaklığına göre elde edilen kümelerin sırasıyla % 97,5 ve % 98,8 oranında en fazla doğru sınıflandırma oranına sahip olduğu, merkezi bağlantı kümeleme tekniğinde karesi alınmış Öklid uzaklığının % 98,8 ile en fazla oranda doğru sınıflandırma gösterdiği ve Ward tekniğinde ise Pearson ve Manhattan uzaklıklarının % 96,3 ile en fazla doğru sınıflandırma oranına sahip oldukları belirlenmiştir. Bununla birlikte, Türkiye'de 81 il bazında illere göç edenlerin eğitim durumu konusunda durum tespiti yapılmış olup elde edilen bu sınıflandırmaların ilgili politika, uygulama ve diğer akademik çalışmalara yol gösterici nitelikte olacağı düşünülmektedir. In cluster analysis, finding significant and valid results is both the goal and one of the most important problems of many researchers. In respect to this, there are some methods developed to test the quality of resulting cluster analyses. One of these methods examined in our study is to apply a discriminant analysis, which is a multivariate statistical analysis technique, to the clustering results. In this study, SPSS Software Package and Minitab Software Package were used to apply Euclidean Squared, Pearson's, City-Block (Manhattan) and Minkowski distances on each of these particular hierarchical cluster analysis methods, consisting of single linkage clustering method, complete linkage clustering method, centroid linkage clustering method, median linkage clustering method and Ward's method, using the Turkish Statistical Institute data on internal migration of people aged 15 and older, to compare the resulting clusters, and to question the validity of the resulting clusters by applying linear or quadratic discriminant analysis depending on the equality of the variance-covariance matrices. Within the scope of the aforementioned operation, it was examined which distance measurement created what kind of cluster in which clustering method, and it was attempted to be determined that at what rate the accurate classifications were done. According to the results of the analysis, in the single linkage clustering method all distances had the same rate of accurate classification, in the complete linkage clustering method and the median linkage clustering method the clusters which are obtained according to the Pearson's distance had the most accurate classification rate of 97.5% and 98.8% respectively, in the centroid linkage clustering method the Euclidean Squared distance had the most accurate classification rate with 98.8%, and in Ward's method Pearson's and Manhattan distances had the most accurate classification rate with 96.3%. In addition to this, educational statuses of immigrants throughout 81 provinces of Turkey were determined on the basis of provinces, and it is believed that the resulting classifications will provide guidance to politics, practical applications, and other academic studies.
Collections