Parallel clustering algorithms with application to climatology
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Ekolojik sınırların nasıl belirleneceği, iklim sınırlandırmalarının nasıl yapılacağıuzun zamandır süregelen bir takım tartışmalara konu olmuştur. Tartışmanınçıkış noktası başvurulan yöntemin ne derece tarafsız olduğuna dair görüşayrılıklarıdır. İşte bir takım yanlı olabilecek yaklaşımlardansa, böylesimüdahalelerin önlenebildiği formulasyonlar kullanılması gerekmektedir. Verimadenciliğinin önde gelen yaklaşımlarından olan, hiyerarşik ve hiyerarşik olmayan teknikleri de içeren kümeleme yöntemi bu açıdan bakıldığında bize objektif bir çözüm sunmaktadır. Yanlı kararlara neden olabilecek kişisel beceri veya yorumlara dayanmak yerine, kümeleme analizi metodunu kullanmak, elimizdeki çok değişkenli bir veri kümesi için matematiksel bir yaklaşım olacaktır.Bu çalışmada, daha doğru ve kolay iklim bölgeleri edinmek için bazı istatistikselenstrümanlarla beraber kümeleme yöntemi iklim verileri üzerinde uygulanmıştır.İlk olarak geçerli bir ayırma işlemi için algoritma üzerinde bir geçerlilik kriterigöz önüne alınmıştır. Değişken sayısının her bir deneyde 96 ile 109 arasındadeğiştiği hali ve Temel Bileşen Analizi (TBA) yoluyla indirgenmiş boyutlar içingeçerlilik kriterinin onayladığı sayılarda iklim bölgeleri saptanmıştır. Değişkensayılarındaki bu değişim, ele aldığımız 30-50 K 3-60 D bölgesinde farklısayılarda iklim bölgeleri önerirken, Türkiye'nin tamamına yakınını kapladığı34-43 K 23-47 D bölgesinde devamlı olarak 4 iklim bölgesi saptamaktadır.Bu süreç ele alınırken, seri bir algoritmanın yanında paralelleştirilmiş k-ortalamauygulaması kullanılarak performansı gözlenmiştir. Uygulama neticesinde serikodun TBA ile elde edilmiş veri kümesiyle çalışması daha kolayken, paralelprosedürün yüksek boyutlu küme ile daha iyi sonuçlar verdiğini görülmüştür.Sonuç olarak k-ortalama algoritması 30-50 K 3- 60 D ve 34-43 K23-47 D bölgelerinin iklim sınırlandırmalarına yeni bir anlayış getirmiş, dahaönce yapılmış olan bölgelendirmelerden farklı olarak Türkiye coğrafyasını 4 sınıfaayırmıştır. Her iki çerçeveye ait deneylerde Türkiye üzerindeki sınırlar geneldeaynı seviyede kendini göstermiştir. How to determine the ecoregions or climate zones has been acontroversial issue. Discussion appears from the debate if theselected method is objective or not. In order to prevent fromsubjective approaches, one has to utilize some formulationswhich are independent from such interferences. Clusteranalysis, which is one of the famous pattern recognition toolsand has hierarchical and non-hierarchical methods, contributesto the objectivity in this sense. Instead of relying on anyexpertise or personal interpretations, clustering methodsprovide a mathematical approach with the multivariate data set.The aim of this work is to implement cluster analysis tools toclimatology data in order to obtain climate zones with someother statistical techniques that will make the study moreprecise. In order to clarify, first we determine how manyclusters or regions do we need for valid regionalizationby posing a validation criterion on the algorithm.While acquiring such a number of clusters, we have done experiments with both the high dimensional set where there are from 96 to 109 number of variables and the reduced dimensional data space which was obtained via Principal Component Analysis (PCA). Under the criterion we posed, in the region 30-50 N 3-60 E varying number of clusters obtained as the different variable combinations are used. Nevertheless, in 34-43 N by 23-47 E where Turkey covers almost all the frame, we consistently acquired 4 climate zones. During the cluster analysis (CA), besides the serial k-means algorithm we have also utilized parallel version. According to the time measurements, it is seen that whereas serial code performs better with the reduced dimensions, parallel version is good at dealing with high dimensional sets.Consequently, the k-means algorithm suggests another point of view for the climate zones of both regions where it is possible to observe some climatic blocks that are generally stable. More precisely, 4 climate zones appear in all cases concerning the second frame which represents some differences from the preceding climate zone definitions which are based on conventional and hierarchical ideas.
Collections