Kümeleme çözümlemesinde uygun kümeleme ölçütlerinin karşılaştırılması
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
III ÖZET Bu araştırmada, Kümeleme ölçütleri, gn.a, g*j=>, <3zr g3a> g3to, Wilk's lamda, Hotelling-Lawley iz istatistiği ve Kofenetik korelasyon katsayısı (roa), çok değişkenli normal dağılımdan rasgele çekilmiş RİO, R20, R30, R40 ve R50 grupları ile koşullu olarak çekilmiş K20, K30, K40, K50 ve K60 gruplarında test edildi. Bu gruplar 6 değişken ve farklı sayıda birim içeriyorlardı. Altı değişkene göre değerlerin öklid uzaklıkları kullanılarak benzerlik matrisleri bulundu ve küme sayısı 2 ile 5 arasında olacak şekilde aşamalı olmayan kümeleme yöntemi K-Ortalamalar yöntemi ile kümelendi ve Aşamalı kümeleme yöntemi olan Tek Bağlantı Kümeleme yöntemi ile bağlantılar belirlendi. Rasgele ve koşullu olarak belirlenen gruplarda küme istatistikleri hesaplandı ve ağaç grafikleri helde edildi. Oluşan kümelerin kümeleme kriterleri, gla, <3x*>, <3z, g3a, <33b, ras, her küme sayısına göre hesaplandı. Çokdeğişkenli varyans çözümlemesi yapıldı ve kümenin türdeş bir kümemi değilmi olduğunu belirlemeye yarayan Wilk's lamda ve Hotelling-Lawley iz istatistikleri, F istatistikleri ve olasılıkları hesaplandı, öteyandan 6 değişkenli her küme için doğru sınıflandırma olasılıkları Ayırma çözümlemesi ile hesaplandı. Kümeleme ölçütlerinin hesaplanmasında SPSS/PC+, SYSTAT, BMDP and MINITAB veri çözümlemesi paket programlarından yararlanıldı. Çxm gib/ g2/ g3a/ g3b, ölçütleri rasgele grupların kümelenmesinde daha fazla küme sayısının uygun olduğunu gösterirken, Wilk's lamda ve Hotelling-Lawley izIV istatistikleri uygun küme sayısını 3 olarak belirtmiştir. Gruplarda bir ya da daha fazla bağımsız birimin kümelenmesi arttığı zaman Tek bağlantı kümeleme yöntemi ve rcs ölçütü kümelenmenin uygun olmadığını belirtmektedir. Karşıt olarak gruplarda 3 ya da daha fazla birim içeren küme sayısı varsa, TBK ve rao Wilk's lamda ve Hotelling-Lawley iz istatistikleri ile aynı küme sayısını göstermiştir. îki farklı parametreli çokdeğişkenli normal dağılımdan türetilmiş olan koşullu gruplarda, gla, g3a. ve Tek bağlantı kümelemesi yöntemleri üç kümeyi uygun kümelenme olarak verirken, Wilk's lamda ve Hotelling-Lawley iz istatistikleri iki kümeyi önemli olarak vermiştir. Bu son iki istatistik, iki farklı dağılımdan çekilmiş birimleri, enuygun kümelenme sayısı olarak 2 kümeye ayırmıştır. Bu birimler ayırma fonksiyonlarına göre doğru sınıflandırma olarak iki sınıfta gruplandırılmıştır. Koşullu gruplarda enuygun kümelenme ölçütü Wilk's lamda ve Hotelling-Lawley iz istatistikleri idi. Diğer kümelenme ölçütleri, gla, glb, g3a, g3b aynı özelliklere sahip verilerde farklı sonuçlar oluşturma eğilimleri göstermiştir. îki Öklid uzaklığı ele alındığında, Wilk's lamda, Hotelling-Lawley iz istatistikleri ve Tek bağlantı kümelemesi aynı küme sayısını vermiştir. Rasgele ve koşullu gruplarda, kümeleme ölçütleri gruplarda benzerlik ve uyuşma göstermemiştir. Rasgele grupların birim sayıları artarken, Wilk's lamda ve Hotelling-Lawley izistatistikleri dışındaki kümeleme ölçütleri uygunluk göstermeyen bir biçimde küme sayışlarında düzensin artış ve azalma göstermiştir. Hem rasgele nemde koşullu gruplarda, g2 ölçütü koşullu kümelenmeye karşı önemli kümelenme, kümelenme duyarlılığı ve etkinliği göstermemiştir. Biz, Wilk's lamda ve Hotelling iz istatistiğinin en etkin kümelenme ölçütü olduğunu belirledik. Tıp, Biyoloji ve diğer bilim dallarında, verilerden ayrıntılı bilgi edinmek için karmaşık veri matrisleri Kümeleme çözümlemesi ile analiz edilmelidir. Veri matrisleri K-Ortalamalar yöntemiyle 2 ve daha fazla küme sayısına göre, birim ve değişkenlerin aşamalı kümelenmesine ilişkin bilgi edinmek amacıyla da Tek Bağlantı Kümelemesi ile çözümlenmelidir. VI SUMMARY In this study, sensitivity and effectiveness of clustering criteria, gia, glto, gz, g3a., g3to, Wilk's Lamda statistic, Hotelling-Lawley Trace statistic and Cofenetic correlation coefficient (ros) were tested in the randomly drawing groups RIO, R20, R30, R40, R50 and conditionally drawing groups K20, K30, K40, K50 and K60 from multivariate normal distrubitions. Those groups were involved different number units and six variables. Using Euclidean distances of values obtained by six variables, similarity matrices were obtained and clustered with K-Means method which is a nonhierarchical clustering method according two and five cluster numbers and Units linked with Single Linkage Clustering method which is a hierarchical clustering method. Cluster statistics were calculated and Dendrograms were prepared according to randomly and conditionally selected groups. Clustering criteria of obtaining clusters which were giai., gib, gz/ g3a/ 9sb, raa were determined and for each cluster number. Multivariate analysis of variance were performed and Wilk's Lamda and Hotelling-Lawley Trace Statistics that were the statistics obtaing whether is a homogenous cluster or heteregenous cluster, its F statistics and its probabilities calculated accordingly. On the other hand, for each cluster with six variables, correct classification probabilities were calculated with Discriminant analysis SPSS/PC+, SYSTAT, BMDP and MINITAB data analysis packages were used for clustering criteria calculations.Vİİ While the gla, gib, g3a and g3b criteria gave more cluster number as suitable of cluster number for clustering the random groups, The Wilk's lamda and Hotelling-Lawley trace criteria gave 3 cluster for suitable cluster number. Single linkage clustering method and res criterion were pointed out that units were not suitable in cluster when the clustering of one or more independent units were increasing in the groups. Alternatively if they were cluster with 3 or more units in those groups, simple linkage method and ras criterion gave the same cluster number as well as Wilk's lamda and Hotelling-Lawley Trace statistics. In the conditional groups, which were drawn two multivariate normal distributions different parameters, Wilk's lamda and Hotelling-Lawley trace statistics gave 2 cluster as significant while the gla, g3s. and Single Linkage clustering method gave 3 cluster as suitable clustering. The latest two statistics clustered the units drawing two different distrubitions as most convenient clustering number into two clusters. These units classified into two groups as correct clasification according to discriminant fonctions. Most convenient clustering criteria were Wilk's lamda and Hotelling-Lawley trece statistics in the conditional groups. The other clustering criteria, gla, gib, g3a, g3b indicated different inclinations in order to produce different results in the data having same properties. When Euclidean linkage distance of 2 is taken Wilk's lamda, Hotelling-Lawley trace statistics and Single Linkage Clustering method gave the same clustering number.Vİİİ In the random and conditional groups, the clustering criteria did not indicate aggreement and association at results of groups. While the units number of random groups increased, the clustering criteria exeluding the Wilk's lamda and Hotelling-Lawley trace statistics were observed disorderly the increasing and decreasing on the clustering number without agreement. In both random and conditional groups, g2 criterion did not indicate significant clustering, sensitivity and effectiveness of clustering against to conditional clustering We obtained that most effective clustering criteria were the Wilk's lamda and Hotelling-Lawley Trace statistics. In medicine, Biology and other sciences, complex data matrices should be analysed with Cluster Analysis to have detailed information from the data. The data matrices should be analysed with K-Means method accordingly 2 or more cluster numbers and Single Linkage method for hierarchical clustering information of data units and variables.
Collections