Clustering of divers using data mining techniques
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Divers Alert Network (DAN), dalış güvenlik laboratuarı projesi kapsamında 1994 yılından beri topladığı dalış ile ilgili verilerle büyük bir veritabanı oluşturmuştur. Bu çalışmanın amacı, bu veritabanını veri madenciliği teknikleri kullanarak analiz etmektir. Dalıcıların sağlık ve demografik bilgilerine göre kümelenmesi ve dalıcı grupları arasındaki anlamlı farkların bulunması çalışmanın ana hedefleridir.Değişkenlerin zaman etkilerinden arındırılması için DAN Avrupa veritabanında kayıtlı toplam 3097 dalıcıdan sadece tek dalışı olanlar ve tek dalış etkinliğine katılmış olanlar seçilmiş ve sırasıyla 874 (tek dalışı olan) ve 1669 (tek etkinliğe katılmış) dalıcının verileri kullanılarak, İki Adımlı Analiz ve K-Ortalamaları yöntemleri ile kümeleme analizleri gerçekleştirilmiştir. Kümeleme analizi sonrası, kadın ve erkek dalıcıların ve elde edilen kümelerin arasındaki farklılıkları anlamak için istatistiksel analizler yapılmıştır.Bu analizler sonucu her dalıcılar 3 farklı gruba ayrılmış ve bu grupların ayırt edici özellikleri ortaya koyulmuştur. Tek dalışı olan ve tek etkinliğe katılmış dalıcı gruplarının özellikleri birbirleriyle benzerdir. İki Adımlı Analiz yöntemi kategorik değişkenler için uygun olduğu için, yaş ve dalış tecrübesi değişkenleri 3 kategoriye dağıtılmıştır. Sayısal veriler için etkin olan K-Ortalamaları yöntemi için ise bu değişkenlerin sayısal değerleri kullanılmıştır. En ayırt edici kümeler iki adımlı kümeleme yöntemi ile oluşturulmuştur. Orta yaşlı ve sağlıklı dalıcılar birinci kümede toplanmıştır. Sağlık problemi olan ve yüksek sigara içme oranına sahip kadın ve erkek dalıcılar ikinci kümede, uzun süredir dalış yapan dalıcılar ise üçüncü kümede toplanmıştır. Dalış ile ilgili değişkenlerin arasındaki farklılıkların araştırılması ise İki Adımlı Analiz sonuçlarına ve dalıcıların cinsiyetlerine göre yapılmıştır. Divers Alert Network (DAN) created a database (DB) with a big amount of dive related data which has been collected since 1994 within the scope of Dive Safety Laboratory project. The aim of this study is to analyse DB using data mining techniques. The clustering of divers by their health and demographic information and revealing significant differences between diver groups are the main objectives of this study.To eliminate time effect of age, divers who participated to only one dive and one dive event were included in the study. The number of one-dive and one-event divers are 874 and 1669 respectively. Before applying clustering methods, data cleaning was performed to eliminate the potential mistakes resulting from inconsistencies, inaccuracies and missing information. TwoStep and K-means clustering methods were performed on DB to find the naturally associated clusters. Conventional statistical analysis was performed to understand differences in clusters and between male and female divers.As the result, divers were separated into 3 groups and distinguishing variables of these clusters were revealed. One dive and one event results were similar for all clusters. In order to analyse the dive-related variables with nonrecurring data, we focused on one-dive divers. The reason of this is to avoid inconsistencies in the data which changes in time. As TwoStep is suitable for categorical variables, age and dive activity years were distributed in 3 categories. For K-Means Clustering, original numerical values of these variables was used for clustering. The most distinct clusters were formed by TwoStep Clustering. The middle aged male divers without any health problem are in Cluster 1. Male and female divers with health problems and high rate of cigarette smoking are in the Cluster 2 and old divers with many dive activity years are in the Cluster 3. The search for significant differences in dive-related variables was performed based on the TwoStep Clustering results and separating male and female divers.
Collections