Hierarchical structures in data science
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Son yıllarda, veri analizinin karmaşık sistemler olarak ele alınması, kümelenme yönteminin bu konularda kilit rol oynamasına neden olmaktadır. Hiyerarşik kümelenme, veri biliminde en önemli veri analizi yöntemlerinden biri haline gelmiştir. Anlaşılır uygulaması, grafik analizi ve sonuçta ortaya çıkan hiyerarşik ağacı ile yararlı bir yöntemdir. Bu tezin amacı verilerin hiyerarşik kümelenme yapılarını metrik ve ultrametrik uzay özellikleri ve çizge kuramı yöntemlerini kullanarak ele almaktır. Bu sebeple, bu tezde, veri üzerinde yapılacak uygulamalara matematiksel bir iskelet oluşturabilmek için öncelikle metric uzaylar, normlu uzaylar ve ultrametrik uzaylar çalışılmıştır. P-sel uzaylar gibi özel öneme sahip örneklerin yanı sıra başka örnekler de çalışılmış ve adı geçen uzayların topolojik karakterizasyonları da verilmiştir.Daha sonra hiyeraşik yapılar ele alınarak kümelenme kavramının matematiksel içeriği üzerine çalışılmıştır. Veri üzerinde benzerlik ve bağlam ifadelerden nasıl bir metric ve ultrametrik uzay elde edildiği anlatılmıştır. Çizge Teorisi'nin bazı tanımlamaları sayesinde veriyi görselleştirebilme yöntemleri ifade edilmiştir ve çizge üzerinde bir optimizasyon yapılarak bize anlamlı bir çizge çıkaran Minimal Geren Ağaç yöntemi ele alınmıştır.En son olarak yapılan çalışmalar bir veri üzerine uygulanır. Üzerinde çalışılan veri $10$ tane OECD ülkesinin PISA-matematik ve PISA-okuma performanslarının $4$ yıllık bir zaman serisidir. Bu tez, tek bağla toplanabilir hiyerarşik kümelenme yöntemi ve çizge kuramsal bir yöntem olan Minimal Geren Ağaç yönteminin eşitliğinden yola çıkarak veriyi analiz etmemizi sağlamıştır. Tezden elde ettiğimiz sonuçlar sözkonusu veriden ilgili $10$ ülkedeki matematik performansları hakkında anlamlı bir sonuç çıkarmamızı sağlamaktadır. In recent years, the increase of studies analyzing data as complex systems lead clustering to play key role. Hierarchical clustering is one of the most popular clustering method in data science. It is a useful method with its comprehensible application, graphical analysis and with its resulting hierarchical tree. This thesis aims to study the mathematical background of the hierarchical clustering structures of a particular data by using metric and ultrametric spaces' features as well as graph theoretical tools.First of all, we study metric spaces, normed spaces and ultrametric spaces. Besides some examples, including the remarkable p-adic spaces, the topological properties of these spaces are studied.Then, we study how to interpret a particular data by means of a metric and ultrametric space. Ultrametric tree models of similarity and association are used to produce the representation of the data. We gave the equivalence of agglomerative hierarchical clustering model using single linkage and the graph theoretical model using minimal spanning tree. We tackled here some notions of Graph Theory which helps us to visualize the data and mainly the question how to obtain a Minimum Spanning Tree (MST) from a graph which represents the optimization process. Finally, we analyze the data obtained from PISA-mathematical and PISA-reading performance evolution over $4$ years for $10$ OECD countries. We analyze these particular data by using minimum spanning tree model which are obtained by using certain algorithms (Prim/& Kruskal) and programs (Python/& Sage). The results of our data analysis allow us to make a meaningful conclusion about the evolution of mathematics and reading performance in the considered $10$ OECD countries.
Collections