Clustering mixed datasets using multi objective genetic algorithm
dc.contributor.advisor | Özyer, Tansel | |
dc.contributor.author | Sert, Onur Can | |
dc.date.accessioned | 2021-05-08T11:22:32Z | |
dc.date.available | 2021-05-08T11:22:32Z | |
dc.date.submitted | 2012 | |
dc.date.issued | 2018-08-06 | |
dc.identifier.uri | https://acikbilim.yok.gov.tr/handle/20.500.12812/683522 | |
dc.description.abstract | Son yıllarda gittikçe büyüyen veri kümeleri içerisinden kullanıcının işine yarayacak olan saklı bilgiye ulaşmak ve çıkarmak gittikçe önemini arttıran bir araştırma konunusudur. Bu bilgiler üzerinden veriler arasında bulunan ilişkiler saptanabilir ve çeşitli yöntemler kullanılarak bu verilerin öbeklenmesi ve sınıflandırılması sağlanabilir. Bu bilgilerin çıkartılması adına bir çok algoritma geliştirilmiştir ve bu işlemler şu anda bankacılık, biyoenformatik, sağlık sektörü ve benzeri bir çok alanda aktif olarak kullanılmaktadır.Sadece numerik veya sadece kategorik öznitelikler içeren veri kümeleri için bu öbekleme işlemlerini yapan k ? means, k ? modes gibi algoritmalar mevcuttur fakat numerik ve kategorik özniteliklerin karışık olarak yer aldığı veri kümeleri için çözüm üreten çok sayıda yöntem bulunmamaktadır.Bu tezde karışık özniteliklerden oluşan veri kümelerinin öbeklenmesine yönelik bir araştırma yapılmış ve bu doğrultuda bir çözüm yöntemi önerilmiştir. Önerilen çözüm yönteminde karışık öznitelikler içeren veri kümeleri özniteliklerinin türleri doğrultusunda ayrılmakta ve değerlendirilmekte daha sonra ise numerik ve kategorik olarak ayrı ayrı alınan sonuçlar birleştirilerek sonuca ulaşılmaktadır. Bu işlemlerin yapılabilmesi adına numerik ve kategorik öznitelikler için farklı uzaklık (benzerlik) metrikleri tanımlanmıştır. Son olarak ise tanımlanan bu uzaklık metrikleri bir k ? means yapısına oturtularak istenilen algoritma elde edilmiştir. Bu algoritmadan elde edilen sonuçlar üzerinden çeşitli metrikler doğrultusunda ideal öbek sayıları tespit edilmeye çalışılmış ve elde edilen sonuçların başarımları saflık metriği adı verilen bir metrik hesaplanmış ve farklı yöntemler ile elde edilen sonuçlarla karşılaştırılmıştır. | |
dc.description.abstract | Collecting and extracting the useful information for users from the datasets becomes very popular and important among the research areas of computer sciences. For using the extracted information people can easily create links between the different data and make clustering or classification operations with them. In order to do that information extraction process, there are remarkable number of algorithms are developed and they are used in areas like banking, bioinformatics and medicine.There are lot of algorithms which are do clustering operations for datasets which are included only numerical attributes or only categorical attributes. However the number of the algortihms convenient for the mixed datasets, which are included both numerical and categorical attributes, are very low.In this thesis, it has been stutied on developing a new clustering algorithm for all the three types (numerical, categorical and mixed) of datasets. The algorithm which is proposed is seperating the types of the attributes as numerical and categorical, calculating the distances between the data and returning a clustering result. For calculating the distance between two datum, there are fitness functions. Fitness functions are also seperated for numerical and categorical attributes and they are use in the same way as the fitness functions in the k ? modes and k ? means algorithm. Finally the clustering results, which are returned from the algorithm, are evaluated and the optimal clustering numbers are detected. The success of the results are evaluated with purity index and they are compared with the results of the other algorithms. | en_US |
dc.language | Turkish | |
dc.language.iso | tr | |
dc.rights | info:eu-repo/semantics/openAccess | |
dc.rights | Attribution 4.0 United States | tr_TR |
dc.rights.uri | https://creativecommons.org/licenses/by/4.0/ | |
dc.subject | Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol | tr_TR |
dc.subject | Computer Engineering and Computer Science and Control | en_US |
dc.title | Clustering mixed datasets using multi objective genetic algorithm | |
dc.title.alternative | Çok amaçlı genetik algoritma ile karışık verilerin sınıflandırılması | |
dc.type | masterThesis | |
dc.date.updated | 2018-08-06 | |
dc.contributor.department | Bilgisayar Mühendisliği Ana Bilim Dalı | |
dc.subject.ytm | Genetic algorithms | |
dc.subject.ytm | Computational methods | |
dc.subject.ytm | Data mining | |
dc.identifier.yokid | 440421 | |
dc.publisher.institute | Fen Bilimleri Enstitüsü | |
dc.publisher.university | TOBB EKONOMİ VE TEKNOLOJİ ÜNİVERSİTESİ | |
dc.identifier.thesisid | 316531 | |
dc.description.pages | 75 | |
dc.publisher.discipline | Diğer |