Gözetimsiz makine öğrenim teknikleri ile miktara dayalı negatif birliktelik kural madenciliği
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Birliktelik kuralları, veri kümesindeki nesnelerin varlığının diğer nesnelerin varlığını nasıl etkilediğini tanımlanmaktadır. Bu kurallar, alış veriş sepetleri analizinde, bir ürünün aynı işlemdeki diğer ürün üzerindeki etkisini incelemek için yaygın olarak kullanılmaktadır. Pozitif ve negatif birliktelik kuralları olarak iki şekilde ifade edilebilirler. Bir çeşitten diğerine pozitif birliktelik kuralı, bir ürün varlığının aynı işlemde diğer ürünü bulma olanağını arttırdığını gösterirken, negatif birliktelik kuralı, bir çeşidin bulunmasının, diğer ürünün aynı işlemde olabilme ihtimalini düşürdüğünü göstermektedir.Daha önceki işlemlerdeki sıklıkların araştırdığı için pozitif birliktelik kuralı madenciliği, negatif birliktelik kuralları madenciliğine göre nispeten daha kolaydır. Negatif birlikteki kuralı madenciliğinde daha önceki işlemler araştırıldığında, ilgisiz ürünler arasındaki ilgisizlik kurallarının madenciliği ile karşılaşılır. Bu kuralların çıkarımından kaçınmak için, mevcut negatif birliktelik kuralı, madencilik tekniklerine sağlanan önceden tanımlı alan bilgisine dayanır. Dolayısıyla bu bilgi, bulunan kuralların ilgili ürünlere ait olması için kullanılır. Bu çalışmada, satın alınan miktarlara dayalı veri kümesinden otomatik olarak bilgi alınması ile veri kümesindeki ürünler arasındaki ilginç negatif birliktelik kurallarını bulma kabiliyetine sahip yeni bir teknik önerilmektedir. Birliktelik kuralı madenciliği, gözetimsiz veri madencilik tekniği olduğundan, sağlanan veri kümesi etiketsiz verilerden oluşmaktadır. Bu çalışmada, K-Ortalama(k means) ve Gürültülü Uygulamaların Yoğunluk Tabanlı Uzaysal Kümelenmesi (DBSCAN) olmak üzere iki yöntem test edilmiştir. Bu tekniklerin sonuçları, herhangi bir alan bilgisi olmaksızın bulunan negatif birliktelik kuralı sonuçları ile karşılaştırılmıştır. DBSCAN kümeleme yönteminin kullanımı, gerçek yaşam işlem veri tabanında test edildiğinde %0.21 destek ve %91.84 güven ortalama değerleri ile 4,086 şeklinde daha iyi negatif birliktelik kuralı sonucu göstermiştir. K-Ortalama kümeleme yönteminin kullanımı ile çıkarılan alan bilgisine dayalı negatif birliktelik kuralları madenciliği sonucu, %0.19 destek ve %85.84 güven ortalama değerine sahip 1,780 iken, alan bilgisiz negatif birliktelik kuralı sonucu %0.12 destek ve %99.37 güven ortalama değerli 9,066 sonucunu vermiştir. Association rules are defined as the relationships between objects in the dataset, where the existence of one object in a certain condition affects the probability of the existence of the other object. These rules are widely investigated in the analysis of shopping baskets, to examine the effect of one item on the other in the same transaction. These rules may appear in two terms, positive and negative association rules. A positive association rule from one item to another indicated that the existence of that item increases the chance to find the other in the same transaction, while the negative association rule indicated that the existence of an item decreases the chance that the other item may appear in the same transaction.Mining positive association rules is relatively easy, compared to mining negative association rules, by simply investigating frequent patterns in earlier transactions. Mining negative association rule faces the main challenge of mining uninteresting rules between unrelated items, when earlier transactions are investigated. To avoid the extraction of such rules, existing negative association rule mining techniques rely on a predefined domain knowledge provided to the mining techniques. So that, this knowledge is used to ensure that the extracted rules are for related items. In this study, a novel technique is proposed that has the ability to mine interesting negative association rules between items in the transactions dataset, by automatically extracting knowledge from that dataset based on the purchased quantities. As mining association rules is an unsupervised data mining technique, the provided dataset is unlabeled data. Two clustering methods are tested in this study, which are the K-means and Density-Based Spatial Clustering of Applications with Noise (DBSCAN) methods. The results of these techniques are compared to the results of extracting negative association rules without any domain knowledge. The use of DBSCAN clustering method has shown better negative association rule mining results of 4,086 rules, with an average of 0.21% support and 91.84% confidence, when tested on a real-life transactions dataset. Mining negative association rules based on the domain knowledge extracted using the K-means clustering method has 1,780 rules with an average of 0.19% support and 85.84% confidence, while mining negative rules without any domain knowledge results in 9,066 rules with an average support of 0.12% and average confidence of 99.37%, using the same dataset.
Collections