Clustering web usage transactions for efficient association rule mining
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
öz VERİMLİ EŞLEŞTİRME SORGUSU ÇIKARIMI İÇİN WEB GUNLUK HAREKETLERİNİN GURUPLANDIRILMASI Mehmet Uluer YÜKSEK LİSANS TEZİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ Ankara, 2003 Web, her geçen gün biraz daha büyümekte ve her türden veri kaynağını içinde barındırmaktadır. Büyümeyle birlikte artan, meşru olmayan pek çok kaynağıda içine almasına rağmen, insanoğlunun günümüze kadar oluşturabildiği en değerli veri hazinesidir. Veri madenciliği teknikleri kullanılarak Web kullanıcılarının davranış biçimlerinin ortaya çıkarılabilmesi ve analiz edilebilmesi, sistem başarısını artırmış ve İnternet'teki bilgi servislerinin son kullanıcıya kaliteli bir biçimde ulaştırılmasını sağlamıştır. Bunun yanında pek çok kuruluşa, müşteri devamlılığının ölçülmesi, pazarladıkları ürüne göre çapraz satış stratejilerinin belirlenmesi, elektronik ticarette müşteri potansiyellerinin tahmini gibi konularda önemli yardımları olmuştur. Etkili satış stratejilerinin belirlenmesinde ve Web sitesinin mantıksal yapısının optimizasyonunda, site kullanımının analiz edilmesi çok kritik bir rol oynar. Erişim örüntülerinin analizi, Web ortamında yayınlanan reklamlarında hedef kitlelere ulaşmasını sağlar. Web günlük madenciliği, kullanım örüntülerinin çıkarımı için, veri madenleme tekniklerinin Web günlüklerine uygulanmasıdır. Web sitelerinin karmaşıklığı ve büyümesi ilerledikçe, site tasarımı, iş ve pazarlama için karar-destek uygulamaları, kişiselleştirme, kullanılabilirlik çalışmaları ve ağ trafiği analizi gibi uygulamalarda web günlük -ııı-madenciliğinin sonuçlan kritik bir önem taşır. Web günlük madenciliğinin en temel iki problemi, sitenin erişimine ilişkin kusursuz bir tablo ortaya koyabilmek için ham verinin ön işlemeden geçirilmesi ve sadece ilginç örüntü ve kuralların ortaya konulabilmesi için çeşitli veri madenleme algoritmalarının sonuçlarının filtrelenmesi konuları olmuştur. Gruplama ve eşleştirme kuralları çıkarımı, veri tabanlarında bilgi keşfi konusunda önemli araştırma alanlarından ikisidir ve son zamanlarda veri madenciliği topluluklarının çok ilgisini çekmiştir. Bu çalışmada, ham Web günlük hareketlerini analiz eden ve ön işlemeden geçiren, gezinti örüntülerini kullanarak öz-örgütsel bir harita üzerinde düzenleyen ve bütün hareketler için eşleştirme kuralları bulmak yerine her grup için ayrı ayrı eşleştirme kurallarını çıkaran bir prototip sistem ortaya konulmuştur. Öz-örgütsel bir harita, kullanıcının siteyi ziyaretinde gezdiği sayfalar kümesinden oluşan hareketler verisini gruplandırır. Diğer taraftan kullanıcının siteyi ziyaretinde gezdiği sayfalar arasındaki ilişkileri çıkarmak için eşleştirme sorgusu çıkarım tekniklerini kullanılır. Bu bağlamda, Öz- örgütsel haritanın ürettiği gruplar üzerinde apriori algoritması uygulanarak bütün sorguları çıkarmak yerine her grup için ayrı ayrı sorgular bulunur. Bu şekilde, sistem siteye gelen ziyaretçinin içinde bulunduğu grubu tespit ederek, bu gruba ait davranış özelliklerine bağlı olarak ziyaretçiye daha kişiselleştirilmiş bir yayın yapar. Anahtar Kelimeler: Web Günlük Madenciliği, Öz-Örgütsel Haritalar, Eşleştirme Sorgusu Çıkarımı, Kişiselleştirme. -iv- ABSTRACT CLUSTERING WEB USAGE TRANSACTIONS FOR EFFICIENT ASSOCIATION RULE MINING Mehmet Uluer MASTER THESIS IN THE DEPARTMENT OF COMPUTER ENGINEERING Ankara, 2003 The World Wide Web continuously growing and collecting all kinds of resources. Despite the anarchy in which it is growing, the Web is one of the biggest repositories ever built. As a confluence of data mining and World Wide Web technologies, analyzing and exploring regularities using data mining in Web user behavior can improve system performance and enhance the quality and delivery of Internet information services to the end user. It can also help organizations to determine the life time value of their customers and cross marketing strategies across products and identify population of potential customers for electronic commerce. Analysis of how users are accessing a site is critical for determining effective marketing strategies and optimizing the logical structure of the Web site. For selling advertisements on the World Wide Web, analyzing user access patterns helps in targeting ads to specific groups of users. Web usage mining is the application of data mining techniques to Web clickstream data in order to extract usage patterns. As Web sites continue to grow in size and complexity, the results of Web usage mining have become critical for a number of -1-applications such as Web site design, business and marketing decision support, personalization, usability studies, and network traffic analysis. The two major challenges involved in Web usage mining are preprocessing the raw data to provide an accurate picture of how a site is being used, and filtering the results of the various data mining algorithms in order to present only the rules and patterns that are potentially interesting. Clustering and association rules are two important research areas of knowledge discovery in databases and have recently received much attention from the data mining community. In this thesis, we present a prototype system that analyzes and preprocesses the raw web server logs, organizes web usage transactions on a self-organizing map according to user navigation patterns and keeps track of the association rules for each cluster rather than finding the rules for all transactions. The SOM clusters whole transaction data where each transaction is comprised of a set of URLs accessed by a client in one visit to the server. On the other hand, association rule discovery techniques came up to discovering the correlations between pages. In this manner, the apriori algorithm applied to clusters produced by the SOM to discover association rules on each cluster rather than discovering whole rules. Consequently, the system provides a more personalized Web Site for the current visitor, based on the usage behavior of the cluster to which the visitor belongs. Keywords: Web Usage Mining, Self-Organizing Maps, Association Rules, Personalization. -11-
Collections