Fiyat karşılaştırmalı ürün arama motoru geliştirme
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Son yıllarda, dünyada ve ülkemizde hızla yaygınlaşan internet kullanımı, beraberinde pek çok e-ticaret iş olanaklarını ve çevrimiçi web marketleri geliştirmiştir. Bu iş olanaklarından belki de en büyüğü internet siteleri üzerinden etkileşimli ürün satışıdır. İnternet siteleri üzerinden etkileşimli ürün satışı yapan firma sayısı her geçen gün artmaktadır. Firmalar arası rekabetten dolayı, aynı ürünün satış fiyatları, firmalar arasında büyük farklılıklar göstermektedir. İnternet üzerinden ürün satın alacak kişilerin, bütün web marketleri ve diğer e-ticaret sitelerini tarayarak, alacağı ürünün en ucuzunu bulması hem zor hem de çok zaman alıcı bir iştir. Kişilerin bütün ürün satan siteleri taraması yerine, ürün satışı yapan siteler program aracılığı ile taranabilir ve aynı ürünler gruplanarak, müşterilere fiyatlarıyla beraber listelenmesi sağlanabilir. Fakat farklı web kaynaklarından toplanan aynı ürünlerin gruplanması zor bir problemdir. Ürünlere ait bilgiler doğası gereği hatalı, eksik, fazla ya da çelişkili veriler içerebilmektedir. Örneğin, müşterileri etkilemek için ürünün tanımlanmasında fazladan kelimeler kullanılabilmekte, ya da insan hatasıyla kelimeler yanlış ya da eksik yazılabilmektedir. Gürültü olarak isimlendirdiğimiz bu durum aynı ürünlerin kümelenmesinde kesinlikle çözülmesi gereken sorunlardan birisidir. Literatürde web tarama yoluyla toplanan ürün bilgilerinin işlenmesine yönelik çalışmalar çok azdır. Aynı ürünlerin gözetimsiz olarak kümelenmesi ve bu kümeleme işlemenin gerektirdiği ön işlemlerden olan özellik vektörlerinin çıkarılması ve gürültülere karşı normalleştirme henüz çalışılmamış konular arasındadır. Literatürde ürünlerin otomatik olarak kümelenmesine yönelik çalışmalar mevcut olmakla beraber, bu çalışmalar geniş ölçekli kataloglama olarak karşımıza çıkmakta ve bir veya daha fazla açıdan benzer olan ürünlerin kümelenmesini amaçlamaktadır. Bu tez çalışmasında, e-ticaret ve çevrimiçi web market siteleri geliştirilen tarama ajanı ile taranarak farklı kaynaklardan birçok ürün bilgileri toplanmıştır. Bu ürün bilgileri geliştirilen veri tabanı sisteminde saklanmış ve daha sonra özel olarak geliştirilen normalleştirme ve özellik çıkarma yöntemiyle, gürültülerin elenmesi ve özellik vektörlerinin çıkarılması sağlanmıştır. Özellikleri çıkarılan bu ürünler geliştirilen kümeleme algoritması ve standart kümeleme algoritmaları üzerinde test edilerek performans analizleri gerçekleştirilmiştir. Ayrıca, bu tez kapsamında aynı ürünlerin gruplanmasında hata oranını hesaplayan yeni performans ölçütleri de önerilmiştir. Son olarak gruplanan ticari ürünler, geliştirilen web ara yüzü ile kullanıcıların ihtiyacını karşılayacak hale getirilmiş ve interaktif kullanıma açılmıştır. Recently, the rapidly growing usage of internet both in the world and in our country has brought many e-commerce and online web markets opportunities together. Probably the biggest job opportunity among these opportunities is online product selling on websites. The number of companies which sells online products is increasing more and more. Due to the competition between companies, the same product prices could be a lot different between companies. For the persons who are going to buy an online product, scanning all of the web markets and other e-commerce sites in order to find the cheapest product they are looking for is very hard and time consuming process. Instead of searching individually, all of the online product selling web sites can be crawled by software and same products can be grouped to display to the users with their prices. But grouping same products which are collected from different web sources is a difficult problem. The products information may have faulty, missing, redundant or inconsistent data by their nature. For example, in order to impress customers there may be extra words when defining product features or missing or incorrectly written words by human errors. This situation that we call as noise is certainly a problem that has to be solved when clustering same products. There are few works about processing products information obtained via web crawling in literature. Unsupervised clustering of the same products, and its priori steps, feature vectors extraction and normalization against noises are topics that are not studied till now. There are works about automatic products clustering in literature but these works are wide scaled categorization and aim to cluster products having one or more similar aspects. In this thesis, e-commerce and online web markets are crawled via our crawling agent and many products information are collected from many different sources. These products? information is saved in a designed database and then the noises are eliminated and feature vectors are generated using the proposed normalization and feature vectors extracting methods. The products having extracted features are tested via newly developed clustering algorithm and standard clustering algorithms, and performance analysis is presented. In addition, in this thesis new error metrics are proposed that calculates the error rate in clustering of the same products. Finally, clustered commercial products are opened to public use via the developed web interface that will satisfy users? demands.
Collections