Improved probabilistic matrix factorization model for sparse datasets
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Dünya çapındaki ağ üzerindeki bilgi miktarı, ağ ve bilgi teknolojilerindeki ilerlemeler nedeniyle önemli ölçüde artmıştır. Bu durum kullanıcılar için ilgili ve yararlı bilgiler elde etmeyi zor hale getirmiştir ve bu nedenle bilgi filtreleme ihtiyacı oluşmuştur. Öneri Sistemleri (ÖS) bu probleme bir çözüm olarak ortaya çıkmıştır. Yaygın olarak kullanılan ÖS yaklaşımlarından biri olan Ortak Filtreleme (OF), kullanıcıların bir ürün üzerindeki tercihini tahmin etmeyi amaçlamaktadır. OF ardındaki ana fikir, geçmişte aynı fikirde olan kullanıcıların, gelecekte de aynı fikirde olacaklarıdır. Bir OF tekniği olarak Olasılıksal Matris Çarpanlarına Ayrışımı (OMÇA) genellikle yüksek doğruluk ve ölçeklenebilirlik nedeniyle literatürde tercih edilmektedir. Bu tezde, OMÇA metodunda yer alan kullanıcı ve ürün gizli vektörlerin başlatma tekniklerinin önemi gerçek ve sentetik veri kümeleri ile gösterilerek yeni beş başlatma tekniği önerilmektedir. Önerilen yaklaşımlar literatürdeki diğer başlatma teknikleri ile karşılaştırıldığında çok seyrek veri setleri için daha iyi sonuçlar üretmektedir. The amount of information on the World Wide Web has increased significantly owing to advancing web and information technologies. This has made it difficult for users to obtain relevant and useful information thus there is a need for information filtering. Recommender Systems (RS) have emerged as a technique to overcome the problem. Collaborative Filtering (CF) that is one of the widely used RS approaches aims to predict users' preference concerning an item. The main idea behind CF is the users who agreed in the past will agree in the future. The Probabilistic Matrix Factorization (PMF) is the preferred CF technique in the literature due to its high accuracy and scalability. This thesis demonstrates the importance of the initialization techniques for the user and the item latent vectors in the PMF algorithm with real and synthetic datasets and proposes five different initialization techniques. The suggested approaches produce better results in comparison with the state-of-the-art techniques in particularly very sparse datasets.
Collections