Veri madenciliği yöntemleri ile spam filtreleme
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Ticaretin internet kanalları üzerinden gelişmesi, hızlı ve ekonomik haberleşme olması nedeni ile elektronik posta haberleşmesinin hayatımızda giderek önemini artırmıştır. İşlem maliyetinin çok düşük olması, çok büyük miktardaki verilerin çok uzak mesafelere saniyeler içinde aktarılmasına olanak sağlaması yaygınlaşmasını sağlamıştır. İnternet üzerinde aynı mesajın yüksek sayıdaki kopyasının, bu tip bir mesajı alma talebinde bulunmamış kişilere, zorlayıcı nitelikte gönderilmesi spam olarak adlandırılır. E-posta yolu ile gönderilen spam türlerinden ticari içerikli olan UCE (Unsolicited Commercial E-mail) ve UBE (Unsolicited Bulk E-mail) adından da anlaşılacağı gibi istenmediği halde size gönderilen bir ürünü ya da hizmeti tanıtıcı elektronik posta iletileridir. İstenmeyen elektronik posta problemini tamamen çözebilmiş tek bir teknik ya da tekniklerin birleşmesinden oluşan bir çözüm mevcut değildir. İstenmeyen iletilerin belirlenmesine yönelik birçok veri madenciliği çalışması da yapılmıştır. Veri madenciliği açıkça verinin bir parçası olmayan veride ilginç örüntüleri bulma sürecine denir. Spam filtrelemede iki tür yaklaşım söz konusudur. Bunlardan birincisi bilgi mühendisliği (knowledge engineering) yöntemi ile kurallar oluşturarak filtreleme yapmaktır. Diğeri ise makine öğrenimi ya da makine öğrenimi tekniklerini büyük veri setleri üzerinde uygulayarak makine öğreniminden ayrılan veri madenciliği olarak bilinen yöntemler ile önceden hazırlanmış veri setleri ile sınıflandırmanın yapılmasıdır.Bu tez kapsamında e-posta veri setleri üzerinden oluşturulmuş olan nitelik uzayı üzerinde veri madenciliği yöntemleri uygulanarak spam filtreleme yapılmıştır. The importance of e-mail communication in our lives has continually increased since the commerce is developed over internet channels, and there is fast and economic communication. Very low operation cost provides transferring a large number of data within a few seconds over long distances.Sending a large number of copies of the same message stringently to the people who are not willing to receive over the internet is called spam.UCE (Unsolicited Commercial e-mail) and UBE (Unsolicited Bulk e-mail) which are kinds of spam messages sent via e-mail, as it can be inferred from the names, are introductory e-mails which is actually undesirable.There is not an available unique technique or an available solution combined by the techniques in which the problem of undesirable e-mail is solved. There have been lots of data mining approaches aimed at determining unsolicited e-mails.Data mining is the process of finding the interesting patterns which are obviously not part of the data. In spam filtering, there are two kinds of approaches. One is filtering by constructing the rules by knowledge engineering. Second is classification within datasets prearranged via the techniques known as data mining separated from machine learning by applying machine learning techniques over very large datasets.Within the scope of this thesis, spam filtering has been implemented by applying data mining techniques over attribute space model formed on the basis of e-mail datasets.
Collections