Authorship recognition in online social platforms
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Biyometri bir kişinin tutum ve özelliklerine bağlı olarak kimliğini tespit etme işlemidir ve fizyolojik ve davranış temelli olmak üzere ikiye ayrılmaktadır.Bu tezde, davranış temelli bir biyometrinin örneği olarak, kişilerin kimliğini sosyal platformlardaki yazım alışkanlıklarından tespit etmeye çalışmaktayız.Çevrimiçi sosyal platformlar, istenmeyen içeriği filtrelemek için denetleme mekanizmalarını uygular ve sözlü saldırı, istismar, cinsel taciz gibi durumlara karşı harekete geçmeye çalışır. Burada biyometri olarak adlandırdığımız şey, bir sosyal platformda engellenen kullanıcıların farklı kimlikle geri dönmesi durumunda kimliğinin tespit edilmesi ya da sahte hesapların ardındaki kişilerin ortaya çıkarılmasıdır. Bu amaçla bir kimlik tanıma sistemi ortaya koyarak literatürde yaygınlıkla işlenenen diğer biyometri yöntemleri ile karşılaştırmaktayız. Ortaya koyduğumuz biyometrik kimlik tanıma yaklaşımı, COPA olarak adlandırılan ve çevrimiçi bir oyun platformundan toplanmış olan ikiden fazla kişinin çevrimiçi grup sohbetlerini içeren bir Türkçe veritabanında ölçümlemektedir. Önerdiğimiz kimlik tanıma yönteminin farklı sosyal mecralarda da dayanıklılığını ölçümlemek için Ekşisözlük adlı Türkiye'de yaygın bilinirliği olan sosyal bir platformdan da veri toplamış bulunuyoruz. Ayrıca, önerilen yöntemin farklı dillerdeki kimlik tanıma başarımını ölçümlemek amacıyla İngilizce ve Portekizce haber kayıtlarını da kullanmaktayız. Bu içerikler üzerinde, hem genel profil bilsini hem de yazı örneklerini ayrı ayrı ele alarak modellediğimiz kimlik tanıma sisteminde bir kişiyi güvenilir şekilde tespit etmek için en az ne kadar yazı içeriğine ihtiyacımız olduğunu da araştırmaktayız. Biometrics is the identification of a person by personal properties and traits, and can be divided into physiological based and behavioural based methods. In this thesis we investigate the identification of users of a social platform from their verbal behaviour, which is an example of behaviour based biometrics. Online social platforms implement moderation mechanisms to filter out unwanted content and to take action against possible cases of verbal aggression and abuse, sexual harassment, and such. Since they can have large numbers of users, it is desirable to automatize parts of this process. What we call chat biometrics aims to re-identify a user from chat messages. The typical application scenario is the re-identification of banned users, returning under different identities, and aggressors operating through multiple fake accounts. We propose a processing pipeline, and contrast the problem with the authorship identification problem, which is well-studied in the literature. We evaluate our proposed approach on a large corpus of multiparty chat records in Turkish (namely, the COPA database), which was collected from a multiplayer game environment. We also introduce a new corpus in this study, collected from a well-known Turkish social platform called Ekşisözlük, in order to test the robustness of the system across domain changes, as well as on Portuguese and English news datasets, to show performance across languages. We evaluate both profile-based and instance-based approaches, and provide detailed analyses with regards to the required amount of text to identify a person reliably.
Collections