Using spatial statistics techniques to determine the user profiles of social media
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Sosyal medya platformları günümüzde en hızlı, en popüler ve en etkili iletişim aracı olmuş ve iletişim dünyasının dinamiklerini farklı bir boyuta taşımıştır. Dünya yüzeyinde neler olduğu hakkında iletişim halinde olduğumuz ve bilgiyi paylaştığımız bu platformda, sosyal medya kullanıcı sayıları ve istekleri giderek artmaktadır. Milyonlarca kullanıcı günlük konularla ilgili paylaşımlarını bu kanallar üzerinde gerçekleştirmektedir. Bu sitelerin her biri farklı amaçlar doğrultusunda oluşturulduğu için, bu platformlar çeşitlere ayrılmaktadır. Örneğin, Facebook insanların başka insanlarla iletişim kurmasını ve bilgi paylaşımını amaçlayan bir sitedir. Twitter ise bir sms karakter sınırı mesajlar için kullanılan mikroblog sitesidir. Bütün sosyal medya kullanıcıları tarafından en çok ihtiyaç duyulan bilgi ise konum bilgisidir. Konum bilgisi sadece sosyal medya kullanıcılarının aktivitelerinin yerini belirtmek için değil, aynı zamanda sosyal medya site yöneticilerinin veya bu konuyla ilgili araştırma yapmak isteyen sosyolog, istatistikçi, haritacı, CBS uzmanları için de bilinmesi gereken en önemli veridir. Günümüzde yazılımların geliştirilmesiyle birlikte, kullanıcılar konum bilgilerini paylaştığında, bu bilgiyi harita üzerindeki dağılımını göstermek veya kullanıcı profilini belirlemek mümkün olmaktadır.Bu çalışmanın amacı, ciddi ilişki niyetindeki bireyleri internet üzerinde tanıştırma amacıyla kurulan sosyal medya sitesi örneğiyle CBS ortamında konumsal istatistik tekniklerini kullanarak ve siteden temin edilen canlı veriler ile birlikte kullanıcı profillerinin belirlenmesidir. Bu çalışma kapsamında, Türkiye'de popüler olan tanışma sitesindeki sosyal medya kullanıcılarının mekansal analizini sunmak için kullanıcıların sosyo-demografik ve sosyo-ekonomik verileri alındı. Bunlar yaş, cinsiyet, evlilik durumu, iş, eğitim seviyesi, etnik köken, din ve gelir durumu bilgisidir. Bu verilerin her birinde il ve ilçesi bilgisi mevcuttur. Bu çalışma kapsamında, CBS'nin temel fonksiyonlarından veri toplama, depolama, sorgulama, analiz ve görüntüleme kısımları uygulanmıştır. Sosyal medya kullanıcı verileri özel bir evlilik sitesinden temin edilmiştir. Siteyi sıklıkla ziyaret eden yaklaşık on bin kullanıcının verileri, mekansal sorgulamalar kullanılarak MySQL veritabanından çekilmiştir. Verilerin alındığı yıl ise 2013'tür. Bu veriler ArcGIS'e aktarıldı ve analize hazır hale getirilmek için bir kaç işlemden geçmiştir. Bu işlemlerden bazıları, çalışma alanı İstanbul olduğu için İstanbul ilçe düzeyinde verilerin düzenlenmesi ve aykırı verilerin çeşitli istatistik yöntemlerle ayıklanmasıyla gerçekleşmiştir. Verilerin toplanıp, ayıklanıp ve bütünleşme aşamaları tamamlandığında veriler analiz için kullanılır hale getirildi. Veriler arasındaki ilişkiyi incelemek için en uygun istatiksel yöntem belirlendi. Metodolojik olarak, kullanıcı profilleri ilçe bazında yaş, cinsiyet, gelir durumu, eğitim düzeylerine bakılarak sosyo-demografik ilişkileri ile irdelendi. Hot-spot ve regresyon analizleri yapıldı ve harita üzerinde sunuldu.Yoğunluk analizlerini de hesaba kattığımızda çalışma alanımızı İstanbul olarak belirlememiz, hem verilerin düzenlenmesinde, hem de çalışma alanının küçülmesi sebebiyle daha iyi sonuçlar alanacağı öngörüldü. Çünkü, Türkiye genelinde 81 ilimiz, İstanbul genelinde 39 ilçemiz vardır. Ayrıca, İstanbul'daki kullanıcı verilerini daha iyi anlamak için, TÜİK'in Adrese Dayalı Nüfus Kayıt Sistemi veritabanından 2013 yılına ait İstanbul'a ait nüfus bilgileri alındı ve internet üzerindeki sosyal medya kullanıcı verileriyle karşılaştırıldı. Her iki kurumdan alınan verilerden yoğunluk analiz haritaları oluşturmak için ArcGIS yazılım araçları kullanıldı. Sonuç olarak TÜİK'ten alınan verilere gore İstanbul'daki bekar sayısı en yoğun olan ilçeler; Bağcılar, Bahçelievler, Küçükçekmece, Üsküdar, Ümraniye, Kadıköy ve Pendik olarak belirlenmiştir. Sosyal medya kullanıcılarının en yoğun olduğu ilçeler ise; Bahçelievler, Kadıköy, Beyoğlu ve Beşiktaş olarak belirlenmiştir. TÜİK verilerine göre bekar erkeklerin en yoğun olduğu ilçeler ise Bağcılar, Bahçelievler, Güngören, Gaziosmanpaşa, Kağıthane, Beyoğlu ve Fatih'dir. Bekar kadınların en yoğun olduğu ilçeler ise Bahçelievler, Güngören, Gaziosmanpaşa. Ortalama yaş olarak alınan 25-34 yaş arasındaki nüfusun en yoğun olduğu ilçe ise Üsküdar olarak tespit edildi. Sosyal medya kullanıcılarından alınan bilgiye göre ise ortalama yaşın en yoğun olduğu ilçe Bahçelievler olarak belirlenmiştir. Tüm sonuçlar, kullanıcı profilinin analizine yönelik tematik haritalar üretilerek raporlanmıştır. İstanbul ilçelerinin nüfus bilgileri ve site kullanıcılarının dağılımları dikkate alınarak, site kullanıcılarının nüfus ilişkili yoğunluğu irdelenmiştir. Site kullanıcılarının bekar olduğu dikkate alındığında, İstanbul'daki bekar sayısı en yoğun olan ilçeler belirlenmiş, kadın ve erkek kullanıcı oranlarına göre hedef kitle incelenmiştir. Site kullanıcılarının yoğunluğu orta yaş grubu olarak belirlenerek, nüfus dağılımındaki yaş gruplarına göre öncelikli ilçeler irdelenmiştir. Ayrıca eğitim durumu ve gelir durumuna göre kulanıcı kitlelerinin mevcut durumu belirlenmiştir. Sosyal medya kullanıcılarının dağılımı ve ilişkilerini test etmek için özelliklerine göre histogramları üretilmiştir. Kullanıcının konumsal dağılımına göre ortalama ve orta konumları belirlenmiştir. Standart sapmasına göre verilerin dağılım doğrultuları belirlenmiştir. Semivariogram, Voronoi haritası ve QQ plot eğrileri ile analiz edilerek, kullanıcıların konumsal dağılımında ve belirli özelliklerine göre konumsal ilişkileri analiz edilmiştir. Sonuçlar tematik haritalarda gösterilerek, gafik ve tablolarla raporlanmıştır. Kümeleme analizleri kapsamında hot-spot analizi kullanılarak, hedef çalışma alanı belirlenmiştir. Istanbul çalışma alanında yapılan hot-spot analizine göre de ilçe bazlı yüksek yoğunluktaki ve düşük yoğunluktaki yerler belirlenmiştir. Genel anlamda hedef kitlenin nerede kümelendiği belirlenmiştir.Yapılan mekansal analizler araştırmacıya genel olarak 'Nerede?' sorusuna cevap verir. Bu tez kapsamında cevaplanması gereken soru ise 'Neden?' olacaktır. Bu soruya cevap verecek analiz metodu ise regresyon analizidir. Bu çalışmada regresyon analizinin en çok kullanılan iki metodu tartışıldı. Bunlardan birisi En Küçük Kareler metotu diğeri Coğrafi Ağırlıklı Regresyon metodudur. Bu iki regresyon yöntemi ArcGIS yazılımının 'Mekansal İlişkilerin Modellenmesi' aracında bulunur. İki metottan ilki olan en küçük kareler yönteminde kontrol etmemiz gereken altı istatistiksel kural vardır. Bu kuralların sırası önemli değildir. Altı kuraldan biri bağımsız değişkenlerinin modeline yardım edip etmediğini bulma yöntemidir. Bu yöntemde verilerin birbiriyle ilişkilerini anlamak için her bağımsız değişkene bir katsayı verilir. Bu katsayıların sıfır ve sıfıra yakın olanları bağımsız değişken olmaktan çıkarılır. Çünkü ilişkiyi belirlemede bir katkıları yoktur ve oluşturulacak modele yardım etmez. Veriler arasındaki ilişki sabit değilse Robust olasılığı dikkate alınır. İkinci metot olan Coğrafi Ağırlıklı Regresyon metotu daha yerel model üretmek için kullanılır ve her özellik için ayrı bir denklem oluşturur. OLS ve GWR arasındaki en büyük farklardan birisi de, OLS regresyon metodunun daha global, GWR regresyon metodunun daha yerel olmasıdır. Bunun dışında OLS bütün özellikler için tek bir denklem oluştururken, GWR her özellik için ayrı ayrı denklem oluşturmaktadır. Bu metotların incelemesinden sonra sosyal medya kullanıcıların İstanbul'daki verilerinin arasındaki ilişkiyi incelemek, araştırmak ve modellemek için iki yöntem de sosyal medya kullanıcı verilerine uygulandı. Sonuç olarak, her iki metot sonucunda sosyal kullanıcı profillerini belirlerken en etkili değişkenlerin gelir ve eğitim olduğu belirlendi. Bu iki yöntem için uygulanan model doğrulukları birbirine çok yakın olduğundan, iki yöntem de kullanıcı profili belirlenmesinde kullanılabilir.Bu tez kapsamında, CBS'nin konumsal istatiksel tekniklerinin sosyal medya alanı gibi yeni bir disiplinde kullanılabilirliği gösterilmiştir. Bu tez, ileride sosyal medya alanında yapılacak tezlere ışık tutacak ve yeni bir bakış açısı kazandıracaktır. Sonuçta, sosyal medyada konumsal istatistik tekniklerini bütünleştirici bir metodoloji belirlenmiştir. Social media became hot topic after millennium. Beside communication techniques such e-mail and mobile phone, social media platforms have started to be used in various different social and working discipline, to illustrate this, Facebook for social communication, Twitter for short messages, and Flickr for photo sharing, and so on. Most social media platform has possibility to locate any social media activity spatially. Defining any activity with location or position in social media means that distribution of social media users can be analyzed spatially to determine user profiles. The purpose of this study is to determine user profiles of social media platforms with the examples of online dating site. The data of users are integrated with in GIS environment using spatial statistics techniques. In methodology part, spatial statistical methods were used to understand the data relationships. Firstly, the distribution of patterns is analyzed spatially to determine data outliers. Then, user profiles are analyzed by age, gender, income, educational level and occupation to examine socio-demographic relationships. Lastly, target areas are determined by using cluster analysis while the relations of the data is analyzed by using regression techniques. The applications consist of four parts. As working principles of GIS, related spatial data was captured, queried, analyzed and visualized in ArcGIS program. Data about ten thousands of users who often use this online dating site was retrieved from the MySQL database by using spatial data query. The distribution and outliers of the data were determining by using Exploratory Spatial Data Analysis (ESDA) tools which are histogram, semivariogram, voronoi map, and QQ plots. Furthermore, the population of Istanbul was examined with spatial statistical analysis based on the data of Adress Based Population Registration System and social media site. The results were interpreted and showed in thematic maps, and presented in a diverse range of visualization options such as reports, statistical graphics and tables. The third part examine the hot-spot analysis to find the clustered area of social media users by using mapping cluster toolset. The final part demonstrate the OLS and GWR regression methods to identify regression model by using spatial relationships tools. In this way, this study contributes to research about social media as a new developing discipline. This gives a perspective of user profile in view of education and occupation by using spatial statistical approaches. All in all, this thesis gives an idea about social media and usable statistical techniques.
Collections