E-posta listelerinde metin kümeleme ve sosyal ağ analizi uyumu
dc.contributor.advisor | Göktürk, Mehmet | |
dc.contributor.author | Gönültaş, Hayati | |
dc.date.accessioned | 2021-05-07T12:25:22Z | |
dc.date.available | 2021-05-07T12:25:22Z | |
dc.date.submitted | 2010 | |
dc.date.issued | 2018-08-06 | |
dc.identifier.uri | https://acikbilim.yok.gov.tr/handle/20.500.12812/620321 | |
dc.description.abstract | E-posta listeleri birbirleriyle herkese açık içerikler aracılığıyla iletişim kuran kişiler tarafından ve açık kaynak kod topluluğunca popüler olarak kullanılmaktadır. Bu listeler veri madenciliği için büyük miktarda veri sunmaktadır. Sadece e-postaların içeriklerinin değil, bunun yanında e-posta gönderen bireylerin birbirleriyle bağlantılarının (gönderen alan ilişkisi içerisinde) yapısı da ilgili e-posta alt gruplarının daha önceden gözlemlenmemiş ancak önemli olan bilgilerini ortaya çıkarabilir.Metin kümeleme yapılırken e-posta listelerindeki metinler doküman verisi gibi ele alınarak alt kümeler tespit edilmiştir. Vektör uzay modelinde kelimelerin normalize edilmiş frekansları kullanılarak k-means algoritması ile kümeleme yapılmıştır. Sosyal ağ analizinde ise CONCUR algoritması ile alt kümeler bulunmuştur. Metin madenciliği ile tespit edilen alt gruplar ile sosyal ağ analizinin tespit ettiği alt gruplar arasında aynı sosyal yapıyı dokudukları için benzer küme varlıklarına sahip olmaları beklenmektedir. Bu sosyal yapıda, e-posta göndericilerin genellikle benzer konularda yazdıklarını ve benzer konuların genellikle benzer kişiler tarafından cevaplandığını öne sürmekteyiz. Metin madenciliği ve sosyal ağ analizi metotları teker teker uygulandığında (ör. sosyal ağ analizi için CONCUR, metin madenciliği için k-means) oluşan kümelerin uyumu, kullanılan algoritmalara ve oluşması beklenen küme sayısına göre değiştiği gözlemlenmiştir. Çalışmamızda sosyal ağ analizinin ve metin madenciliğinin tespit ettiği alt gruplar yaklaşık %60 birbiriyle aynı sonucu verdi. Ek olarak uygun olmayan algoritma ve/veya küme sayısı seçildiğinde ise uyumun etkileyici şekilde düştüğü gözlemlenmiştir. | |
dc.description.abstract | E-mail listings are popularly used in open source community and by individuals that contact each other with publicly reachable contexts. This listings serve vast amounts of data that could be used for data mining. Not only textual context in e-mails but also structure of links between e-mail senders (individuals) could reveal previously unobserved and also important information about related e-mail subgroups.In order to find clusters in e-mail lists, e-mail contents threated as document data. Normalized values of frequences of terms used in vector space model, and k-means algorithm used for clustering the e-mails. CONCUR algorithm is used to find clusters while analysing social network of e-mail lists. It is expected to appear a relation between entities of clusters found by text mining and social network analysis as they weave the similar social subgroupings. At this social structure, we propose that senders mostly write about similar topics, and similar topics are mostly responded by similar senders. When text mining and social network analysis methots are taken one by one (such as CONCUR for SNA and k-means for text mining), it is observed that coherence of resulting clusters depend on used algorithms and number of clusters expected. In our work, coherence of social network analysis and text mining subgroups are matched about %60. In addition, when inappropriate algorithms and/or number of clusters are chosen, results will decrease dramatically. | en_US |
dc.language | Turkish | |
dc.language.iso | tr | |
dc.rights | info:eu-repo/semantics/openAccess | |
dc.rights | Attribution 4.0 United States | tr_TR |
dc.rights.uri | https://creativecommons.org/licenses/by/4.0/ | |
dc.subject | Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol | tr_TR |
dc.subject | Computer Engineering and Computer Science and Control | en_US |
dc.title | E-posta listelerinde metin kümeleme ve sosyal ağ analizi uyumu | |
dc.title.alternative | Coherence between text clustering and social network analysis in e-mail lists | |
dc.type | masterThesis | |
dc.date.updated | 2018-08-06 | |
dc.contributor.department | Bilgisayar Mühendisliği Ana Bilim Dalı | |
dc.subject.ytm | Text categorization | |
dc.subject.ytm | Data mining | |
dc.identifier.yokid | 376498 | |
dc.publisher.institute | Mühendislik ve Fen Bilimleri Enstitüsü | |
dc.publisher.university | GEBZE YÜKSEK TEKNOLOJİ ENSTİTÜSÜ | |
dc.identifier.thesisid | 271575 | |
dc.description.pages | 65 | |
dc.publisher.discipline | Diğer |