dc.contributor.advisor | Soydal, İrem | |
dc.contributor.author | Şencan, İpek | |
dc.date.accessioned | 2020-12-29T17:20:30Z | |
dc.date.available | 2020-12-29T17:20:30Z | |
dc.date.submitted | 2014 | |
dc.date.issued | 2018-08-06 | |
dc.identifier.uri | https://acikbilim.yok.gov.tr/handle/20.500.12812/464479 | |
dc.description.abstract | Metin kategorizasyonu ile büyük ve kirli veri yığınlarının içerisindeki bilgiler düzenlenerek bilgiye erişim kolay ve pratik hale gelmektedir. Metin kategorizasyonu ayrıca, bilgiye ihtiyaç duyan kişilerin istedikleri bilgiye erişmelerinde zaman kazandırmak açısından da son derece önemlidir. Haber metinleri gibi hızlı artış potansiyeline sahip olan yapılar metin kategorizasyonuna ihtiyaç duyulan önemli uygulama alanlarından biridir. Bu çalışmada, BilCol-2005 Türkçe haber derleminden sağlanan 5834 haber kullanılarak, haber metinlerinin kategorizasyonunda varlık isimleri (named entities) ve konu başlıkları ilişkisinin incelenmesi amaçlanmıştır. Buna yönelik olarak 5834 haber yedi farklı varlık ismi (kişi, kurum, konum, tarih, zaman, para ve yüzde) ile etiketlenmiştir. Etiketlenen haberler IPTC (International Press Telecommunications Council) temel düzey konu başlıkları taksonomisine göre kategorize edilmiş ve derlem 13 farklı IPTC konu başlığı ile tanımlanmıştır. Bu doğrultuda gerçekleştirilen analizler ile etiketli ve etiketsiz kelimelere ilişkin sıklık ve oran değerleri bazı istatistiksel testlerden de (Mann-Whitney U testi) yararlanılarak belirlenmiştir.Çalışma sonucunda elde edilen bulgulardan, derlemdeki haberlerin etiketlenmesinde en baskın varlık isminin `Kişi`, en pasif varlık isminin `Zaman` olduğu, derlemdeki haberlerin etiketlenme sayılarının IPTC konu başlıklarına göre farklılık gösterdiği, tüm konu başlıkları için `Kişi`, `Kurum` ve `Konum` varlık isimlerinin ön planda olduğu ve konu başlıklarının kavramsal içeriğini varlık isimlerinden çok etiketlenmemiş kelimelerin yansıttığı anlaşılmış ve ilgili hipotezlerimizin tamamı desteklenmiştir. Bu çalışma, Türkçe bir haber derlemi üzerinde uluslararası alanda standart olarak kabul edilen IPTC'nin temel düzey konu başlıkları ile varlık isimlerinin bir arada uygulanarak aralarındaki bağlantıların sorgulandığı Türkçe literatürdeki ilk çalışma olması açısından önemlidir. Bu çalışmada elde edilen sonuçların gazetecilere, haber metinlerinin kategorizasyonu üzerine çalışanlara, haber metinlerine hızlı ve doğru erişim ihtiyacı duyan kullanıcılara yardımcı olacağı düşünülmektedir.Anahtar Sözcükler Metin kategorizasyonu, Haber metinlerinin kategorizasyonu, Varlık isimleri, BilCol-2005, IPTC, IPTC konu başlıkları taksonomisi | |
dc.description.abstract | With text categorization it is possible to access information within a large pile of impure data. It also helps people to save time who wants to have information more easily and practically. One of the most important practical research areas in terms of text categorization is news, as it has a potential of rapid increase. This thesis aims to investigate the connection of subject codes with named entities, in terms of text categorization, by using 5834 news texts which were obtained from BilCol-2005 news corpus. To address this, 5834 news were tagged with seven different named entities (person, organization, location, date, time, money and percentage). Tagged news were classified under 13 different subject codes of IPTC's (International Press Telecommunications Council) main subject taxonomies. The investigation was based on tagged and untagged words and their relations with the IPTC news codes. Key findings were revealed with the frequency and percentage values along with some statistical tests (e.g. Mann Whitney U test, Chi-square test).Findings showed that the most and the least dominant named entitity in the corpus was `Person` and `Time`, respectively. Besides, it was also revealed that the number of tagged words differed according to subject codes where `Person`, `Organization` and `Location` named entities were prominent among all subjects. Moreover, it was seen that the conceptual content of the subject codes were reflected more by untagged words than the ones tagged with named entities. These findings supported our hypothesis.This study is important because it was the first in the related Turkish literature in which the connection between an international standard news taxonomy (IPTC) and named entities was investigated. The findings are believed to be useful for journalists, for the news taxonomists and for those who need to access the news texts fast and accurately.KeywordsText categorization, Categorization of news items, Named entities, BilCol-2005, IPTC, IPTC news subject codes taxonomy | en_US |
dc.language | Turkish | |
dc.language.iso | tr | |
dc.rights | info:eu-repo/semantics/openAccess | |
dc.rights | Attribution 4.0 United States | tr_TR |
dc.rights.uri | https://creativecommons.org/licenses/by/4.0/ | |
dc.subject | Bilgi ve Belge Yönetimi | tr_TR |
dc.subject | Information and Records Management | en_US |
dc.title | Haber metinlerinin kategorizasyonunda varlık isimleri ve konu başlıkları ilişkisi | |
dc.title.alternative | Relationship between the named entities and the subject titles in categorization of news items | |
dc.type | masterThesis | |
dc.date.updated | 2018-08-06 | |
dc.contributor.department | Bilgi ve Belge Yönetimi Anabilim Dalı | |
dc.subject.ytm | Categorization | |
dc.subject.ytm | Named entities | |
dc.subject.ytm | News texts | |
dc.subject.ytm | Subject headings | |
dc.subject.ytm | IPTC | |
dc.identifier.yokid | 10042765 | |
dc.publisher.institute | Sosyal Bilimler Enstitüsü | |
dc.publisher.university | HACETTEPE ÜNİVERSİTESİ | |
dc.identifier.thesisid | 368984 | |
dc.description.pages | 109 | |
dc.publisher.discipline | Diğer | |