Show simple item record

dc.contributor.advisorSoydal, İrem
dc.contributor.authorŞencan, İpek
dc.date.accessioned2020-12-29T17:20:30Z
dc.date.available2020-12-29T17:20:30Z
dc.date.submitted2014
dc.date.issued2018-08-06
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/464479
dc.description.abstractMetin kategorizasyonu ile büyük ve kirli veri yığınlarının içerisindeki bilgiler düzenlenerek bilgiye erişim kolay ve pratik hale gelmektedir. Metin kategorizasyonu ayrıca, bilgiye ihtiyaç duyan kişilerin istedikleri bilgiye erişmelerinde zaman kazandırmak açısından da son derece önemlidir. Haber metinleri gibi hızlı artış potansiyeline sahip olan yapılar metin kategorizasyonuna ihtiyaç duyulan önemli uygulama alanlarından biridir. Bu çalışmada, BilCol-2005 Türkçe haber derleminden sağlanan 5834 haber kullanılarak, haber metinlerinin kategorizasyonunda varlık isimleri (named entities) ve konu başlıkları ilişkisinin incelenmesi amaçlanmıştır. Buna yönelik olarak 5834 haber yedi farklı varlık ismi (kişi, kurum, konum, tarih, zaman, para ve yüzde) ile etiketlenmiştir. Etiketlenen haberler IPTC (International Press Telecommunications Council) temel düzey konu başlıkları taksonomisine göre kategorize edilmiş ve derlem 13 farklı IPTC konu başlığı ile tanımlanmıştır. Bu doğrultuda gerçekleştirilen analizler ile etiketli ve etiketsiz kelimelere ilişkin sıklık ve oran değerleri bazı istatistiksel testlerden de (Mann-Whitney U testi) yararlanılarak belirlenmiştir.Çalışma sonucunda elde edilen bulgulardan, derlemdeki haberlerin etiketlenmesinde en baskın varlık isminin `Kişi`, en pasif varlık isminin `Zaman` olduğu, derlemdeki haberlerin etiketlenme sayılarının IPTC konu başlıklarına göre farklılık gösterdiği, tüm konu başlıkları için `Kişi`, `Kurum` ve `Konum` varlık isimlerinin ön planda olduğu ve konu başlıklarının kavramsal içeriğini varlık isimlerinden çok etiketlenmemiş kelimelerin yansıttığı anlaşılmış ve ilgili hipotezlerimizin tamamı desteklenmiştir. Bu çalışma, Türkçe bir haber derlemi üzerinde uluslararası alanda standart olarak kabul edilen IPTC'nin temel düzey konu başlıkları ile varlık isimlerinin bir arada uygulanarak aralarındaki bağlantıların sorgulandığı Türkçe literatürdeki ilk çalışma olması açısından önemlidir. Bu çalışmada elde edilen sonuçların gazetecilere, haber metinlerinin kategorizasyonu üzerine çalışanlara, haber metinlerine hızlı ve doğru erişim ihtiyacı duyan kullanıcılara yardımcı olacağı düşünülmektedir.Anahtar Sözcükler Metin kategorizasyonu, Haber metinlerinin kategorizasyonu, Varlık isimleri, BilCol-2005, IPTC, IPTC konu başlıkları taksonomisi
dc.description.abstractWith text categorization it is possible to access information within a large pile of impure data. It also helps people to save time who wants to have information more easily and practically. One of the most important practical research areas in terms of text categorization is news, as it has a potential of rapid increase. This thesis aims to investigate the connection of subject codes with named entities, in terms of text categorization, by using 5834 news texts which were obtained from BilCol-2005 news corpus. To address this, 5834 news were tagged with seven different named entities (person, organization, location, date, time, money and percentage). Tagged news were classified under 13 different subject codes of IPTC's (International Press Telecommunications Council) main subject taxonomies. The investigation was based on tagged and untagged words and their relations with the IPTC news codes. Key findings were revealed with the frequency and percentage values along with some statistical tests (e.g. Mann Whitney U test, Chi-square test).Findings showed that the most and the least dominant named entitity in the corpus was `Person` and `Time`, respectively. Besides, it was also revealed that the number of tagged words differed according to subject codes where `Person`, `Organization` and `Location` named entities were prominent among all subjects. Moreover, it was seen that the conceptual content of the subject codes were reflected more by untagged words than the ones tagged with named entities. These findings supported our hypothesis.This study is important because it was the first in the related Turkish literature in which the connection between an international standard news taxonomy (IPTC) and named entities was investigated. The findings are believed to be useful for journalists, for the news taxonomists and for those who need to access the news texts fast and accurately.KeywordsText categorization, Categorization of news items, Named entities, BilCol-2005, IPTC, IPTC news subject codes taxonomyen_US
dc.languageTurkish
dc.language.isotr
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBilgi ve Belge Yönetimitr_TR
dc.subjectInformation and Records Managementen_US
dc.titleHaber metinlerinin kategorizasyonunda varlık isimleri ve konu başlıkları ilişkisi
dc.title.alternativeRelationship between the named entities and the subject titles in categorization of news items
dc.typemasterThesis
dc.date.updated2018-08-06
dc.contributor.departmentBilgi ve Belge Yönetimi Anabilim Dalı
dc.subject.ytmCategorization
dc.subject.ytmNamed entities
dc.subject.ytmNews texts
dc.subject.ytmSubject headings
dc.subject.ytmIPTC
dc.identifier.yokid10042765
dc.publisher.instituteSosyal Bilimler Enstitüsü
dc.publisher.universityHACETTEPE ÜNİVERSİTESİ
dc.identifier.thesisid368984
dc.description.pages109
dc.publisher.disciplineDiğer


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess