Show simple item record

dc.contributor.advisorDiri, Banu
dc.contributor.authorGirgin, Canan
dc.date.accessioned2020-12-29T09:43:18Z
dc.date.available2020-12-29T09:43:18Z
dc.date.submitted2014
dc.date.issued2018-08-06
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/385799
dc.description.abstractVarlıklar arası ilişkiler semantik arama teknolojilerindeki en önemli yapı taşlarını oluşturmaktadır. Semantik arama teknolojisini kullanan ürünler, altyapılarında varlıklar arasındaki ilişkilerin tutulduğu veri depolarını barındırmaktadırlar. Varlıklar arasındaki ilişkilerin çıkarımında çeşitli `İlişki Çıkarımı` (Relation Extraction) uygulamaları yapılmaktadır. Bu çalışmada, Türkçe Wikipedia sayfalarından varlıklar arasındaki ilişkilerin çıkarımı amaçlanmıştır.Gerçekleştirilmiş olan çalışma genel hatları ile 4 modülden oluşmaktadır. 1- Pars (Wikipedia Parser)2- CAT (CRF Automatic Trainer)3- Köstebek (Relation Extractor)4- Terazi (Evaluator)Türkçe Wikipedia sayfalarının tamamının elde edilebilmesi için Wikipedia dumplarından yararlanılmıştır1. Wikipedia dumplarının parse edilmesi ve çalışma esnasında kullanılacak verilerin veri tabanına aktarılması için `Pars` uygulaması gerçekleştirilmiştir. Makalelerde bulunan varlıklar arası ilişkilerin çıkarımı esnasında Şartlı Rastgele Alanlar (CRF) kullanılmıştır. Şartlı Rastgele Alanlar altyapısının kullanılabilmesi için etiketlenmiş bir eğitim setine ihtiyaç vardır. Wikipedia sayfalarında metinlerde anlatılan konular ile ilgili özet bilgilerin yapısal olarak kişiler tarafından doldurulduğu bilgi kutusu bölümleri bulunmaktadır. `Pars` uygulaması ile bu veriler ayrıştırılmıştır. Otomatik olarak eğitim setinin oluşturulabilmesi için geliştirilmiş olan `CAT` uygulaması ile bilgi kutularından çıkarılan veriler kullanılarak Şartlı Rastgele Alanlar altyapısı için gerekli olan eğitim seti üretilmiştir. Wikipedia metinlerinden Şartlı Rastgele Alanlar altyapısı ile ilişkilerin çıkarımı için `Köstebek` uygulaması gerçeklenmiştir. Eğitim setine dâhil edilmemiş Wikipedia verileri üzerinden sistem çalıştırılarak, sistemin çıktılarının doğruluğunu otomatik olarak ölçümleyebilmek için `Terazi` uygulaması gerçeklenmiştir. Bu uygulamada çıktılar ile metinlere ait bilgi kutusunda belirtilen değerler karşılaştırılarak ölçümleme yapılmıştır.
dc.description.abstractRelations between entities constitute the most important fundamental parts  of semantic search technologies. The products that use semantic search technologies include datastores which keep relations between entities in their infrastructures. Various Relation Extraction applications are done in the extraction of the relations between entities. In this work, it is aimed to extract relations between entities from Turkish Wikipedia pages.The work done in this paper mainly consist of 4 modules.1- Pars (Wikipedia Parser)2- CAT (CRF Automatic Trainer)3- Köstebek (Relation Extractor)4- Terazi (Evaluator)Wikipedia dumps are used in order to obtain all Turkish Wikipedia pages. `Pars` application is implemented to parse Wikipedia dumps and transfer the data, which is to be used during the study, to the database. Conditional Random Fields (CRF) is used during the extraction of relations between entities in the article.A tagged training set is needed for use of Conditional Random Fields infrastructure. Wikipedia pages include information boxes which consist of text summaries filled by human beings constitutionally. This data is indexed by using `Pars` application. By using the `CAT` application, which is developed for creating training sets automatically, data is extracted from these information boxes and the training set, which is required for Conditional Random Fields infrastructure, is produced.`Köstebek` application is implemented in order to extract the relations from Wikipedia texts by using Conditional Random Fields infrastructure. By operating the system on the Wikipedia data that excluded from training set, `Terazi` application is implemented to evaluate the correctness of system outputs automatically. Basically in this application, the values of the information boxes belong to Wikipedia texts and these outputs are compared and ended up with an evaluation.en_US
dc.languageTurkish
dc.language.isotr
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontroltr_TR
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.titleŞartlı rastgele alanlar ile Türkçe Wıkıpedıa sayfalarından semantik ilişkilerin çıkarılması
dc.title.alternativeSemantic relation extraction by conditional random fields from Turkish Wikipedia pages
dc.typemasterThesis
dc.date.updated2018-08-06
dc.contributor.departmentBilgisayar Mühendisliği Anabilim Dalı
dc.identifier.yokid10026346
dc.publisher.instituteFen Bilimleri Enstitüsü
dc.publisher.universityYILDIZ TEKNİK ÜNİVERSİTESİ
dc.identifier.thesisid364154
dc.description.pages70
dc.publisher.disciplineDiğer


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess