Show simple item record

dc.contributor.advisorÇebi, Yalçın
dc.contributor.authorKizilay, Fatma
dc.date.accessioned2021-05-01T14:20:32Z
dc.date.available2021-05-01T14:20:32Z
dc.date.submitted2009
dc.date.issued2018-08-06
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/560123
dc.description.abstractDokuz Eylül Üniversitesi Bilgisayar Mühendisliği Bölümünde, Doğal Dil İşleme alanında farklı çalışmalar yürütülmektedir. Doğal Dil İşleme çalışmalarında dilin dilbilgisi kuralları belirlenmeli ve derlem olarak adlandırılan metin örnekleri hazırlanmalıdır. Bu örnekler dilin dilbilgisi kurallarını karşılamak zorundadır.Bu çalışmada, büyük ölçekli derlem için altyapı tasarlanmış ve gerçekleştirilmiştir. Gazete, rapor dergi, kitap, meclis tutanağı ve resmi gazete gibi 6 farklı doküman tipini destekleyen bir veri tabanı modeli tasarlanmıştır.Veri tabanı modeline bağlı olarak gerçekleştirilen uygulama ile 5 gazeteden 195256 makale indirilmiştir ve bu dokümanların üst verileri daha sonar yapılacak çalışmalar için depolanmıştır.
dc.description.abstractIn the Dokuz Eylül University Computer Engineering Department, different studies on Natural Language Processing (NLP) have been carried out. For NLP research grammatical rules of the language must be determined and a text sample of that language, which is called as corpus, must be prepared. These sample texts should satisfy the grammar rules of language.In this study, an infrastructure for a large scale corpus is designed and implemented. A database model, which supports 6 different document type such as newspaper, report, magazine, book, parliamentary report and official gazette, is designed.By implementing the developed application depending on the database model, 195256 articles were downloaded from 5 newspapers, and their metadata was stored for future use.en_US
dc.languageEnglish
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/embargoedAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontroltr_TR
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.titleAn infrastructure model for collecting electronic data to develop large scale corpus
dc.title.alternativeBüyük ölçekli derlem geliştirmek amacıyla elektronik veri toplamak için bir altyapı modeli
dc.typemasterThesis
dc.date.updated2018-08-06
dc.contributor.departmentBilgisayar Mühendisliği Ana Bilim Dalı
dc.subject.ytmNatural language processing
dc.identifier.yokid354403
dc.publisher.instituteFen Bilimleri Enstitüsü
dc.publisher.universityDOKUZ EYLÜL ÜNİVERSİTESİ
dc.identifier.thesisid276572
dc.description.pages94
dc.publisher.disciplineDiğer


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/embargoedAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/embargoedAccess