Show simple item record

dc.contributor.advisorOflazer, Kemal
dc.contributor.authorKuruöz, İlker
dc.date.accessioned2020-12-02T12:51:08Z
dc.date.available2020-12-02T12:51:08Z
dc.date.submitted1994
dc.date.issued2018-08-06
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/37332
dc.description.abstractSözcük türlerinin işaretlenmesi için kullanılan sistemler metin bilgilerini kullanarak o metinde bulunan her sözcüğü tek bir tür ile işaretlemeye çalışırlar. Otomatik olarak işaretleme, metinlerin üst düzey çözümlemesi açısından önemli bir adımdır ve bu adımın çıktıları pek çok doğal dil işleme uygulamasında kullanılabilir. Türkçe ve Fince gibi çekimli ve bitişken biçimbirimlere sahip dillerde, sözcükler çoğunlukla biçimbirimsel olarak çok yapılı olduğu için biçimbirimsel çok yapılılık çözümlemesi önemli bir işlemdir. Bu tez, Türkçe'nin tam kapsamlı iki aşamalı biçimbirimsel tanımlamasına dayanılarak geliştirilen bir sözcük türü işaretleyicisini sunmaktadır, işaretleyici aynı zamanda çok kelimeli ve deyimsel yapıları tanımlayabilmekte, daha önemlisi sözcüklerin komşularının biçimbirimsel bilgileri ve bir kısım sezgisel bilgiler (heuristics) kullanarak biçimbirimsel çok yapılılık çözümlemesi yapabilmektedir, işaretleyici istatistiksel bilgiler toplamak, biçimbirimsel çözümleyicinin bazı hatalarını düzeltmek gibi ek işlevlere de sahiptir. Deney sonuçları, işaretleyicinin metinlerin %97 ila %99'unu çok az kullanıcı yardımı alarak doğru işaretlediğini göstermiş, bir başka deneyde ise biçimbirimsel çok yapılılık çözümlemesi yapılan cümlelerin Türkçe için geliştirilen sözcüksel-işlevsel gramer (LPG) sözdizimsel çözümleyicisi tarafından işlenmesi sonucunda yarıya yakın daha az çözüm yapısı üretildiği ve bu işlemin 2.5 kez daha hızlı gerçekleştiği gözlenmiştir. Anahtar Sözcükler: işaretleme, Biçimbirimsel inceleme iv
dc.description.abstractA part-of-speech (POS) tagger is a system that uses various sources information to assign possibly unique POS to words. Automatic text tagging is an important component in higher level analysis of text corpora. Its output can also be used in many natural language processing applications. In languages like Turk ish or Finnish, with agglutinative morphology, morphological disambiguation is a very crucial process in tagging as the structures of many lexical forms are morphologically ambiguous. This thesis presents a POS tagger for Turkish text based on a full-scale two-level specification of Turkish morphology. The tag ger is augmented with a multi-word and idiomatic construct recognizer, and most importantly morphological disambiguator based on local lexical neigh borhood constraints, heuristics and limited amount of statistical information. The tagger also has additional functionality for statistics compilation and fine tuning of the morphological analyzer, such as logging erroneous morphological parses, commonly used roots, etc. Test results indicate that the tagger can tag about 97% to 99% of the texts accurately with very minimal user inter vention. Furthermore for sentences morphologically disambiguated with the tagger, an LFG parser developed for Turkish, on the average, generates 50% less ambiguous parses and parses almost 2.5 times faster. Keywords: Tagging, Morphological Analysis, Corpus Development men_US
dc.languageEnglish
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/embargoedAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontroltr_TR
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.titleTagging and morphological disambiguation of turkish text
dc.title.alternativeTürkçe metinlerin işaretlenmesi ve biçimbirimsel çokyapılılık çözümlemesi
dc.typemasterThesis
dc.date.updated2018-08-06
dc.contributor.departmentDiğer
dc.subject.ytmMorphology
dc.subject.ytmMarking
dc.subject.ytmTurkish texts
dc.identifier.yokid33500
dc.publisher.instituteMühendislik ve Fen Bilimleri Enstitüsü
dc.publisher.universityİHSAN DOĞRAMACI BİLKENT ÜNİVERSİTESİ
dc.identifier.thesisid33500
dc.description.pages94
dc.publisher.disciplineDiğer


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/embargoedAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/embargoedAccess