Tagging and morphological disambiguation of turkish text
dc.contributor.advisor | Oflazer, Kemal | |
dc.contributor.author | Kuruöz, İlker | |
dc.date.accessioned | 2020-12-02T12:51:08Z | |
dc.date.available | 2020-12-02T12:51:08Z | |
dc.date.submitted | 1994 | |
dc.date.issued | 2018-08-06 | |
dc.identifier.uri | https://acikbilim.yok.gov.tr/handle/20.500.12812/37332 | |
dc.description.abstract | Sözcük türlerinin işaretlenmesi için kullanılan sistemler metin bilgilerini kullanarak o metinde bulunan her sözcüğü tek bir tür ile işaretlemeye çalışırlar. Otomatik olarak işaretleme, metinlerin üst düzey çözümlemesi açısından önemli bir adımdır ve bu adımın çıktıları pek çok doğal dil işleme uygulamasında kullanılabilir. Türkçe ve Fince gibi çekimli ve bitişken biçimbirimlere sahip dillerde, sözcükler çoğunlukla biçimbirimsel olarak çok yapılı olduğu için biçimbirimsel çok yapılılık çözümlemesi önemli bir işlemdir. Bu tez, Türkçe'nin tam kapsamlı iki aşamalı biçimbirimsel tanımlamasına dayanılarak geliştirilen bir sözcük türü işaretleyicisini sunmaktadır, işaretleyici aynı zamanda çok kelimeli ve deyimsel yapıları tanımlayabilmekte, daha önemlisi sözcüklerin komşularının biçimbirimsel bilgileri ve bir kısım sezgisel bilgiler (heuristics) kullanarak biçimbirimsel çok yapılılık çözümlemesi yapabilmektedir, işaretleyici istatistiksel bilgiler toplamak, biçimbirimsel çözümleyicinin bazı hatalarını düzeltmek gibi ek işlevlere de sahiptir. Deney sonuçları, işaretleyicinin metinlerin %97 ila %99'unu çok az kullanıcı yardımı alarak doğru işaretlediğini göstermiş, bir başka deneyde ise biçimbirimsel çok yapılılık çözümlemesi yapılan cümlelerin Türkçe için geliştirilen sözcüksel-işlevsel gramer (LPG) sözdizimsel çözümleyicisi tarafından işlenmesi sonucunda yarıya yakın daha az çözüm yapısı üretildiği ve bu işlemin 2.5 kez daha hızlı gerçekleştiği gözlenmiştir. Anahtar Sözcükler: işaretleme, Biçimbirimsel inceleme iv | |
dc.description.abstract | A part-of-speech (POS) tagger is a system that uses various sources information to assign possibly unique POS to words. Automatic text tagging is an important component in higher level analysis of text corpora. Its output can also be used in many natural language processing applications. In languages like Turk ish or Finnish, with agglutinative morphology, morphological disambiguation is a very crucial process in tagging as the structures of many lexical forms are morphologically ambiguous. This thesis presents a POS tagger for Turkish text based on a full-scale two-level specification of Turkish morphology. The tag ger is augmented with a multi-word and idiomatic construct recognizer, and most importantly morphological disambiguator based on local lexical neigh borhood constraints, heuristics and limited amount of statistical information. The tagger also has additional functionality for statistics compilation and fine tuning of the morphological analyzer, such as logging erroneous morphological parses, commonly used roots, etc. Test results indicate that the tagger can tag about 97% to 99% of the texts accurately with very minimal user inter vention. Furthermore for sentences morphologically disambiguated with the tagger, an LFG parser developed for Turkish, on the average, generates 50% less ambiguous parses and parses almost 2.5 times faster. Keywords: Tagging, Morphological Analysis, Corpus Development m | en_US |
dc.language | English | |
dc.language.iso | en | |
dc.rights | info:eu-repo/semantics/embargoedAccess | |
dc.rights | Attribution 4.0 United States | tr_TR |
dc.rights.uri | https://creativecommons.org/licenses/by/4.0/ | |
dc.subject | Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol | tr_TR |
dc.subject | Computer Engineering and Computer Science and Control | en_US |
dc.title | Tagging and morphological disambiguation of turkish text | |
dc.title.alternative | Türkçe metinlerin işaretlenmesi ve biçimbirimsel çokyapılılık çözümlemesi | |
dc.type | masterThesis | |
dc.date.updated | 2018-08-06 | |
dc.contributor.department | Diğer | |
dc.subject.ytm | Morphology | |
dc.subject.ytm | Marking | |
dc.subject.ytm | Turkish texts | |
dc.identifier.yokid | 33500 | |
dc.publisher.institute | Mühendislik ve Fen Bilimleri Enstitüsü | |
dc.publisher.university | İHSAN DOĞRAMACI BİLKENT ÜNİVERSİTESİ | |
dc.identifier.thesisid | 33500 | |
dc.description.pages | 94 | |
dc.publisher.discipline | Diğer |