Person name recognition in Turkish financial texts by using local grammar approach
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Varlık ismi tanıma varlıkların (örneğin, kisi ismi, organizasyon ismi, yerismi, zaman deyimi, tarih deyimi ve yüzde deyimi) bulunup, anlamsalaçıdan sınıflandırılmasıdır. Varlık ismi tanımanın iki temel amacı vardır.Birincisi varlıkların bulunup, tanınmasıdır. ?kinci ise bu varlıklarınsınıflandırılmasıdır. Son zamanlarda, yerel dilbilgisi yaklasımı diğer varlıktanıma tekniklerine (örneğin, olasılıksal yaklasım, sembolik yaklasım vehibrit yaklasım) olan üstünlüğü isaretlenmemis derlemler üzerindeçalısması açısından kanıtlanmıstır. Yerel dilbilgisi yaklasımı varlık tanımaesnasında diğer varlık tanıma sistemlerinin aksine hiç bir genel sözlük,isim, organizasyon yada yer sözlüğüne ihtiyaç duymamaktadır. Sonuçolarak yerel dilbilgisi yaklasımı daha önce görülmemis metinlerde en azmaliyet ile varlıkları tanımakta ve sınıflandırmaktadır. Diğer varlık tanımasistemleri yerel dilbilgisi yaklasımının aksine örüntü olusturmadan öncebazı anlamsal ve yapısal analizlere ihtiyaç duymaktadır.Biz bu tezde isaretlenmemis büyük bir Türkçe finansal haber derlemindedaha önce H.N. Traboulsi tarafından Reuters'ın bir finansal haberderlemine denenmis ve basarılı olmus yerel dilbilgisi yaklasımı kullanarakkisi isimlerinin tanınmasında kullanabileceğimiz örüntüleri olusturmayaçalıstık. Kısacası, yerel dilbilgisi yaklasımının sıklık analizi, uygunlukanalizi ve esdizimlik analizi kullanarak Türkçe'ye uygulanabilirliğiniarastırdık. Bunun yanı sıra, bu tezin önemli bir asamasını olusturan vedaha önce hiç çalısılmamıs Türkçe rapor etme eylemlerinin bir listesininolusturulmasını da gerçeklestirdik.Anahtar Kelimeler: Yerel Dilbilgisi, Varlık ?smi, Varlık ?smi Tanıma, Özel?sim, Türkçe Rapor Etme Eylemleri. Named entity recognition (NER) is the task of identifying the namedentities (NEs) in the texts and classifying them into semantic categoriessuch as person, organization, and place names and time, date, monetary,and percent expressions. NER has two principal aims: identification ofNEs and classification of them into semantic categories. The localgrammar (LG) approach has recently been shown to be superior to otherNER techniques such as the probabilistic approach, the symbolicapproach, and the hybrid approach in terms of being able to work withuntagged corpora. The LG approach does not require using anydictionaries and gazetteers, which are lists of proper nouns (PNs) used inNER applications, unlike most of the other NER systems. As aconsequence, it is able to recognize NEs in previously unseen texts atminimal costs. Most of the NER systems are costly due to manual rulecompilation especially in large tagged corpora. They also require somesemantic and syntactic analyses to be applied before pattern generationprocess, which can be avoided by using the LG approach.In this thesis, we tried to acquire LGs for person names from a largeuntagged Turkish financial news corpus by using an approachsuccessfully applied to a Reuter?s financial English news corpus recentlyby H. N. Traboulsi. We explored its applicability to Turkish language byusing frequency, collocation, and concordance analyses. In addition, weconstructed a list of Turkish reporting verbs. It is an important part of thisstudy because there is no major study about reporting verbs in Turkish.Keywords: Local Grammar, Named Entity, Named Entity Recognition,Proper Noun, Turkish Reporting Verbs.
Collections