Show simple item record

dc.contributor.advisorAcarman, Tankut
dc.contributor.authorAtdağ, Samet
dc.date.accessioned2020-12-04T13:13:05Z
dc.date.available2020-12-04T13:13:05Z
dc.date.submitted2013
dc.date.issued2018-08-06
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/86999
dc.description.abstractDoğal dil işleme alanında farklı özelliklere sahip çok sayıda isimli varlık tanıma (İVT) aracı bulunmaktadır. Bu durum, İVT araçları arasında uygun bir aracın seçilimini güçleştirmektedir. Bu çalışmada, biyografi metinleri kullanarak uygun bir İVT aracının nasıl seçilmesi gerektiğini incelemeyi hedefledik. Bunu başarabilmek için, öncelikle B. Küpelioğlu tarafından oluşturulmuş olan metin kümesini düzenledik, temizledik ve eksik kalan kısımlarını tamamladık. Sonrasında kamuya açık, iyi bilinen ve bedava olan şu 4 İVT aracını seçtik: Stanford NER, Illinois NET, OpenCalais NER WS ve Alias-i LingPipe. Stanford, Illinois ve OpenCalais?i karşılaştırırken, Yasa Akbulut tarafından geliştirilmiş olan altyapı kullanıldı ve bu çalışma dahilinde bu altyapıya LingPipe desteğini ekledik.İVT araçlarının performans değerlendirmesi için gerekli olan yeni bir değerlendirme yöntemini de ekleyerek altyapının bu konudaki eksiğini tamamladık. Bu platforma yeni bir performans karşılaştırma metodu ekledik ve performansları karşılaştırdık. Sonuçlara baktığımızda, İVT araçları genel performans üzerinden iyiden kötüye doğru şu sıralamaya sahipler: Stanford, LingPipe, Illinois ve OpenCalais. Öte yandan, varlık tiplerini ve biyografilerin ait oldukları kategorileri de göz önüne alarak daha detaylı bir inceleme yaptığımızda araçların performansların bu etkenlere bağlı olarak farklılıklar arzettiklerini gözlemledik. Bu da bizi, belirli durumlarda daha iyi sonuçlar veren araçları, metinler üzerinde eğittiğimiz bir SVM kullanarak ve bu araçları birleştirerek daha iyi bir performans elde etme noktasına götürdü. Ardından aynı işlemi elle tanımladığımız belirli kurallar üzerinden tekrarlayarak, otomatik birleştiricinin performansını test ettik. Sonuç olarak kural temelli birleştirici varlıkları tam tespit etmede daha iyiyken, SVM birleştiricinin parçalı varlık tespitinde daha iyi performans verdiğini gözlemledik.
dc.description.abstractIn natural language processing domain, there are many named entity recognition tools with several different properties. This makes it difficult to select an appropriate NER tool for a specific situation. In this work, we try to answer this question in the context of biographic texts. For this matter, we first correct, clean and complete the corpus constituted by B. Kupelioglu [1]. We then select 4 publicly available, well known and free for research NER tools for comparison: Stanford NER, Illinois NET, OpenCalais NER WS and Alias-i LingPipe. We take advantage of the framework developed by Yasa Akbulut to compare Stanford, Illinois and OpenCalais, and complete it so that it can also handle LingPipe, too.We also add to this platform a new way of evaluating NER performance. We then compared the tools' performances. When considering overall performances, a clear hierarchy emerges: Stanford has best results, followed by LingPipe, Illionois and OpenCalais. However, a more detailed evaluation, considering entity types and article categories, highlights that performances are diversely influenced by those factors. This complementarity brings us to the definition of a combination method in order to improve the overall performance, using Support Vector Machine (SVM) trained on our corpus. We also manually define a set of rules to perform the same operation, in order to have a baseline when assessing the performance of our combination tool. We have found that these rules are better at performing full detection of entities, but that the SVM classifier is better at performing partial detection.en_US
dc.languageEnglish
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontroltr_TR
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.titleComparison and combination of named entity recognition tools applied to biographic texts
dc.title.alternativeİsimli varlık tanıma araçlarının biyografik makalelere uygulanarak karşılaştırılması ve birleştirilmesi
dc.typemasterThesis
dc.date.updated2018-08-06
dc.contributor.departmentBilgisayar Mühendisliği Anabilim Dalı
dc.identifier.yokid10008779
dc.publisher.instituteFen Bilimleri Enstitüsü
dc.publisher.universityGALATASARAY ÜNİVERSİTESİ
dc.identifier.thesisid373725
dc.description.pages71
dc.publisher.disciplineDiğer


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess