Show simple item record

dc.contributor.advisorTuran, Metin
dc.contributor.authorToprak, Ahmet
dc.date.accessioned2020-12-04T18:10:31Z
dc.date.available2020-12-04T18:10:31Z
dc.date.submitted2019
dc.date.issued2019-11-14
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/95181
dc.description.abstractDil sözlüğü alanındaki çalışmalar, otomatik sözlük oluşturma konusuna yoğunlaşmış durumdadır. Bu makalede başlangıç olarak verilen bir İngilizce doküman referans alınarak, makale konusuna ait sözlüğün otomatik oluşturulması sağlanmıştır. Çalışmada öncelikli olarak, referans dokümanı temsil eden anlamlı kelimeler tespit edilmiştir. Bu amaçla hem Helmholtz Prensibi hem de TF-IDF metrikleri uygulanmıştır. İlk sözlük kelimeleri bu tohum dediğimiz referans dokümanına ait anlamlı kelimelerden oluşmaktadır. Daha sonra bir döngü ile, en son işlenen dokümana ait anlamlı kelimeler kullanılarak Azure Web Cognitive Web Search sisteminde Web araması yapılmaktadır. Arama sonucu gelen ilk dokümanın, referans dokümanına da uygulandığı üzere Helmholtz Prensibi ve TF-IDF metrikleri ile anlamlı kelimeleri bulunmaktadır. Döngü esnasında bulunan anlamlı kelimeler bu sefer sözlüğe doğrudan eklenmemekte, sapmaları önlemek üzere WordNet sözlüğü kullanılarak her anlamlı kelimenin oluşmuş sözlük ile benzerliği hesaplanmaktadır. Benzerlik değerleri, belirli bir eşik değerinden yüksek olan anlamlı kelimeler sözlüğe eklenmekte ve bu kelimeler kullanılarak Web'te arama döngüsü tekrarlanmakta, nihai olarak sözlük için istenilen kelime sayısına ulaşıldığında ise sonlanmaktadır. Sözlüğün başarımını ölçmek üzere, Hash Similarity benzerlik hesaplaması yöntemi kullanılmıştır. Farklı konularda verilen referans dokümanlarla yapılan sınamalarda, Helmholtz Prensibi uygulanarak yapılan çalışmalarda ortalama % 52,50, TF-IDF metrikleri uygulanarak yapılan çalışmalarda ise % 75,2 oranında benzerliğe sahip sözlükler oluşturulabilmektedir.
dc.description.abstractStudies in the area of language lexicography are focused on automatic dictionary creation. In this article, an English document is given as an initial reference. In the study, meaningful words representing the reference document were identified. For this purpose, both the Helmholtz Principle and TF-IDF metrics were applied. The first dictionary words consist of the meaningful words of the reference document we call this seed. Then, with a loop, Web search is performed in the Azure Web Cognitive Web Search system using meaningful words from the most recently processed document. The first document from the search result has meaningful words with the Helmholtz Principle and TF-IDF metrics as applied to the reference document. The meaningful words found during the cycle are not added directly to the dictionary this time, and using the WordNet dictionary to avoid deviations, the similarity of each meaningful word with the dictionary formed is calculated. The meaningful words with similarity values higher than a certain threshold value are added to the dictionary and the search cycle is repeated using these words, and finally, when the desired number of words for the dictionary is reached, it ends. Hash similarity similarity calculation method was used to measure the performance of the dictionary. In the tests carried out with reference documents given in different subjects, in the studies conducted by applying Helmholtz Principle 52,50 %, while TF-IDF metrics are applied, dictionaries with a similarity of 75,2 % can be created in the studies.en_US
dc.languageTurkish
dc.language.isotr
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontroltr_TR
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.subjectBilim ve Teknolojitr_TR
dc.subjectScience and Technologyen_US
dc.titleDoğal dil işleme ile İngilizce otomatik sözlük oluşturma
dc.title.alternativeCreating english automatic dictionary with natural language processing
dc.typemasterThesis
dc.date.updated2019-11-14
dc.contributor.departmentBilgisayar Mühendisliği Anabilim Dalı
dc.identifier.yokid10274500
dc.publisher.instituteFen Bilimleri Enstitüsü
dc.publisher.universityİSTANBUL TİCARET ÜNİVERSİTESİ
dc.identifier.thesisid577004
dc.description.pages89
dc.publisher.disciplineDiğer


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess