Show simple item record

dc.contributor.advisorAkgül, Yusuf Sinan
dc.contributor.authorAlmahdi, Muhammed Enes
dc.date.accessioned2020-12-10T11:50:48Z
dc.date.available2020-12-10T11:50:48Z
dc.date.submitted2020
dc.date.issued2020-05-04
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/267771
dc.description.abstractBirbirini izleyen nesiller boyunca diller gelişmiştir, yeni diller ve lehçelere dallanmıştır; yeni kelimeler ortaya çıkmış, telaffuzlar değişmiş ve morfoloji gelişmiştir. Bir dilde ikame edilmiş sözcükleri bulmak ve benzer dillerin benzerliklerini bilmek, dillerin gelişimini incelemenin temel taşını oluşturmuştur. Doğu dillerinde paralel korporanın azlığı bu dilleri incelemedeki zorluğu ortaya çıkarmıştır. Dillerin gelişimini inceleyen mevcut yaklaşımlar ya paralel korporaya dayanmıştır ya da yüksek başarım gösterememiştir. Bu çalışmanın amacı gözetimsiz öğrenmeyle paralel korpora kullanmadan kelime ikamesini ve diller arası benzerliği otomatik olarak tespit eden etkin bir sistem oluşturmaktır. Kelime ikamesini keşfetmek ve zamana dayalı kelime vektör uzayları ile zamandan bağımsız evrensel kelime vektör uzayının nasıl hizalanacağını öğretmek için basit ve etkin sözlük tabanlı doğrulama yöntemi ile çekişmeli eğitim prosedürünü kullandık. Ayrıca, tek dilli metinler üzerinde eğitilmiş n-gram modellere dayanarak diller arası benzerliği kestirdik. Önerilen modellerimizi Türk dilleri ve Arap lehçelerine uyguladık. Türk dil gelişiminin son 100 yıllık döneminde en çok değişen dönemleri bulmanın yanı sıra sözcük ikamelerini de belirledik. Ayrıca Türk dilleri ve Arap lehçeleri için tam bağlantılı benzerlik çizgeleri oluşturduk. Bir ısı haritasında benzerlikleri görselleştirdik ve bunu diller arası benzerliğe coğrafi dağılımın etkisini gösteren bir harita sunduk.
dc.description.abstractOver successive generations, languages have evolved, with new languages and dialects branching out; new words emerge, pronunciations vary, and morphology develops. The process of finding substituted words in a language, as well as knowing how similar languages are, is the cornerstone of studying the development of languages. The challenge in studying Eastern languages occupies in the scarcity of parallel corpora. Current approaches that study the development of languages are either based on parallel corpora or are not of high quality. The goal of this work is to build an effective system that automatically detects word substitution and inter-language similarity using unsupervised learning, i.e., without parallel corpora. To discover word substitution, we employ an adversarial training procedure to learn how to align between time-based word embeddings spaces and time-independent global word embeddings space with a simple and effective dictionary-based validation method. Furthermore, we estimate the inter-language similarity based on the perplexity of n-gram models that trained on monolingual texts. We apply our proposed models on Turkic languages and Arabic dialects. We identify word substitutions, in addition to finding the most changed periods during the last 100-years stage of Turkish language development. Moreover, we create fully connected similarity graphs for Turkic languages and Arabic dialects. We visualize the similarities in a heatmap, and we present a map showing the inter-language similarity and the influence of the geographical distribution.en_US
dc.languageEnglish
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontroltr_TR
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.titleQuantitative ways of measuring natural language change through time and location
dc.title.alternativeDoğal dillerin zaman ve konuma bağlı değişimlerinin nicel olarak ölçülmesi
dc.typemasterThesis
dc.date.updated2020-05-04
dc.contributor.departmentBilgisayar Mühendisliği Anabilim Dalı
dc.subject.ytmNatural language processing
dc.identifier.yokid10318561
dc.publisher.instituteFen Bilimleri Enstitüsü
dc.publisher.universityGEBZE TEKNİK ÜNİVERSİTESİ
dc.identifier.thesisid620449
dc.description.pages96
dc.publisher.disciplineDiğer


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess