Quantitative ways of measuring natural language change through time and location
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Birbirini izleyen nesiller boyunca diller gelişmiştir, yeni diller ve lehçelere dallanmıştır; yeni kelimeler ortaya çıkmış, telaffuzlar değişmiş ve morfoloji gelişmiştir. Bir dilde ikame edilmiş sözcükleri bulmak ve benzer dillerin benzerliklerini bilmek, dillerin gelişimini incelemenin temel taşını oluşturmuştur. Doğu dillerinde paralel korporanın azlığı bu dilleri incelemedeki zorluğu ortaya çıkarmıştır. Dillerin gelişimini inceleyen mevcut yaklaşımlar ya paralel korporaya dayanmıştır ya da yüksek başarım gösterememiştir. Bu çalışmanın amacı gözetimsiz öğrenmeyle paralel korpora kullanmadan kelime ikamesini ve diller arası benzerliği otomatik olarak tespit eden etkin bir sistem oluşturmaktır. Kelime ikamesini keşfetmek ve zamana dayalı kelime vektör uzayları ile zamandan bağımsız evrensel kelime vektör uzayının nasıl hizalanacağını öğretmek için basit ve etkin sözlük tabanlı doğrulama yöntemi ile çekişmeli eğitim prosedürünü kullandık. Ayrıca, tek dilli metinler üzerinde eğitilmiş n-gram modellere dayanarak diller arası benzerliği kestirdik. Önerilen modellerimizi Türk dilleri ve Arap lehçelerine uyguladık. Türk dil gelişiminin son 100 yıllık döneminde en çok değişen dönemleri bulmanın yanı sıra sözcük ikamelerini de belirledik. Ayrıca Türk dilleri ve Arap lehçeleri için tam bağlantılı benzerlik çizgeleri oluşturduk. Bir ısı haritasında benzerlikleri görselleştirdik ve bunu diller arası benzerliğe coğrafi dağılımın etkisini gösteren bir harita sunduk. Over successive generations, languages have evolved, with new languages and dialects branching out; new words emerge, pronunciations vary, and morphology develops. The process of finding substituted words in a language, as well as knowing how similar languages are, is the cornerstone of studying the development of languages. The challenge in studying Eastern languages occupies in the scarcity of parallel corpora. Current approaches that study the development of languages are either based on parallel corpora or are not of high quality. The goal of this work is to build an effective system that automatically detects word substitution and inter-language similarity using unsupervised learning, i.e., without parallel corpora. To discover word substitution, we employ an adversarial training procedure to learn how to align between time-based word embeddings spaces and time-independent global word embeddings space with a simple and effective dictionary-based validation method. Furthermore, we estimate the inter-language similarity based on the perplexity of n-gram models that trained on monolingual texts. We apply our proposed models on Turkic languages and Arabic dialects. We identify word substitutions, in addition to finding the most changed periods during the last 100-years stage of Turkish language development. Moreover, we create fully connected similarity graphs for Turkic languages and Arabic dialects. We visualize the similarities in a heatmap, and we present a map showing the inter-language similarity and the influence of the geographical distribution.
Collections