Show simple item record

dc.contributor.advisorArslan, Barış
dc.contributor.authorDalaman, Şaban
dc.date.accessioned2021-05-08T07:33:17Z
dc.date.available2021-05-08T07:33:17Z
dc.date.submitted2018
dc.date.issued2018-12-10
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/631442
dc.description.abstractSon dönemdeki yapay sinir ağları ve derin öğrenme tekniklerinde ki gelişmelerle beraber,temsili öğrenme pek çok araştırmanın odak noktasında yer almaya başladı. Doğal dilişleme(DDÍ) alanında, temsili öğrenme tekniklerinin uygulamasında ve diğer metodlaragöre DDÍ problemlerinin çözümünde ilerleme sağlamıştır. Bu alandaki ana araıstırmakonularından biri, dil yapılarının ortak çok dilli uzayda birleşimsel temsillerini oluşturmaktır.Bu çalışmanın hedefi derin öğrenme ve DDÍ mede kullanılan bazıtekniklerinbirleştirilerek temsillerin DDÍ uygulamalarındaki etkisini araştırmaktır.Bu amaçla 4 değişik birleşim vektör modeli üzerinde çalışılmıştır. Token yada morphemegibi dil yapılarının temsil uzaylarının oluşturulması için ilk olarak token yada morfolojikayrıştırma ile paralel korpus hazırlanmış sonra değişik hiyerarşik birleşim metodları ikilidilmodelleri üzerinden kullanılmıştır. Íkili-dil modelleri 4 dil için hazırlanan cümlesıralı korpuslar kullanılarak eğitilmiştir. Bu sayede model, birleşimsel vectör modelinikullanarak cümle elemanlarının temsillerini oluşturmayı öğrenmektedir.Degişik birleşimsel vektör metodlarını değerlendirmek için iki test senaryosu kullanılmıştır.Ílki açımlama testidir. Bu senaryoda ikili model, birleşimsel vektör modelini kullanarakegitilir. Sonra paralel korpusdan iki dil için seçilen karşılıklı cümle çiftlerinin karşılaştırılmaları ile performansları hesaplanır.Diğer test senaryosu ise gözetimli döküman sınıflama testidir. Bir dilden seçilen dökümanlarkullanılarak eğitilen sınıflandırıcı diğer bir dilden seçilen test dökümanları ile testedilir. Dökümanlar değişik konu başlıkları için pozitif ve negatif olarak işaretlenmiştir.Sınıflandırıcı pozitif ve negatif örnekleri ayırmayı ögrenmektedir.
dc.description.abstractAfter the recent developments in Artificial Neural Networks and deep learning techniques,representation learning has become the focus of many research interests. In the field ofNatural Language Processing, representation learning techniques have gained many implementationadvances and improved different tasks compared to any other methods.One of the primary research topics in this area is to construct compositional representationsof discrete language structures in multilingual joint-vector space. In this thesisstudy, several techniques from deep learning and NLP are combined to investigate theirpotential impact on NLP tasks.For this purpose, 4 different composition vector models (CVM) by using tokens andmorphemes as basic language structures are studied. To construct the embedding space oflanguage structures such as tokens and morphemes, first, a parallel corpus is preparedby segmenting into discrete objects via tokenization and morphological analysis. Severalhierarchical composition methods via the bilingual method are employed to construct theembeddings of these structures. Bilingual models are trained by using sentence-alignedcorpora for 4 languages. The models learn how to employ compositional vector modelsand construct embeddings of sentence constituents as well.Two different test scenarios are performed to evaluate different CVMs. The first one is the paraphrase test. In this case, the bilingual models using CVMs are trained with eachlanguage pair L1-L2 ( English, Turkish, German and French) parallel corpus. Then themodels are tested by evaluating their performance in finding the corresponding pairscorrectly from 100 randomly selected sentences from each L1-L2 pair.The other test scenario is Cross-lingual document classification. In this case, the trainedmodels are employed by a document classifier model to evaluate their performance inclassification task by first training in L1 documents and testing with L2 documentsen_US
dc.languageEnglish
dc.language.isoen
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontroltr_TR
dc.subjectComputer Engineering and Computer Science and Controlen_US
dc.titleCompositional representations of language structures in multilingual joint-vector space
dc.title.alternativeÇok dilli eklem-vektör uzayda dil yapılarının bileşim temsili
dc.typemasterThesis
dc.date.updated2018-12-10
dc.contributor.departmentBilgisayar Mühendisliği Ana Bilim Dalı
dc.subject.ytmNatural language processing
dc.identifier.yokid10199389
dc.publisher.instituteFen Bilimleri Enstitüsü
dc.publisher.universityİSTANBUL ŞEHİR ÜNİVERSİTESİ
dc.identifier.thesisid522506
dc.description.pages50
dc.publisher.disciplineBilgisayar Mühendisliği Bilim Dalı


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess