Türkçe kelime vektörlerinde görülen anlamsal ve biçimsel yakınlaşmalar
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bilgisayar bilimi ve teknolojisinin gelişmeye başladığı ilk yıllardan itibaren, insan ile bilgisayar arasındaki etkileşimi arttırmak, tercüme yapmak, büyük miktarlardaki doğal dil verilerini işlemek önemli araştırma alanları olmuştur. Bilgisayar bilimleri, yapay zeka ve bilgi teknolojilerinin kesişim noktasında bulunan doğal dil işleme teknikleri bu alanda çalışmakta ve araştırmacılara sürekli yeni ufuklar sunmaktadır.Doğal dil işlemede önemli araştırma konularından biri kelimelerin reel sayılardan oluşan vektörlere çevrilmesi teknikleridir. Bu tekniklerle elde edilen vektörlerin, kelimeyi doğru temsil etmesi istenmekte, diğer bir deyişle kaliteli vektörler elde etmek hedeflenmektedir. Vektör kalitesinin artması, kelimeler arasında bulunan çok yönlü ilişkileri yansıtabilme kabiliyetlerini arttırmaktadır. Kelimeler arası ilişkilerinden doğan mantıksal sonuçlar, vektörler üzerinde yapılan basit aritmetik işlemler ile bulabilmektedir. Tomas Mikolov ve ekibi tarafından geliştirilmiş olan Word2vec teknikleri bu alanda başarılı kabul edilmiştir.Kelimelerden elde edilen vektörlerin kümelenmeleri ile ilgili çalışmaların çoğu İngilizce üzerine yapılmıştır. Türkçe üzerine yapılan çalışmalar halen başlangıç aşamasındadır. Belirtilen noktadan hareketle, sondan eklemeli ve ek açısından zengin bir dil olan Türkçe için hazırlanan derlem üzerinde Word2vec teknikleri bu çalışmada kullanılmıştır. Word2vec teknikleri ile elde edilen kelime vektörlerinin, ait oldukları kelimelerin anlam ilişkilerinin yanında, biçimsel özellikleri açısından da kümelenmeleri incelenmiştir. Natural language processing (NLP) is relevant research subject in the fields of artificial intelligence (AI), Information engineering and Computer science. It will also be relevant in future.One of the most important topics in natural language processing is the word translation into vectors of real numbers (word embeddings). How the quality of word vectors improves using these techniques, syntactic and semantic clustering quality are increased. Word2vec is one of the latest techniques developed by Tomas Mikolov et al, to study high quality vectors.The majority of studies on clustering of the word vectors were made in English. The studies on Turkish language are still investigating. We base our research on the idea that by means of Word2vec techniques on Turkish corpus we get Turkish representations of word vectors. We searched semantic and morphological word vectors relations in Turkish.
Collections