Yeni nesil derin bağlamsallaştırılmış kelime gösterimleri ve derin öğrenme modelleriyle finansal haberler kullanarak borsa tahminlemesi

Othan, Derya

dc.contributor.advisor	Kilimci, Zeynep Hilal
dc.contributor.author	Othan, Derya
dc.date.accessioned	2021-05-07T09:07:35Z
dc.date.available	2021-05-07T09:07:35Z
dc.date.submitted	2019
dc.date.issued	2020-07-13
dc.identifier.uri	https://acikbilim.yok.gov.tr/handle/20.500.12812/605407
dc.description.abstract	AmaçHisseler, ekonomik krizden etkilenen önemli bir yatırım türüdür. Bu nedenle, hisselerin yönünü tahmin etmek yatırımcılar, analistler ve araştırmacılar için önemlidir. Özellikle de yatırımcılara yapacakları yatırımların yönünü belirlemede önemli bir kaynak olmaktadır. Hisseler üzerinde yatırım yapan ve yaptıkları yatırımlar hakkında yorumlarını paylaşan kullanıcılar, hisseler hakkında analiz yapan analistler ve finansal haberlerin yayınlandığı platformlar tüm kullanıcılara bilgi paylaşımı sağlayan bir platform oluştururlar. Bu çalışmanın amacı, geleneksel derin öğrenme ve kelime gömme modellerinin yanında yeni nesil kelime gömme modellerini kullanarak insanlara BIST100'de en büyük hacime sahip olan hisselerin yönünü tahmin etmeyi ve yatırımcılara yatırımlarının yönünü belirlemede önemli bir kaynak sunmayı teklif ediyoruz. Bildiğimiz kadarıyla, BIST100'de en büyük hacime sahip olan hisseler hakkında tamamen Türkçe metinler üzerinden geleneksel kelime gömme ve derin öğrenme modellerinin yanında yeni nesil kelime gömme modelleri kullanarak analiz etmek için yapılan ilk çalışmadır. Materyaller ve yöntemlerBIST100'de en büyük hacime sahip olan hisseler ile ilgili, bireysel ve kurumsal kullanıcı yorumları, haber sitelerinde yer alan duyurular ve yatırımcılara değerli bir kaynak olan finansal teknik analizler Türkçe metin kaynağı olarak toplandı. Bireysel ve kurumsal kullanıcı yorumları Twitter sayfalarındaki (`AKBNK`, `ALBRK`, `GARAN`, `HALKB`, `ISCTR`, `SKBNK`, `TSKB`, `VAKBN`, `YKBNK`) anahtar kelimeler ile aranarak hesaplardan toplandı. Sosyal medya platform olan Twitter'daki Türkçe kullanıcı yorumlarını toplamak için Python programlama dilinde yazdığımız Selenium Crawler kullanılarak toplandı. C# dilinde kendi yazdığımız web tarayıcısı ile de, Kamuyu Aydınlatma Platformu (KAP)'ndan finansal haberler ve Mynet Finans web sitesinden kullanıcı yorumları çeşitli Türkçe metin kaynağı olarak toplanmaktadır. Big Para'dan hisselere ait analistler tarafından yapılmış finansal analizler günlük olarak toplanmıştır. Twitter, KAP ve Mynet Finans'taki veriler 01.09.2018 ile 01.09.2019 tarihleri aralığında toplanmıştır. Big Para'da geçmişe yönelik veri çekilemediğinden günlük olarak 28.08.2019 ile 15.11.2019 tarihleri arasında toplanmıştır. Bu çalışmada Word2Vec, GloVe ve FastText, kullanıcı yorumlarını, finansal analiz ve haberleri anlamsal, bağlamsal ve sözdizimi açısından zenginleştirmek amacıyla geleneksel kelime gömme modelleri olarak kullanılmıştır. Evrişimli Sinir Ağları (CNN'ler), Tekrarlayan Sinir Ağları (RNN'ler) ve Uzun Kısa Süreli Bellek Ağları (LSTM'ler) sınıflandırma görevi için geleneksel derin öğrenme algoritmaları uygulanılmıştır. Bunların yanında yeni nesil kelime gömme modelleri olan Transformatörlerden Çift Yönlü Kodlayıcı Gösterimleri (BERT), Dil Modellerinden Yerleştirme (ELMo) ve Evrensel Dil Modeli İnce Ayar (ULMFiT) kullanılmıştır.Deneysel SonuçlarBu çalışmada, geleneksel kelime gömme modelleri, derin öğrenme algoritmaları ve yeni nesil kelime gömme modelleri kullanılarak BIST100'de büyük hacime sahip olan borsa hisselerinin yönünü tahmin etmek için kapsamlı deneyler yapılmıştır. Belirtilen tüm doğruluklar, her modelin sınıflandırma performansını ve yaptığımız çalışmanın katkısını göstermek için deneylerde kullanılan bir değerlendirme ölçütüdür. Ön işleme yöntemlerinin uygulanması ile önerilen modelin sınıflandırma performasını iyileştirme amaçlanmıştır. Kullanıcı yorumlarını içeren Türkçe metinleri sınıflandırmada yeni nesil kelime gömme modeli olan ELMo'nun ön işleme yöntemleriyle birleşimi, kullanıcıların hisselerini yönlendirmedeki hassasiyetini belirlemek ve en iyi sınıflandırma başarısı elde etmek için avantajlı bir seçim olacağı sırasıyla Twitter ve Mynet Finans'tan toplanan Türkçe veri setinden elde edilen %97.70 ve %91.55'lik doğruluk değeri ile ortaya koyulmuştur. Ancak haberler ve analizler gibi Türkçe metin içerikli veri setlerinde yeni nesil kelime gömme modellerine göre geleneksel derin öğrenme algortimaları daha iyi sonuçlar üretmiştir. SonuçlarBu çalışma, borsa hisselerinin yönünü tahmin etmek için çeşitli veri kaynaklarından toplanan metinler üzerinde geleneksel kelime gömme modelleri, derin öğrenme algoritmaları ve yeni nesil kelime gömme modellerini kullanma etkinliğini ve hisselerin yönlerini analiz ederek yatırımcılara yatırım yapacakları süreçte değerli bir katkı sağladığını göstermektedir.
dc.description.abstract	ObjectiveStocks are an important investment type affected by the economic crisis. Therefore, it is important for investors, analysts and researchers to predict the direction of the shares. In particular, it is an important source in determining the direction of investments to be made to investors. Users who invest in shares and share their comments on their investments, analysts analyzing shares, and platforms where financial news are published form a platform that provides information sharing to all users. The aim of this study is to propose to the people using the new generation of word embedding models as well as traditional deep learning and word embedding models to predict the direction of the largest volume of shares in BIST100 and to provide investors with an important resource in determining the direction of their investments. To the best of our knowledge, it is the first study to analyze the largest volume of shares in BIST100 using traditional Turkish embedding and deep learning models as well as new generation of word embedding models over completely Turkish texts.Materials and MethodsIndividual and corporate user reviews, announcements on news sites and financial technical analysis, which is a valuable resource for investors, have been collected as the Turkish text source. Individual and corporate user comments were collected from the accounts by searching on the Twitter pages (`AKBNK`, `ALBRK`, `GARAN`, `HALKB`, `ISCTR`, `SKBNK`, `TSKB`, `VAKBN`, `YKBNK`). . It was collected by using Selenium Crawler, which we wrote in Python programming language, in order to collect user comments on the social media platform Twitter. With our own web browser in C #, financial news from the Public Disclosure Platform (KAP) and user comments from the Mynet Finans website are collected as various Turkish text sources. Financial analyzes conducted by analysts belonging to Big Para were collected daily. The data in Twitter, KAP and Mynet Finans were collected between 01.09.2018 and 01.09.2019. Since the historical data of Big Para could not be collected, it was collected daily between 28.08.2019 and 15.11.2019. In this study, Word2Vec, GloVe and FastText are used as traditional word embedding models to enrich user interpretations, financial analysis and news in terms of semantic, contextual and syntax. Conventional neural networks (CNNs), Recurrent Neural Networks (RNNs) and Long Short Term Memory Networks (LSTMs) have been implemented with traditional deep learning algorithms for the classification task. In addition, the new generation of word embedding models from the Transformers Bidirectional Encoder Display (BERT), Language Models Placement (ELMo) and Universal Language Model Fine Tuning (ULMFiT) were used.ResultsIn this study, extensive experiments have been conducted to predict the direction of large volume stock market shares in BIST100 by using traditional word embedding models, deep learning algorithms and next generation word embedding models. All stated accuracy is an evaluation criterion used in experiments to demonstrate the classification performance of each model and the contribution of our work. With the application of pre-treatment methods, it is aimed to improve the classification performance of the proposed model. The combination of ELMo, which is a new generation word embedding model for classifying Turkish texts containing user comments, with preprocessing methods, is an advantageous choice for determining the sensitivity of the users in guiding their shares and achieving the best classification success. 97.70% and 91.55% with the accuracy value was revealed. However, traditional deep learning algorithms produced better results than the new generation word embedding models in Turkish textual data sets such as news and analysis.ConclusionsThis study demonstrates the effectiveness of using traditional word embedding models, deep learning algorithms, and new generation word embedding models on texts collected from various data sources to predict the direction of stock market shares and makes a valuable contribution to investors in the process of investing.	en_US
dc.language	Turkish
dc.language.iso	tr
dc.rights	info:eu-repo/semantics/openAccess
dc.rights	Attribution 4.0 United States	tr_TR
dc.rights.uri	https://creativecommons.org/licenses/by/4.0/
dc.subject	Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol	tr_TR
dc.subject	Computer Engineering and Computer Science and Control	en_US
dc.title	Yeni nesil derin bağlamsallaştırılmış kelime gösterimleri ve derin öğrenme modelleriyle finansal haberler kullanarak borsa tahminlemesi
dc.title.alternative	Stock generation estimation using financial news with new generation deep contextualized word display and deep learning models
dc.type	masterThesis
dc.date.updated	2020-07-13
dc.contributor.department	Bilgisayar Mühendisliği Ana Bilim Dalı
dc.identifier.yokid	10312268
dc.publisher.institute	Fen Bilimleri Enstitüsü
dc.publisher.university	DOĞUŞ ÜNİVERSİTESİ
dc.identifier.thesisid	627226
dc.description.pages	63
dc.publisher.discipline	Diğer

Files in this item

Name:: yokAcikBilim_10312268.pdf
Size:: 2.694Mb
Format:: PDF
Description:: File_10312268

View/Open

This item appears in the following Collection(s)

TEZLER

Show simple item record

Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess