Hisse senetleri ve sosyal medya arasındaki ilişkinin makine öğrenmesi teknikleri ile belirlenmesi
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bu tez çalışmasının amacı Bist30 endeksinde bulunan hisseler hakkında Twitter mikroblog sitesi üzerinden yapılan yorumlar ile günlük, haftalık ve aylık periyotlarda Bist30 değer değişimleri arasındaki korelasyon ve nedensellik ilişkisinin araştırmak ve elde edilen sonuçları yorumlamaktır. Bu amaçla tez çalışmasında veri kümesi olarak 07.05.2018-30.04.2019 tarihleri arasında Twitter mikroblog sitesinde herkese açık profile sahip kullanıcıların Bist30 hisseleri hakkında paylaştığı 57.933 etiketli kısa ileti, 20.276 etiketsiz kısa ileti ve Bist30 endeksi hisselerinin açılış kapanış fiyat farkları kullanılmıştır. Eğitim amaçlı kullanılan 57.933 adet twitter yorumu bu 12 aylık periyotta finans ile ilgili kişilerce manuel olarak iletilerin içerdiği duygu durumlarına göre pozitif, negatif ve nötr olmak üzere üç kategoride etiketlenmiştir. Etiketlenen bu veriler makine öğrenmesi algoritmaları ile eğitilerek sınıflandırılmıştır ve algoritmalar arasından başarı oranı en yüksek olanı tespit edilerek, bu algoritma eğitim esnasında kullanılmayan yeni bir test veri setinin sınıflandırılması için kullanılmıştır. Test veri setinin sınıflandırılması ile pozitif, negatif sınıflardaki kısa ileti sayıları elde edilmiş ve bu sayılar ile literatürde kullanılan 4 farklı duygu skoru oluşturulmuştur. Bölüm 5'te belirtilen bu duygu skorları S1, S2, S3 ve S4 olarak isimlendirilmiştir. Tezin kapsamında bu 4 çeşit duygu skoru ile günlük, haftalık ve aylık bazda Bist30 hisseleri değer değişimleri arasındaki Pearson Korelasyon analizi gerçekleştirilmiştir. Pearson korelasyonu değişkenler arasındaki ilişkinin nedenselliğini analiz etmemektedir. Değişkenler arasındaki nedensellik ilişkisi için Granger nedensellik analizi uygulanmıştır ve nihayetinde elde edilen sonuçlar yorumlanmıştır. Kısa iletilerin bilgisayar tarafından algılanabilmesi adına sayısallaştırılması ve vektörler ile ifade edilebilmesi için kelime tabanlı N-gramlara dayalı geleneksel kelime çantası modeli dışında, Yapay Sinir Ağlarına (YSA) dayalı Doc2vec mimarisi de kullanılmıştır. Eğitim veri kümesi sınıflandırılırken Lojistik Regresyon (LR), Destek Vektör Makineleri (DVM), Naive Bayes (NB), Karar Ağaçları (KA), K-EnYakın Komşu (KYK) sınıflandırıcıları ve Rastgele Orman (RO), Gradyan Artırma (GA) ve Maksimum Oylama (MO) topluluk öğrenmesi algoritmaları kullanılmıştır. Deneyler sonunda en iyi sınıflandırma algoritmasının LR olduğu ortaya çıkmıştır. LR ile etiketsiz veri setindeki kısa iletilerin sınıfları tahmin edilmiştir.Yeni oluşan veri seti üzerinden pozitif ve negatif duygu içeren tweetlerin polarite değerleri hesaplanmış ve bu duygu skorları ile Bist30 hisseleri arasındaki, ilişkilerin istatistiksel analizlerinin yapılması sağlanmıştır.Bist30 endeksinin açılış ve kapanış fiyatları ile duygu skorları ele alındığında günlük ve haftalık periyotta orta kuvvette ilişki bulunurken, aylık dönemde 0,74 gibi kuvvetli bir ilişkiye sahip olduğu saptanmıştır.Hisse bazında günlük ve haftalık zaman diliminde zayıf ilişkiye sahipken, aylık periyotta örneğin Ereğli Demir ve Çelik Fabrikaları T.A.Ş. (EREGL), Türkiye İş Bankası A.Ş. (ISCTR), Tofaş Türk Otomobil Fabrikası A.Ş. (TOASO) gibi hisselerin kuvvetli ilişkiye sahip olmaları dikkat çekmiştir. Ay bazında incelendiğinde 2018 yılının Ağustos ve 2019 yılının Şubat ayında kuvvetli ilişki bulunduğu gözlemlenmiştir. Granger nedensellik analizi yapıldığında günlük ve haftalık periyotta duygu skorları ve Bist30 endeksinin birbirlerinin geçmiş değerlerinden etkilendiği; 9 hissede tek veya çift yönlü, 11 tane hissede ise günlük atılan tweet sayısı ile hisse fiyatı arasında nedensellik ilişkisi tespit edilmiştir. Tüm sonuçlar ayrıntılarıyla Bölüm 6'da açıklanmıştır. The aim of this study is searching the effect of the comments on the Twitter microblog site about opened-closed of the Bist30 and stock prices rates in daily, weekly and monthly periods.For this purpose, the data set of 57,933 supervised short messages, 20,276 unsupervised short messages and the opening and closing price differences of Bist30 index shared by users have public profile on Twitter microblog site between 05.07.2018 and 04.30.2019 were used as data set in the thesis study.57,933 twitter comments were classified into three categories as positive, negative and neutral by examining the sensitives of the sentences manually during this 12-month period.These classified data were tested by training with machine learning algorithms and among the algorithms, the highest success rate was selected and the classes were estimated on the test data set with random monthly and stock samples.These sensitives scores mentioned in Chapter 5 are called S1, S2, S3 and S4. Within the scope of the thesis, Pearson Correlation analysis was conducted between these 4 type of sensitives scores and Bist30 rates on daily, weekly and monthly basis. Pearson correlation does not analyze the causality of the relationship between variables.For the causality relationship between the variables, Granger causality analysis was applied and the results obtained were interpreted.For short messages to be detected and to be expressed with vectors by the computer, in except the traditional word bag model based on word-based N-grams, used Doc2Vec model based on Neural Networks. Logistic Regression, Support Vector Machine, Naive Bayesian, Decision Trees, K-Nearest Neighbor, Random Forest, Gradient Boosting and Maximum Voting Algorithms were used. As a result of the experiments, the best classification algorithm is Logistic Regression.Logistic Regression was used to estimate the classes of short messages in the unsupervised data set. Sensitives scores of positive and negative tweets were calculated for the new data set and statistical analyzes of the relationships between sensitives scores and Bist30 stock prices were provided.Between the opening and closing prices of the Bist30 index and the sensitives scores, it was found that there was a medium correlation on the daily and weekly periods, while it had a strong correlation such as 0.74 in the monthly period.On the basis of stocks, while it has a weak relationship in daily and weekly time periods, it is noteworthy that the stocks such as EREGL(Ereğli Iron and Steel Factories), ISCTR(Turkey Business Bank), TOASO(Tofaş Turk Automobile Factory) have strong relations in the monthly period.On a monthly basis, it was observed that the month of 2018 had a strong relationship in August and 2019 of February.When Granger Causality Analysis was performed, it was found that sensitives scores and Bist30 index were effects by each other's past values in daily and weekly periods; One or two-way stock prices and sensitives scores were determined in 9 stocks, and causality was determined between the number of tweets per day and stocks in 11 stocks. All results are described by detail in Chapter 6.
Collections