Stock value prediction using machine learning and text mining
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Dijitalleşen dünyada sosyal medya, toplumun büyük kesimi tarafından sıklıkla kullanılan duygu, düşünce ve yaşama ait her türlü paylaşımın sağlandığı platformlardır. Twitter ise insanların düşünce ve duygularını paylaştığı ve etkileşimin en fazla olduğu platformlardan biridir. Buradaki yorumlar ve fikirler, toplumun olaylara bakış açısının ve dünyada gelişen olayların analizinde dikkate alınması gereken en önemli veri kaynaklarındandır. Bu tezde örnek olay incelemesi olarak sosyal medya kaynaklarından Twitter platformu ile borsa verisi olarak İstanbul Borsası ve Bloomberg'deki Pegasus Havayolları A.Ş. ve Türk Hava Yolları A.O'ya ait verilerinden faydalanılmıştır. Twitter üzerinden elde edilen tweetlerin borsa verileri ile korelasyonu incelenmiştir. Twitter'dan günlük ve aylık bazda Phyton programlama dili ve Tweet Scraper kullanılarak belirlenen tarih aralığında dataların çekilmesi sağlanmıştır. Ön işleme aşamasında bu dataların temizlenmesi ve manuel olarak oluşturulan pozitif ve negatif sözlüklerden faydalanılarak tweetlerin pozitif ve negatif olarak etiketlenerek sözlük tabanlı yaklaşımla duygu analizi sağlanmıştır. Bu analiz belirlenen aralıklarla grafikler kullanılarak görselleştirilmiştir. İkinci aşamada ise Borsa İstanbul ve Bloomberg kaynaklı ham verilerin etkili, etkisiz ve gürültülü verilerin temizlenmesi sağlanmıştır. R Studio programı aracılığıyla test ve eğitim aşamalarında regresyon algoritmaları kullanılarak analiz edilmiştir. En etken verilerle yatırım yapılabilir veya yapılmamalı olarak analiz edilen verilerin görselleştirilmesi sağlanarak belirlenen dönemlerde etiketlenen sosyal medya verileriyle pozitif ve negatif korelasyonu incelenmiştir. In the digitalizing world, social media is a platform where all sorts of emotions, thoughts and life-sharing are frequently used by large segments of society. Twitter is one of the platforms where people share their thoughts and feelings and interact the most. Interpretations and opinions on the Twitter platform are the most important sources of data that need to be taken into account in the analysis of different aspects of the society's view of events that occur in the world.In this thesis, the data belonging to the Turkish Airlines Cooperation and Pegasus Airlines Cooperation on Twitter platform, as a social media source, and Istanbul Stock Exchange and Bloomberg Exchange Data were used within the scope of case study. The correlation between tweets obtained via Twitter and stock market value data has been examined. The data at the specified date range have been obtained from Twitter using the Phyton programming language on a daily basis via Tweet Scraper. In the pre-process phase, these data were cleaned and labeled as negative/positive using the manually generated positive and negative dictionaries, and the emotion analysis was provided by the lexicon based approach. This analysis was visualized using graphs at specified intervals. In the second stage, raw data originated from Istanbul Stock Exchange and Bloomberg Exchange was provided to clean effective, ineffective and noisy data. Numerical data were analyzed using data regression algorithms in the test and training phases via the R Studio program. Positive / negative / neutral correlation with the numerical labeled social media data determined in specified periods was examined by means of visualization of the data which were analyzed as best effective features for investable or non-investable model was provided. According to the results obtained, it was determined that the companies stock value are increased in the period when the positive data were increased as expected or not.
Collections