dc.description.abstract | Günümüzde birçok farklı alanda yapılan çalışmalarda, veriden yola çıkarak tahmin yapmanın önemli bir etkisi vardır. Bu etki günlük hayattaki problemler için de geçerlidir. Uzun bir süre, bu tahminler istatistiksel yaklaşımlar kullanılarak yapılmıştır. Ancak yakın zamanda makine öğrenmesi teknikleri, yaptıkları düşük hata oranlı tahminlerle bu işlemlerde sıklıkla kullanılmaya başlamıştır. Resim ve dil işleme alanlarında makine öğrenmesi metotlarıyla ilgili yapılan birçok çalışma bu tekniklerin performansını kanıtlar niteliktedir. Ancak makine öğrenmesi teknikleri tahmin işlemlerinde istatistiksel metotları terk etmeye yetecek düzeyde çalışmakta mıdır? Spyros Makridakis bu soruya bir yanıt bulmak adına 1982 yılında `M-Competitions` ismi altında bir yarışma başlatmıştır. Bu yarışmada 1001 zaman serisi içinden seçilmiş 111 alt örnek üzerinde çalışılarak 15 farklı metot, çeşitli varyasyonlarla tahmin yapmak üzere programlandı ve bu metotların tahmin performansları karşılaştırıldı. Sonuç olarak karmaşık metotların basit istatistiksel metotlardan daha iyi sonuç vermediği ortaya çıktı. 1993 yılında ikincisi düzenlenen yarışmada da benzer sonuçlar elde edildi. Daha sonra 2000 yılında M-3 yarışması düzenlendi ve bu yarışmaya önceki yarışmalardan daha fazla araştırmacı, daha fazla metot ile katıldı. Değerlendirme için finans ve endüstri alanlarını da kapsayan birçok farklı alandan derlenen toplamda 3003 zaman serisi kullanıldı. Tahminlerin değerlendirme kriterleri için beş farklı hata metriği kullanıldı ve daha sonra yarışmanın sonuçları (Makridakis & Hibon, 2000) yayınında açıklandı. 2018 yılında yapılan M4 yarışmasında ise makine öğrenmesi tahmin metotları kullanılan algoritmalara eklendi. Bu yarışma sonunda sade makine öğrenmesi metotları istatistiksel metotlara oranla düşük performans gösterdiler. M yarışmalarında kullanılan verilerle farklı araştırmacılar çeşitli çalışmalar yapmışlardır. Bunlara (Ahmed et al., 2010) 'in yaptığı çalışmayı örnek gösterebiliriz. Ahmad ve çalışma arkadaşları 2010 yılında geniş kapsamlı bir karşılaştırma projesi yaptılar. Dönemin en önemli makine öğrenmesi metotlarının ve istatistiksel bazı metotların zaman serisi verisindeki tahmin performansını ölçtüler. Bu çalışma sonrasında kullanılan verinin sonuçları fazlasıyla değiştirdiği sonucuna vardılar.Biz de benzer motivasyonlarla bu tezi hazırladık. Projedeki amacımız; farklı alanlardan veriler kullanarak farklı tahmin algoritmaları çalıştırmak ve daha sonra bu algoritmaların performanslarını değerlendirmektir. Ancak, burada amacımız tek tek algoritma performanslarını yükseğe çekecek parametre ayarları yapmaksızın genel geçer bir performans değerlendirme deneyi tasarlamaktır. Bu deney çeşitli parametrelerin değişimine göre farklı sonuçlar verebilir. Bu bağlamda borsa, kriptopara ve iklim alanlarında veriler topladık. İstanbul borsasının günlük verilerini Borsa İstanbul'dan gerekli izinleri alarak tek bir dosyada birleştirdik, veri setini sadeleştirdik ve kullanıma hazır hale getirdik. Bitcoin ve Ethereum kriptoparalarının günlük değerlerinin olduğu bir veri seti oluşturduk. İklim verisi olarak da Madrid ve Macaristan olmak üzere iki farklı veri kullandık. Bu veriler üzerinde, içinde istatistiksel ve makine öğrenmesi metotları bulunan 17 farklı tahmin algoritmasını çalıştırdık ve belirlemiş olduğumuz hata metriklerine göre performanslarını değerlendirdik. Hata metrikleri olarak mean absolute error(MAE), mean squared error(MSE), root mean square error(RMSE), r-squared error(R2) ve tahmin algoritmasının çalışma süresini kullandık.Çalışmamızda farklı veriler kullanmamızın haricinde farklı deney parametreleri de uyguladık. Bunlardan ilki eğitme ve test kümelerini oluştururken ana veriyi farklı oranlarla parçalamaktı. İlk olarak tüm verinin /%15'ini eğitme kümesi, kalanını test kümesi olarak oluşturduk. Daha sonra bu oranı kademeli olarak arttırarak en sonda /%99 oranında eğitme kümesi olacak şekilde ayarladık. Bu deneyle eğitme/test kümelerinin büyüklük oranının sonuca olan etkisini inceledik. İkinci parametre olarak eğitme kümesini oluştururken ana veriden sıralı olarak veya rastgele seçim yapılmasını sağladık. Böylece sıralı veya rastgele seçimin sonuca olan etkisini incelemiş olduk. Tahmin algoritmalarını hem eğitme kümesi üzerinde hem de test kümesi üzerinde çalıştırıp hata oranlarını kıyasladık. Sonuçları değerlendirirken istatistiksel analiz yöntemiyle sonuca etkisi olan parametreleri araştırdık. Bu analiz sonucunda sonuca en çok etkisi olan parametrelerin test tipi, kullanılan algoritma ve veri olduğu, eğitme verisi oranının ise fazla etkisi olmadığı ortaya çıktı. Grafiksel değerlendirmede ise bu çalışmada kullandığımız veriler üzerinde istatistiksel yöntemlerin makine öğrenmesi yöntemlerine kıyasla daha iyi tahmin yaptığını gözlemledik. Özellikle LSTM'in bazı istisnalar hariç birçok durumda en düşük performansı gösterdiğini gördük. Doğrusal modellerin ise genel olarak yüksek performans gösterdiğini gözlemledik. Çalışma süreleri kıyaslandığında ise yine doğrusal modellerin makine öğrenmesi algoritmalarına göre çok daha hızlı çalıştığı gözlemlendi.Bu çalışmada kullandığımız verilerden en büyüğü olan Macaristan iklim verisi 96453 satır içeriyor. Verilerin bazı algoritmaların performans göstermesi için yeterince büyük olmaması sonucu etkilemiş olabilir. Dolayısıyla bu çalışmadaki bulguları genişletmek adına çok büyük verilerle aynı deneyler tekrarlanabilir. Ancak bu çalışmada kullandığımız veriler üzerinden ulaştığımız sonuç, zamansal verilerde tahmin yaparken istatistiksel metotların makine öğrenmesi metotlarına oranla hem daha performanslı hem de daha hızlı çalıştığıdır. | |
dc.description.abstract | Forecasting is considered as an important task in various domains. It has mass effect on several real-world systems. Until recent years, this task has often been realized by statistical approaches. But recently, machine-learning algorithms have been used for such predictions. Although the performance of machine learning algorithms has been proven for tasks like image processing and natural language processing(NLP), one should also prove their accuracy in forecasting and ask the question: `Are machine learning techniques working accurate enough to totally abandon statistical methods in forecasting?`In order to find an answer to this question, Spyros Makridakis started a competition in 1982 under the name `M-Competitions`. In this competition, 111 sub-samples selected from 1001 time series were used to program 15 different forecasting methods with certain variations. The forecasting performances were compared and evaluated. As a result, it was concluded that complex methods did not give better results than simple statistical methods. Similar results were achieved in the second competition held in 1993. Later in 2000, M-3 competition was organized with more researchers and more methods than before. A total of 3003 time series, which were gathered from many different domains including finance and industry fields, were used for evaluation. Five different error metrics were used for the evaluation, and the results of the competition were then announced in (Makridakis & Hibon, 2000). In the M4 competition held in 2018, machine learning forecasting methods were used in addition to the other algorithms from the previous competitions. At the end of this competition, simple machine learning methods showed lower performance than statistical methods. Different researchers have conducted various studies with the data used in M competitions. It is possible to show the work of (Ahmed et al.,2010) as an example. Ahmad and his colleagues made a comprehensive comparison project in 2010. They measured the forecasting performance of the most important machine learning methods and statistical methods on time series data. After this study, they concluded that the data used in the forecasting was highly influential to the results.We have prepared this thesis with similar motivations. Our aim in this project includes using data from different domains to run various forecasting algorithms. Then evaluate the performance of these algorithms and report the results. However, our research does not include fine parameter tuning for each algorithm to increase their accuracy but a more general performance evaluation. Thus, this research can give different results depending on the change in various parameters. In this context, we have collected data in the stock market, cryptocurrency and weather domains. We put together the daily data of the Istanbul Stock Exchange with the necessary permits from Borsa İstanbul in a single file, simplified the data set and made it ready for use. We created datasets with Bitcoin and Ethereum cryptocurrencies' daily closing values. We used two different weather data which are from Madrid and Hungary. On these data, we ran 17 different forecasting algorithms including statistical and machine learning methods. Then we evaluated their performance according to the error metrics we determined. In terms of error metrics we used mean absolute error (MAE), mean squared error (MSE), root mean square error (RMSE), R-squared error (R2) and execution time of the algorithm.In our study, other than using data from different domains, we also applied different experimental parameters. The first was to separate the main data at different rates while creating training and test sets. First, we used 15/% of all data as training set and the rest as test set. We then increased this ratio gradually and finally set 99/% of the main data as training set. With this experiment, we examined the effect of the size of the training / test sets on the outcome. As the second parameter, we created regular or random selection from the main data when creating the training set. In this way, we examined the effect of regular or random selection on the result. Also, we ran the forecasting algorithms both on the training set and the test set and compared the error rates.While evaluating the results, we investigated the parameters that have effect on the result by statistical analysis method. As a result of this analysis, it was found that the parameters that had the most effect on the result were the test type, the algorithm and the data used, and the ratio of the training data did not have much effect. In the graphical evaluation, we observed that statistical algorithms made better forecasting than machine learning algorithms on the data we used in this research. Particularly, we saw that LSTM, with some exceptions, had the lowest performance in many cases. But we observed that linear models generally had high performance. When we compared the execution times, we observed that linear models worked much faster than machine learning algorithms.The largest data we used in this research, which is the Hungarian weather data, contains 96453 lines. The fact that it is not large enough for some algorithms to perform may have affected the result. Therefore, the same experiments can be repeated with very large data to expand the findings in this study. However, the result we obtained from the data we used in this research was that the statistical methods are faster and more efficient than the machine learning methods when forecasting with temporal data. | en_US |