Optimization based predictive methods for large scale data
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Tahminleme geçmişten beri büyük öneme sahip olan ve gelecekte de güncelliğini yitirmeyecek bir konudur. Geçmişte ilkel yöntemlerle yapılan tahminleme günümüzde büyük verinin hayatımıza girmesiyle yerini büyük boyutlu verileri kullanabilen makine öğrenmesi algoritmalarına bırakmıştır. Makine öğrenmesi ile tahminleme yöntemleri, sınıflandırma ve regresyon problemleri olarak ikiye ayrılır. Bu tez çalışmasında büyük boyutlu veriler ile çalışabilecek farklı problemleri hedef alan üç makine öğrenmesi yöntemi geliştirilmiştir. Geliştirilen yöntemler matematiksel programlama ve eniyileme temellidir. İlk geliştirilen yöntem veriye etkin eleme yöntemleri uygulayan ``Büyük Boyutlu Sınıflandırma Problemleri İçin Arttırımlı Konik Fonksiyonlar (AKF)'' algoritmasıdır. Ayrıca bu yöntem bazı durumlarda doğrusal programlama (DP) problemi çözmeyi gerektirmez. İkinci yöntem ``Tek Sınıf Sınıflandırma için Tek Sınıf Çokyüzlü Konik Fonksiyonlar (T-ÇKF)'' algoritmasıdır. Bu algoritma sadece bir sınıfa ait veri olduğunda bile sınıflandırma yapabilir ve aykırı noktaları belirleyebilir. Son yöntem, veri boyutu büyük olduğunda ``kümeleme temelli doğrusal regresyon'' problemi için geliştirilmiştir. Tüm yöntemler gerçek hayat veri kümeleri üzerinde test edilmiş ve yazındaki iyi bilinen yöntemler ile karşılaştırılmıştır. Geliştirilen yöntemlerin eğitim ve test zamanları kısa olduğu için bu yöntemleri bir çok gerçek hayat problemine uygulamak mümkündür. The prediction has historically been a topic which is of great importance and will not lose interest in the future. The prediction was made with primitive methods in the past. However, with the introduction of large scale data to our lives, primitive methods have left its place to the machine learning algorithms. Prediction methods with machine learning are split into two sub-problems as classification and regression. In this thesis, three novel machine learning methods have been developed which target different problems that can work with large scale data. The proposed methods are mainly based on mathematical programming and optimization. The first method is ``Incremental Conic Functions (ICF) Algorithm for Large Scale Classification Problems'' which applies an efficient data reduction method to the data. Furthermore, it does not require to solve a linear programming (LP) problem in some cases. The second method is ``One-Class Polyhedral Conic Functions (O-PCF) Algorithm for One-Class Classification.'' This method can classify data points and detect outliers when the data is only available from one class. The last method is developed for ``clusterwise linear regression'' when the data size is large. These methods are tested on real-life datasets and compared with the well-known methods in the literature. It is possible to apply these three methods to real-life problems because of the short training and test times.
Collections