Show simple item record

dc.contributor.advisorZararsız, Gökmen
dc.contributor.authorÜnlüsavuran, Meltem
dc.date.accessioned2020-12-07T09:01:17Z
dc.date.available2020-12-07T09:01:17Z
dc.date.submitted2019
dc.date.issued2020-03-19
dc.identifier.urihttps://acikbilim.yok.gov.tr/handle/20.500.12812/119446
dc.description.abstractOmik çalışmalar sağlık alanında birçok problemi çözmeye yardımcı olmuştur. Omik teknolojiler yüksek miktarda veri üretmektedirler. Verilerden anlamlı bilginin elde edilmesi için istatistiksel analiz yöntemlerine başvurulmaktadır. Makine öğrenmesi, omik verilerden anlamlı bilgilerin elde edilmesi için sıklıkla kullanılmaktadır. Bu çalışma kapsamında sınıflandırma problemleri ele alınmıştır. Sınıflandırma problemlerini çözmek için çok sayıda makine öğrenmesi yöntemi bulunmaktadır. Araştırmacıların bu yöntemler arasından hangisini uygulayacaklarına karar vermeleri gerekmektedir. Uygulanacak yöntemlerin, ayarlanması gereken çeşitli parametreleri bulunmaktadır. Bu yöntem ve parametrelerden en uygun seçimin yapılması için otomatik makine öğrenmesi yöntemleri geliştirilmiştir. Otomatik makine öğrenmesi ile veri analiz sürecinin otomatik gerçekleştirilmesi hedeflenmiştir. Mevcut geliştirilmiş otomatik makine öğrenmesi yöntemleri, makine öğrenme sürecinin ön işleme, değişken seçimi, model seçimi, parametre seçimi gibi bazı basamaklarını otomatikleştirmiştir. Biz de bu çalışmada otomatik makine öğrenmesi yöntemlerinin omik veriler için performansını araştırdık. Kullanılan toplam 29 omik verisinden 16'sı mikrodizi verisi, 6'sı RNA-dizileme verisi ve 7'si metabolomik verisidir. Verilerin tamamı gerçek veri setleridir. Bu verileri sınıflandırmak için otomatik makine öğrenmesi yöntemlerinden H2O ve TPOT kullanılmıştır. Makine öğrenmesi yöntemlerinden ise RF, DVM ve NSC yöntemleri kullanılmıştır. Her bir yöntemin birbirlerine karşı avantaj ve dezavantajlarının araştırılması amaçlanmıştır.Analiz sonuçlarına göre mikrodizi verilerinden Alizadeh-V1, Armstrong-V1, Armstrong-V2, Bittner, Chen, Chowdary, Garber, Gordon, Laiho, Lapointe-V1 ve West; RNA dizileme verilerinden Alzheimer, Fare Embriyo, Fare Kök Hücre, Rahim Ağzı Kanseri ve Lemfoblastoid; metabolomik verilerinden ST000369, ST000389, ST000388, ST000390, ST000356 ve ST000391 ile H2O ve TPOT yöntemiyle en iyi sınıflandırma performansları elde edilmiştir. Toplam 11 veride ise RF, DVM ve NSC yöntemleriyle en iyi sınıflandırma performansları elde edilmiştir. Sonuç olarak her veri için kullanılabilecek en iyi performansı gösteren bir yaklaşım bulunamamıştır. Daha kesin değerlendirmelerin yapılabilmesi için gelecek çalışmalarda simülasyon çalışmaları ve daha farklı veri setleri ile denemelerin yapılması gerekmektedir.Anahtar Kelimeler: AutoML, Gen ifade verisi, Makine öğrenmesi, Omik veri, Sınıflandırma
dc.description.abstractOmics studies have helped solve many health problems. Omics technologies create large amounts of data. In order to obtain meaningful information from the data, statistical analysis methods are used. Machine learning is often used to obtain meaningful information from omics data.In this study, classification problems are discussed. Many machine learning methods exist to solve classification problems. Researchers must decide which of these methods to use. Methods to be applied have several parameters that need to be set. Automated machine learning methods have been developed in order to make the most appropriate selection of these methods and parameters.Automated machine learning is aimed at automating the data analysis process. The current developed automated machine learning methods have automated some of the steps of the machine learning process such as pre-processing, feature selection, model selection, parameter selection. In this study, we researched the performance of automated machine learning methods for omics data.Of the 29 omics data used, 16 were microarray data, 6 were RNA-sequencing data and 7 were metabolomics data. All data are real datasets. Automatic machine learning methods H2O and TPOT have been used to classify these data. Machine learning methods RF, SVM and NSC have been used to classify these data. It is aimed to research the advantages and disadvantages of each method against each other.According to the analysis results, the best classification performances for Alizadeh-V1, Armstrong-V1, Armstrong-V2, Bittner, Chen, Chowdary, Garber, Gordon, Laiho, Lapointe-V1 and West from microarray data, Alzheimer, Mouse Embryo, Mouse Stem Cell, Cervical and Lymphoblastoid from RNA sequencing datasets, ST000369, ST000389, ST000388, ST000390, ST000356 and ST000391 from metabolomics data were obtained by H2O and TPOT methods. The best classification performance in 11 datasets were obtained with RF, DVM and NSC methods. As a result, the best performing approach for each datasets could not be found. In order to make more accurate assessments, in the future studies should be conducted with simulation studies and experiments with different data sets.Keywords: AutoML, Gene expression data, Machine learning, Omics data, Classificationen_US
dc.languageTurkish
dc.language.isotr
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rightsAttribution 4.0 United Statestr_TR
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectBiyoistatistiktr_TR
dc.subjectBiostatisticsen_US
dc.titleOmik verilerinde otomatik makine öğrenimi algoritmalarının performansının değerlendirilmesi
dc.title.alternativePerformance evaluation of automated machine learning algorithmsin omics data
dc.typemasterThesis
dc.date.updated2020-03-19
dc.contributor.departmentBiyoistatistik Anabilim Dalı
dc.identifier.yokid10317693
dc.publisher.instituteSağlık Bilimleri Enstitüsü
dc.publisher.universityERCİYES ÜNİVERSİTESİ
dc.identifier.thesisid615974
dc.description.pages131
dc.publisher.disciplineDiğer


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

info:eu-repo/semantics/openAccess
Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess