The effects of preprocessing methods on prediction of traffic accident severity
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Bu çalışmanın amacı farklı veri ön işleme yöntemlerinin trafik kazalarının şiddetini sınıflamadaki tutarlılığı üzerindeki etkisini incelemektir. Bu amaçla altı farklı sınıflama yöntemi, J48, Ibk, Random Forest, OneR, Naïve Bayes ve SMO, kullanılarak 2005-2015 yılları arasında Adana ilinde meydana gelen trafik kazalarını içeren ve %99 yaralanmayla, %1 ölümle sonuçlanan kazalardan oluşan veri seti üzerinde sınıflama yapılmıştır. Çeşitli veri azaltım ve veri çoğaltım yaklaşımları denenerek, verideki dengesizlikten kaynaklanan problem çözülmeye ve sınıflama tutarlılığı arttırılmaya çalışılmıştır. Analiz sonuçlarına göre en iyi sınıflayıcı yöntem ve veri ön işleme yöntemi belirlenmiştir. Buna göre, SMO neredeyse tüm analizlerde daha üstün bir performans sergilemiştir, ve en yüksek tutarlılık oranlarına ise eşit oranlarda ölümlü ve yaralanmalı kaza içeren, veri azaltımı uygulanmış veri kümesiyle ulaşmıştır. The purpose of this thesis is to investigate the effects of different preprocessing approaches on the prediction accuracy of classifiers regarding the severity of traffic accidents. For this aim, six different classification methods, including J48, Ibk, Random Forest, OneR, Naïve Bayes and SMO have been used on an imbalanced dataset consisting of 99% nonfatal and 1% fatal traffic accidents that took place in Adana between 2005 and 2015. Various undersampling and oversampling approaches are tried to solve the imbalance problem and improve the classification accuracy. Then, the results of each method are compared to determine the best classifier and preprocessing method. Accordingly, SMO has attained higher accuracy in nearly all analyses, and it has produced the highest scores with the undersampled dataset consisting of equal amount of nonfatal and fatal instances.
Collections