A novel intrusion detection model based on TF.IDF and C4.5 algorithms
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Son yıllarda, Bilgisayarla Öğrenme ve Veri Madenciliği teknolojileri, IDS (İzinsiz Giriş Tespit Sistemi) performansını arttırmada çok etkili olmaktadır. Bu teknolojiler, zararlı ağ programlarını ayırt etmede kanıtlanmış etkili çözümlere sahiptir. Araştırmacıların sıklıkla karşılaştığı önemli sorunlardan biri de Bilgisayarla Öğrenme Algoritmaları aracılığıyla verileri etkili bir biçimde ele alınacak şekilde nasıl dönüştürüleceğidir. Bu tezde, daha yüksek tespit performansı sonuçları elde etmek amacıyla, bilgisayarla öğrenmede etkili ve normalleştirilmiş bir forma dönüştürmek için bir ön işlem operasyonu olarak, simülasyonu yapılmış UNSW-NB15 veri setini dönüştürmek suretiyle, karar ağacı C4.5 algoritmasına dayalı olarak bir IDS modeli sunmaktayız. Bu model, veri seti kalemlerinin önemini değerlendirmek amacıyla terim frekansı-evrik doküman frekansı (TF.IDF)'nı kullanmaktadır. Model, rasgele seçilen 250.000 UNSW-NB15 veri seti kaydı ile test edilmiş ve değerlendirilmiştir. Daha sonra, 50, 500, 1000, 4000 ve 5000 şeklinde çeşitli segment boyutlarına, her bir segment boyutu ise çoklu ve tekli sınıf veri setlerine ait iki alt sete bölünmüştür. Karar ağacı C4.5 algoritmasının performansını, Weka yazılımında MultilayerPerceptron(MLP) ve NaiveBayes ile karşılaştırdık. Son olarak, model sonuçlarımızı mevcut modellerle karşılaştırdık. Önerdiğimiz yöntem, sınıflayıcıların doğruluğunu anlamlı bir biçimde arttırmış, yanlış olarak tespit edilen olayları azaltmış olup 10 kat çapraz doğrulama elde edilmiştir. Doğruluktaki artış, çeşitli segment boyutlarındaki TF.IDF ile veri setinin etkin bir biçimde dönüştürülmesini yansıtmaktadır. In recent years, the use of Machine Learning and Data Mining technologies has been very effective in improving performance of Intrusion Detection System (IDS). These techniques have proven effective solution in distinguishing malicious network packets. One of the most important problems that researchers face with is how to transform data into a form that can be handled effectively by Machine Learning Algorithms. In this thesis, we present an IDS model based on decision tree C4.5 algorithm with transforming simulated UNSW-NB15 dataset as a preprocessing operation to convert data types to an efficient and normalized form for machine learning to achieve high detection performance results. It uses term frequency – inverse document frequency (TF.IDF) to evaluate the importance of dataset items. The model has been tested and evaluated with randomly selected 250000 records of the UNSW-NB15 dataset, then dividing it to various segment sizes as 50, 500, 1000, 4000 and 5000 records, each segment size was divided into two subsets of multi and binary class datasets. We have compared the performance of decision tree C4.5 algorithm with Multilayer Perceptron, and Naive Bayes in Weka software. Finally, we compared our model results with existing models. Our proposed method significantly improves the accuracy of classifiers and decreases the incorrectly detected instances and that have been achieved with 10 folds cross validation. The increase in accuracy reflects the efficiency of transforming dataset with TF.IDF of various segment sizes.
Collections