Intrusion detection using big data and deep learning techniques
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Saldırı tespit sistemleri, gizli saldırıları temsil etmesi muhtemel anormal kalıpları aramak için ağ trafiğini analiz ederek saldırıları önlemek ve tespit etmek için tasarlanmış siber güvenlik alanındaki en önemli sistemlerden biridir. Hacim, hız ve çeşitlilik büyük verilerin özellikleridir. Geleneksel teknikleri kullanarak, büyük veri hacminin izlenmesini ve analiz edilmesini zorlaştıracak olan saldırı tespit sistemleri büyük zorluğunu temsil etmektedir. Bu çalışmada, büyük veri ve derin öğrenme teknikleri, izinsiz giriş tespit sistemlerinin performansını iyileştirmek için entegre edilmiştir. Ağ trafiği veri kümelerini sınıflandırmak için üç sınıflandırıcı kullanılır. Bunlar; Deep Feed-Forward neural network (derin ileri besleme yapay sinir ağı) ve iki topluluk öğrenme tekniğidir; Random Forest (Rastgele Orman) ve Gradient Boosting Tree (Gradyan Artırma Ağacı). Veri kümelerinden en alakalı özellikleri seçmek ve bunları değerlendirmek için homojenlik ölçümünü kullanıyoruz. Yeni yayınlanan iki veri seti UNSW-NB15 ve CICIDS2017, önerilen yöntemi değerlendirmek için kullanılmıştır. Makine öğrenim modelini değerlendirmek için bu çalışmada 5 kat çapraz doğrulama kullanılmıştır. Apache Spark Machine Learning Library(Apache Spark Makine Öğrenme Kütüphanesi) kullanılarak topluluk teknikleri uygulanırken, derin öğrenme tekniğini uygulamak için Keras Deep Learning Library(Keras Derin Öğrenme Kütüphanesi) ile entegre olan dağıtılmış bilgi işlem ortamı Apache Spark'ı kullanarak bu yöntemi uyguladık. Sonuçlar, DNS'nin UNSW-NB15 veri setinde ikili ve çoklu sınıf sınıflandırması için yüksek bir hassasiyet olduğunu ve çok kısa bir süre için öngörülen sürenin, ikili sınıflandırma için% 99,16, çoklu sınıflandırma için% 97,01 olduğunu ve GBT sınıflandırıcısının en iyi ikili sınıflandırma doğruluğunu elde ettiğini gösterdi. % 99.99 olan CICIDS2017 veri seti ve çok sınıflı sınıflandırma için DNN doğruluğu% 99.56 ile en yüksek seviyedeydi. Intrusion detection systems are one of the most important systems in cybersecurity that are designed to prevent and detect attacks by analyzing network traffic to look for abnormal patterns that are likely to represent hidden attacks. Volume, velocity, and variety are the characteristics of big data and represent the great challenge of intrusion detection systems, which will find difficult to monitor and analyze this large volume of data using traditional techniques. In this study, big data and deep learning techniques are integrated to improve the performance of intrusion detection systems. Three classifiers are used to classification the network traffic datasets, those are Deep Feed-Forward neural network and two ensemble techniques, Random Forest and Gradient Boosting Tree. To select the most relevant attributes from the datasets, we use a homogeneity metric to evaluate features. Two recently published datasets UNSW-NB15 and CICIDS2017 are used to evaluate the proposed method. 5-fold cross validation is used in this work to evaluate the machine learning model. We implemented the method using the distributed computing environment Apache Spark, integrated with Keras Deep Learning Library to implement the deep learning technique while the ensemble techniques are implemented using Apache Spark Machine Learning Library. The results showed a high accuracy of the DNN for binary and multiclass classification on UNSW-NB15 dataset and very short predicted time where accuracies are 99.16% for binary classification and 97.01% for multiclass classification. While the GBT classifier achieved the best accuracy of binary classification with the CICIDS2017 dataset, which is 99.99% and for multiclass classification the DNN accuracy are the highest at 99.56%.
Collections