Adaptive and hierarchical classifier fusion approaches for network attack detection
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Günümüzde bilgi teknolojilerinin gelişmesi ve yaygınlaşmasına paralel olarak bu sistemlerin güvenliğinin sağlanması sorunu ortaya çıkmıştır. Çok farklı cihaz ve teknolojinin internete bağlanması sistem ve ağı daha da karmaşıklaştırmıştır. Daha fazla bilgisayar, kişi ve cihazın internet ve bu ağa bağlanması saldırganların motivasyonunu artırmış ve daha fazla saldırıda bulunmaya ve güvenlik açığı bulmaya çalışmaktadırlar.Saldırganlar sadece şirket ve kişilere saldırmamakta devlet kurumlarına da sızmaya, veri çalmaya veya sistemi devre dışı bırakarak onarılması zor zararlar vermektedirler. Bu artan güvenlik zafiyetlerine karşı zamanla çeşitli yazılımsal ve donanımsal güvenlik çözümleri geliştirilmiştir. Bu güvenlik çözümleri zaman içinde gelişmiş ve tümleşik güvenlik çözümleri haline gelmiştir. Ayrıca saldırıganların sayısının artması ve yazılım ve donanımdaki gelişmeler saldırganların elindeki araçların güçlenmesine yol açmıştır. Bu sürekli değişen ve farklı varyantları çıkan virus, malmware, trojan, ve saldırı araçlarının tespit edilmesi zorlaşmştır. Ayrıca saldırı araçları çok sık değiştiği için buna uygun olarak güvenlik sisteminin güncellenmesi belli bir zaman almakta ve bundan sistem zafiyet yaşamaktadır.Bu sık değişen ve çeşitlenen saldırılar için mevcut sistem ve ağı öğrenen anomali tabanlı saldırı tespit sistemleri geliştirilmeye başlanmıştır. Makine öğrenmesi, yapay zeka ve bunları kullanarak model oluşturup entegre edecek yazılım ve donanımlardaki gelişmelerle beraber anomali tabanlı sadırı tespit sistemleri yaygınlaşmaya başlan- mıştır.Bu çalışmada makine öğrenme algoritmaları kullanılarak yüksek tespit ve düşük yanlış alarma sahip saldırı tespit sistemi geliştirilmsi hedeflenmiştir.İlgili çalışmaların gerçekleştirilmesi ve önerilen metodun sınanması için 2017 yılında Kanada Siber Güvenlik Ensitüsü tarfından oluşturulan veri kümesi kullanılmıştır. Bu veri kümesi laboratuvar ortamında oluşturulmuş günümüzün modern ağ trafiğini modellemiştir. Bu veri kümesi günlük normal aktivitelerini ve en yaygın saldırı türlerini içermektedir.Yaklaşık 2,8 milyon örnekten oluşmakta olup bu ağ trafik akışının 80 tane özelliği bulunmaktadır. Toplam paket boyutu, maksimum paket boyutu, ACK bayrak sayısı, geliş paket sayısı, oturum süresi vb. özellikleri içermektedir.Önerilen sistemde öncellikle veri kümesi bir takım ön veri işleme teknikleri kullanılarak temizlenip, hatalardan giderilmiştir. Ayrıca bazı kayıtlar silinmiş ve boş olan özellikler sınıf ortalaması ile doldurulmuştur. Veri ön işleme tekniklerinden sonra sistem karmaşıklığını azaltmak ve başarımı artırmak için özellik seçimi yapılmıştır. Özellik seçme yöntemi olarak, Anova F-puanını temel alan ve en yüksek skora sahip özellikler seçilmiştir. Özellik seçiminden sonra veri kümesi sınama ve eğitim kümesi olarak ayrılmış (%75 eğitim, %25 sınama) olup bu eğitim kümesi model eğitilmesi, doğrulama ve parametre optimizasyonunda kullanılmamıştır.Eğitim kümesi beş parçaya bölünmüş ve %15 doğrulama, geliştirme kümesi olarak kullanılmıştır. Sonuçlar kısmında belirtilen sonuçlar, sınama kümesi üzerindeki deney sonuçlarını göstermektedir.Önerilen sistem 3.aşamadan oluşmaktadır. 1.aşamada anomali tespiti için tüm saldırı türleri tek sınıfta toplanmış ve anormal (-1) olarak yeniden etiketlendirilmiştir. Normal trafik verileri (1) olarak etiketlenmiştir. Daha sonra oluşturulan bu veri kümesi %25 sınama, %75 eğitim kümesi olarak sınıf ağırlıkları korunarak ayrılmıştır. 1. aşama için 12 tane sınıflandırıcı (k en yakın komşu, destek vektör makineleri, karar ağaçları, topluluk yöntemleri vb.) ile eğitilip sınanmıştır. Öncellikle her sınıflandırıcı için olası hiper parametre listesi oluşturulmuş ve scikit-learn kütüphanesinden randomizedsearchcv kullanılarak en iyi hiper parametreler belirlenmiştir. Beş katmanlı çapraz doğrulama yöntemi kullanılarak çapraz doğrulam işlemi uygulanmıştır. Yani veri kümesinin %15 doğrulama/geliştirme kümesi olarak kullanılmıştır. Sınıf ağırlıkları farklı olduğu için en iyi başarım F1 puanına göre belirlenmiştir. Veri kümesi büyük (2,8 milyon örnek, 70 özellik) ve olası parametre kümesi büyük olduğu için yüksek başarımlı bilgisayarlar (UHEM) kullanılmıştır. Bu adımda saldırı tespiti için %99,92 doğruluk ve F1-puanına sahip model geliştirilmiştir. Bu aşamda `Extremely Randomized Trees` algoritması en başarılı sonucu vermiştir.İkinci adımda saldırı/girişim türünün belirlenmesi hedeflenmektedir. Bunun için sadece girişim/saldırı olan veri kullanılmıştır. Normal trafik bu adıma girmeden devam edecektir. Anormal olan trafik bu adımda işleme alınacaktır. Bunun için veri kümesinden sadece girişim/saldırı olan veriler alınmıştır. Sınıf etiketleri veri kümesi açıklamasında belirlenen etiketler bulunmaktadır. Bu adımda yine eğitim ve sınama aşamları için 12 tane sınıflandırıcı (k en yakın komşu, destek vektör makineleri, karar ağaçları, topluluk yöntemleri vb.) kullanılmıştır. Birinci aşamada gerçekleştirilen, sınıf ağırlıkları gözetilerek eğitim ve sınama kümelerine bölünmesi, en iyi hiper parametrelerin belirlenmesi, ve çapraz doğrulama işlemleri bu aşamada tekrar gerçekleştirilmiştir. Bunun yanında, veri kümesinde bazı saldırı türleri çok az örnek içermektedir. Bazı saldırı türleri de birbirine benzerlik göstermektedir. Daha iyi saldırı türü tespti için ikinci adımda ek olarak bu saldırı türleri tekrar sınıflandırılarak eğitim ve sınama işlemleri gerçekleştirilmiştir. Yapılan bu sınıf gruplandırılmasından sonra daha yüksek başarım ve tespit oranına sahip model elde edilmiştir. İkinci adım sonucunda en yüksek başarıma sahip dört tane sınıflandırı seçilmiştir. Bu sınıflandırıcılar kullanılarak son aşamada karar birleştirme metodları sınanmıştır. Veri kümesinin orjinal sınıfları kullanılarak yapılan deneylerde, %99,83 F1-puanına ve %99.84 doğruluğa sahip sistem geliştirilmiştir. Saldırı içeren örneklerin sınıfların yeniden gruplandırılması ile gerçekleştirilen deneylerde %99.98 doğruluk ve F1-puanına sahip sistem geliştirilmiştir.Son adımda, ikinci adım sonunda sonunda seçilen en yüksek başarıma sahip dört sınıflandırıcı ile karar birleştirme metodları sınanmıştır. Bu adımda karşılaştırma için 3 tane farklı metod kullanılmıştır. (1) En çok oyu alan sınıfın seçilmesine dayanan `majority voting`. (2) sınıflandırıcıların çıktılarında sınıf olasılıkların ağırlandırılarak karar birleştirme işlemini sağlayan metod. (3) Sınıflandırıcı ağırlıklarını her örnekte sınıflandırıcı hatasına göre güncelleyen `ADF` metodu kullanılmıştır. Bu üç karar birleştirme metodu ile sistem geliştirilmiştir.Bu farklı üç metodla ile yapılan deneylerde en yüksek başarıma, olasılık tabanlı ağırlıklandırılmış karar birleştirme algoritması sahip olmuştur. %99,84 doğruluk ve F1-puanına sahip sistem geliştirilmiştir. Ayrıca Makro-F1 olarak adlandırılan her sınıfın ağırlıkları ve örnek sayısı gözetilmeden yapılan puanlamada %92,61 başarıma ulaşılmıştır.Geliştirilen bu üç aşamalı hibrit saldırı tespit sistemi benzer çalışmalara göre daha yüksek doğruluk ve tespit oranına sahiptir. İlgili çalışmalar karşılaştırmalı olarak gösterilmiştir. In this thesis we aimed to develop, a machine learning based system that can detectanomalies and intrusions in computer networks with high performance. For thispurpose, three-step hierarchical methods were developed. An attack type detectionmodel was created by using different machine learning algorithms, and their outputsand weights were combined with decision fusion methods. In this way, a IDS witha high attack detection rate and a low false alarm rate was developed. The proposedmethod essentially has three steps. In the first step, we detect whether network trafficis normal or abnormal/attack. If the network traffic is normal, it does not enter thesecond step as normal, but if network traffic is abnormal data will be forward to thenext step. Several machine learning algorithms are used for building anomaly detectionmodels. In the second step, we built up models for determining attack type. In the firsttwo steps, twelve different machine learning algorithms were used separately. Thealgorithms with the highest scores were used. In addition, in order to achieve betterperformance and solve the problem of class imbalance in the data set, attack classeswere grouped in the second stage. In the last step, the best four classifiers with thehighest scores are used for decision fusion, which aims to detect attack type better.Majority voting, weighted average based majority voting and, online adaptive decisionfusion methods are compared. As experimental result, the proposed method has highintrusion detection rate and accuracy rate. A system with a 99.98% F1-score with a99.98% detection rate is developed by regrouping the classes. Also, 99.84% accuracyscore and 99.83% F1-score were obtained in the experiments conducted consideringthe original classes in the data set.
Collections