Real-time encrypted traffic classification with deep learning
dc.contributor.advisor | Demir, Onur | |
dc.contributor.author | Ergönül, Deniz Tuana | |
dc.date.accessioned | 2023-09-22T12:31:02Z | |
dc.date.available | 2023-09-22T12:31:02Z | |
dc.date.submitted | 2022-03-01 | |
dc.date.issued | 2021 | |
dc.identifier.uri | https://acikbilim.yok.gov.tr/handle/20.500.12812/741141 | |
dc.description.abstract | Şifreleme algoritmalarının yaygınlaşması ve VPN (Sanal Özel Ağ) kullanımının artmasıyla trafik sınıflama zorlaştı. Sınıflama sayesinde spesifik trafikler için belirli aksiyonlar alınabiliyor (Bkz. farklı fiyatlandırmalar, çocuklar için güvenli internet), ağdaki trafiğe göre kaynaklar optimal şekilde kullanılmak üzere ayarlanabiliyor. Bu yönleriyle özellikle internet sağlayıcılarının ve devletlerin ilgisini çekmektedir. Port tabanlı, imza tabanlı, istatiksel metotlara dayalı geleneksel sınıflama yöntemlerinin dışında makine öğrenmesi (ML) ve derin öğrenme de popülerleşti. Trafik şifreli olduğunda paket içeriği okunamaz hale geldiği için sınıflama yapmak zorlaşabiliyor. Bu çalışma, paket yüküne bakmaması yönüyle şifreli trafik sınıflamada avantajlı. Yapılan çalışmaların çoğu, önceden toplanan paketlerle yapılmış olup gerçek zamanlı sınıflamanın sınırları görülememektedir. Bu çalışma, paket akışlarının kategori bazında sınıflanmasında bu sınırların şekillenmesine katkıda bulunmayı hedefler. Doğruluk ve paket işleme süresi bu çalışmanın kriterlerindendir. LSTM (Uzun Kısa Süreli Bellek) sekanslarla çalışabilmesiyle bu problem için uygun bir adaydır. Her paket akışı bir sekans olarak modellenebilir. Çalışmada, bu alandaki araştırmalardan biri uyarlanarak geliştirilen, istatiksel özniteliklerle eğitilen bir ML ve yeni bir LSTM modeli sunuldu. Geçmiş LSTM çalışmalarından farklı olarak, belirlenen sekans uzunluğunu aşan akışların paketleri ekarte edilmez. Öznitelikler yalnızca paket başlıklarından çıkarılır. Test için toplam 14 kategori kullanıldı: VPN olmayan, VPN, 6 VPN olmayan kategori, 6 VPN kategorisi. Testler, trafik kategorizasyonu için LSTM yaklaşımının doğruluk ve hız açısından geçerli olduğunu gösterdi. Referans makine öğrenimi yöntemiyle kıyaslandığında, LSTM, %50'ye varan doğruluk farklılıklarıyla öne çıktı. Uyarlanan algoritma doğruluk açısından orijinaline göre daha iyi sonuçlar verdi. LSTM ile doğruluk çevrimdışında 97.77%, gerçek zamanda 91.7% olarak ölçülmüştür. Paket işleme süresi 0.593 ms ile farklı bir LSTM yönteminden 5 kat daha hızlı olarak kayda geçmiştir. Akış-bazlı ML 99.83%, paket-bazlı ise 99.99% doğruluğa sahiptir. | |
dc.description.abstract | With the widespread use of encryption, and VPN (Virtual Private Network) usage increase, traffic classification became difficult. It provides a way to take certain actions for specific traffic (e.g., different pricing, creating a safe internet for children) and utilize resources to be optimally used according to traffic. It engages the attention of internet providers, and governments. Apart from traditional methods: port-based, signature-based, and statistical; machine learning (ML), and deep learning also started to become popular. When encrypted, traffic can be harder to classify as packet content becomes unreadable. This study gains an advantage for encrypted traffic as it does not examine payload. Most of the work done used pre-collected packets, limits of real-time classification are not visible. This work aims to contribute to the shaping of these boundaries. Accuracy and packet processing time are on the radar. LSTM (Long Short-Term Memory) is a good candidate for this problem as it can handle sequences. Each flow can be modeled as a sequence. By adapting one of the studies in field, an ML model trained with statistical features is presented along with a new LSTM model. Compared to other LSTM studies, packets are not discarded if their flow is longer than the preset sequence length. Features are extracted from packet headers only. 14 labels are used to test the proposed solutions in total: non-VPN, VPN, 6 non-VPN categories, 6 VPN categories. Tests showed that LSTM is valid for traffic categorization in terms of accuracy and speed. Compared to the reference ML method, LSTM excelled with precision and recall differences up to 50 percent. The adapted algorithm is more accurate than the original. Accuracy with LSTM was measured as 97.77 percent offline and 91.7 in real-time. Packet processing time was recorded as 0.593 ms which is 5 times faster than another LSTM method. Flow-based ML has an accuracy of 99.83 percent, while packet-based has 99.99. | en_US |
dc.language | English | |
dc.language.iso | en | |
dc.rights | info:eu-repo/semantics/openAccess | |
dc.rights | Attribution 4.0 United States | tr_TR |
dc.rights.uri | https://creativecommons.org/licenses/by/4.0/ | |
dc.subject | Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol | tr_TR |
dc.subject | Computer Engineering and Computer Science and Control | en_US |
dc.subject | Bilim ve Teknoloji | tr_TR |
dc.subject | Science and Technology | en_US |
dc.subject | Mühendislik Bilimleri | tr_TR |
dc.subject | Engineering Sciences | en_US |
dc.title | Real-time encrypted traffic classification with deep learning | |
dc.title.alternative | Derin öğrenme ile gerçek zamanlı şifreli trafik sınıflama | |
dc.type | masterThesis | |
dc.date.updated | 2022-03-01 | |
dc.contributor.department | Bilgisayar Mühendisliği Ana Bilim Dalı | |
dc.identifier.yokid | 10293276 | |
dc.publisher.institute | Fen Bilimleri Enstitüsü | |
dc.publisher.university | YEDİTEPE ÜNİVERSİTESİ | |
dc.identifier.thesisid | 710127 | |
dc.description.pages | 100 | |
dc.publisher.discipline | Diğer |
Files in this item
Files | Size | Format | View |
---|---|---|---|
There are no files associated with this item. |