Semantic concept recognition from structured and unstructured inputs within cyber security domain
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Ontolojik yapılar üzerinden veri yayını ve veri ilişkilendirilmesi oldukça başarılı olmuştur.Başarı son derece yapılandırılmış veriler üzerinde anlamsal olarak zengin sorguları cevaplayabilmekten kaynaklanmaktadır. Oldukça yaygın olan bu bağlantılı veri yapılarının kullanımı siber güvenlik alanı içinde önemli yer tutmaktadır. Bu tez çalışmasının ana odak alanı siber güvenlik sınırları içerisinde bağlantılı veri yapısını kullanmak ve girilen metin bilgilerinden bu alana özgü bilgi çıkartıp anlamsallaştırmaktır. Sistemin temel çalışma ilkesi girilen metin içerisinde Ortak Zayıflık Numaralandırma (CWE), Ortak Platform Numaralandırma (CPE), Ortak Konfigürasyon Numaralandırma (CCE), Zayıflık Üretici İfadeleri (VVS) ile birlikte Milli Güvenlik Açığı Veritabanı (NVD) gibi var olan siber güvenlik veritabanlarından yararlanarak önemli ifade bulmak ve anlamsal kavramlara dönüştürmektir. Çıkartılan bu kavramlar siber güvenlik alanı içindeki varlıklar arasındaki tüm ilişkileri içerip RDF veri yapısı şeklinde temsil edilmiştir. İşlem yapılırken doğal dil işleme, anahtar sözcük çıkartma gibi yöntemler uygulanmıştır. Verilerin içeriğini geliştirmek amacıyla, Freebase, DBPedia graf veritabanları ve Wikipedia indeksleri kullanılarak ham veri, bilgiye dönüştürülmüştür. Bu operasyonların sonucu olarak, yapısal ya da yapısal olmayan herhangi bir metin kaynağı, güvenlik bağlamı içerisinde yorumlanır ve önceliklendirilebilinecektir. Bu bilgi daha sonra güvenlik açıklarını belirlemek ve önlemek için kullanılabilinecektir. Linked data initiative has been quite successful in terms of publishing and interlinking data over ontological structures. The success is due to answering semantically rich queries over highly structured data. The utilization of linked data structures are widely used in various domains to solve the problem of producing domain specific knowledge which can be interpreted by automated agents without any human interference. Cyber security field is one of the domains that suffer from the excessiveness of the raw data and lacking of the knowledge which constantly requires incorporation of subject matter experts in security analyzes or reasoning processes. The principle aim of this study is to propose an automated approach for cyber-security related knowledge base generation from scratch by utilizing from both structured and unstructured domain related data. The proposed approach is based on the automatic extraction of significant phrases and conversion of them into semantic concepts within the scope of already existing cyber security databases CWE, CPE, VVS and CCE. The system utilizes this raw data, differentiates the structured and unstructured parts which are processed in different modules for knowledge extraction. These concepts are represented in RDF format which includes all the relationships between entities to construct ontology for cyber security domain. To enhance the knowledge extraction process, NLP oriented approaches including Key Phrase Extraction methodologies are used and data augmentation techniques are applied to the concepts by interlinking them to the entities in Freebase and Wikipedia indexes. As a consequence of these operation series, a modular system is developed which is capable of extracting knowledge from the given cyber security related data. This accumulated knowledge constitutes a basis for cyber-security ontology which can be used for further vulnerability identification and prevention
Collections