Security level classification for confidential documents by using adaptive neuro-fuzzy inference systems

Alparslan, Erdem

View/Open

File_369615 (1.227Mb)

Date

2010

Author

Alparslan, Erdem

Metadata

Show full item record

Abstract

Son yıllarda güvenlik derecesi yüksek bilginin korunması, askeri ve kamusal kurumlarda zorlu bir uğraş haline gelmiştir. Bunun sonucu olarak iyi tanımlanmış güvenlik derecesi bilgi ve kurallarına her zaman olduğundan daha fazla ihtiyaç duyulmaktadır. Her bilgi parçacığı kendine özgü bir güvenlik derecesi barındırmaktadır. Bilginin kendine özgü güvenlik derecesinin doğru tespit edilebilmesi, o bilgi için doğru ve uygun koruma kurallarının oluşturulabilmesini de sağlar.Önceki çalışmalar İngilizce dilinde yazılmış haber metinlerinin sınıflandırılması üzerine hazırlanmıştır. Bu çalışmada, güvenlik derecesi sınıflandırması bulanık bir alanda gerçekleştirilmektedir. Bu nedenle, bulanık tahmin yöntemlerinin kullanılması bu çalışmada tutarlı güvenlik derecesi tespiti yapılabilmesi için kaçınılmaz olmaktadır. Uyumsal nöron-bulanık çıkarım sistemlerinin güvenlik derecesi sınıflandırması için iyi bir çözüm olabileceği üzerinde durulmuştur. Ayrıklaştırma algoritmaları yardımı ile güvenlik seviyesi skorlarından güvenlik etiketleri bulunacaktır.Güvenlik dereceli sınıflandırmanın ön işleme aşamaları diğer doküman sınıflandırma çalışmalarına benzer şekilde gerçekleştirilir. Verinin yapısal olarak tanımlanması onun TF-IDF denen özel bir forma dönüştürülmesi ile olur. TF-IDF formu her dokümanı bir satır ve her niteleyiciyi (sınıflandırma için kritik sözcükler) bir sütun olarak tanımlar. Doküman sınıflandırmanın çok boyutlu doğasından ötürü bir niteleyicinin seçimi için ön işlemeden geçirilmesi oldukça mantılıdır.Türkçe doküman sınıflandırmada bir ilave ön işleme problemi ile daha uğraşılmaktadır, bu da Türkçe doğal dil işlemedir. Gövde ayrıştırma işlemi niteleyicilerin gerçek TF-IDF değerlerinin hesaplanabilmesi için kaçınılmazdır. Türkçe sondan eklemeli bir dildir dolayısı ile Türkçe kelimelerin doğal dil işleme tabii tutulması daha zor olmaktadır.Doküman birbirini takip eden bölümler halinde organize edilmiştir. İlk bölüm konuya bir giriş yapmaktadır. İlerleyen bölümlerde sırasıyla uygulanacak algoritma ve çözümler, yeni oluşturulacak sınıflandırma ana çatısı için deneysel kurgu, deney sonuçları ve son görüş ve saptamalar ele alınmaktadır.

In recent years, protecting secure information became a challenge for military and governmental organizations. As a result, well defined security level contents and rules are more preferable than in the past. Each piece of information has its own security level. Correct detection of this security level may lead to apply correct protection rules on information. This study aims to develop a wide perspective classification framework for security critical documents written in Turkish.Recent studies on text classification are planned on the categorization of the news stories written in English. The framework proposed in this study aims to classify in a much fuzzier domain: security level classification. Thus using fuzzy inference systems are unavoidable to gain a meaningful success from security level classification. Adaptive Neuro-Fuzzy Inference Systems are fitting as a solution for fuzzy security level classification. The fuzzy results are discretized by using recent discretization algorithms and security labels will be extracted from security level scores.Preprocessing phases in security level classification is nearly similar to the other document classification problems. Making structured the textual data is provided by reformatting the data in TF-IDF form. TF-IDF representation holds each document as a row and each feature (critical words for classification) as a column. Because of the high dimensionality of document classification, a feature selection task is meaningful as a preprocessing task.Turkish document classification deals with an adscititious problem: Turkish natural language processing. Stemming process is essential for calculating the realistic TF-IDF values of features. Turkic languages are agglutinative languages. So stemming the Turkish words introduces a very difficult natural language processing problem.The document is organized in straightforward sections. First section makes an introduction to the problem. Next chapters are explaining the algorithm and solutions that are used, experimental settings to test the new framework, solutions of experiments and giving a conclusion and final discussion.

URI

https://acikbilim.yok.gov.tr/handle/20.500.12812/550715

Collections

TEZLER

Except where otherwise noted, this item's license is described as info:eu-repo/semantics/openAccess