Metin dosyalarının birleştirilmesinde yakınlık ölçütlerinin kullanılması
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Parçalanmış dosyaların kurtarılması öncelikli olarak parçalanmış dosyalar arasındaki yakınlığın doğru bir şekilde değerlendirilmesine dayanır. Metin tabanlı dosyalar veriyi oldukça zayıf bir yapıda tuttuğu için parçaların birleştirilmesi işi zorlu bir iştir. Bu çalışmada, metin dosyalarının birleştirilmesinde kullanılan mevcut yakınlık ölçütlerini değerlendirdik. Aldığımız sonuçlara göre mevcut metotların her birinin de tek başına değerlendirildiğinde hedeflenen noktadan uzak olduğu görüldü. Daha sonra PTCR isimli yeni metodu tanıttık. Bu metot metin dosyaları içerisinde gerek dosya tanımı, gerek verilerin sunulması gerekse de verilerin işlenmesinde kullanılan oldukça sınırlı karakteristik yapılardan yakınlık değerleri çıkarmayı hedefleyen bir metottur. Yaklaşımımız, daha verimli yakınlık değerlendirmeleri elde etmek için dosya içerisindeki dosyaya özel olan etiket-kelimelerin sıralamaları üzerine istatiksel bir model kurmaktadır. Sonuçlara göre birleştirme performansı PTCR metodunun da katkısıyla dikkate değer bir iyileşme göstermiştir. Recovery of fragmented files relies on the ability to accurately evaluate the adjacency of two fragments. Text-based files typically organize data in a very weakly structured manner; therefore, fragment reassembly remains a challenging task. In this work, we evaluate existing adjacency measures that can be used for assembling fragmented test files. Our results show that individual performances of existing measures are far from adequately addressing this need. We then introduce a new approach that attempts to exploit the limited structural characteristics of text files which utilize constructs for description, presentation, and processing of file data. Our approach builds a statistical model of the ordering of file-type specific constructs and incorporates this information into adjacency measures for more reliable fragment reassembly. Results show that reassembly accuracy increases significantly with this approach.
Collections