Application of artificial neural networks to digital image compression

Aybar, Müjdat

View/Open

File_104273 (3.976Mb)

Date

2000

Author

Aybar, Müjdat

Metadata

Show full item record

Abstract

ÖZET Bu tezin temel amacı yapay sinir ağlarının dijital görüntülerin sıkıştırılması için kullanımının araştırılmasıdır. Dijital görüntülerin sıkıştırılması uzun zamandır araştırma konusu olmuş ve değişik uygulamalar için birtakım görüntü sıkıştırma standartları oluşmuştur. Sıkıştırmanın rolü her tür bilgi için iletişim bant genişliğinin ve hafıza gereksiniminin azaltılmasıdır. Yeni teknolojiler bugün geçmişten daha çok yüksek hızlı dijital bilgi iletişimi ve yüksek kapasiteli hafızalar sağlamakta ve görüntü sıkıştırması hala büyük önem taşımaktadır. Çünkü teknolojik gelişmelerle paralel olarak görüntü iletişimi ve yüksek kaliteli görüntü baskısı ve gösterimi için artmakta olan bir talep bulunmaktadır. Şu an için görüntü sıkıştırmada ana trendler geleneksel transform tabanlı yöntemler, vektör kuantalama ve wavelet tabanlı yaklaşımlardan oluşmaktadır. Dönüşüm tabanlı yöntemlerde, sıkıştırılacak görüntü üst üste binmeyen nxn pixellik bloklara ayrışılır. N-boyutlu uzayda her blok N-boyutlu bir vektör olarak düşünülebilir. Dönüşüm kodlaması bu vektör setini başka M-boyutlu bir uzaya (M<N) dönüştüren ve orijinal N-boyutlu uzaya geri dönüşüm sonucunda orijinal bilgiden en az sapmanın olduğu bir dönüşümdür. Lineer dönüşüm kodlaması için dönüşüm MxN boyutlu W matrisi olarak yazılabilir. Sıkıştırılmış vektör y, y = Wxo olarak ve geri dönüştürülmüş vektör de o/ = WTxy olarak hesaplanabilir. Buradaki problem belirli bir M değeri için o ve ol arasındaki sapmayı minimize edecek W matrisinin bulunmasıdır.Vektör kuantalamada. görüntü blokları bir eğitim algoritmasına tabi tutulup sonuçta resmi temsil edebilecek bir vektör grubu oluşturulur. Sıkıştırma işlemi bu vektör grubunun kullanımıyla yapılır. Son zamanlarda yapay sinir ağları görüntü sıkıştırmasında genel olarak iki amaç için kullanılmaya başlandı; doğal adaptiviteleri ve gerçek paralel mimarileri. Yapay sinir ağlarının ağır paralel uygulamaları, onların gerçek zaman ihtiyaçları için gerekli olan, bilgiyi yeterince hızlı işleyebilmeleri açısından (video yayını veya video bilgisinin saklanmasında gerektiği gibi) ilgi görmektedirler. Tezimizde yapay sinir ağlarının dijital görüntülerin sıkıştırılmasında kullanımı üzerinde çalışılmıştır. İlk olarak birinci katmanmdaki nöron sayısı ikinci katman nöron sayısından az olan bir yapay sinir ağı kullanılmıştır. Bu model giriş ve çıkış olarak bir vektör seti ve standart denetlenmiş sinir ağı öğrenme tekniği kullanılarak eğitildi. Eğitimden sonra elde edilen birinci katman katsayı matrisi W ve ikinci katman katsayı matrisi W T olarak alınıp bu model veri sıkıştırıcısı olarak kullanılabilir. Sıkıştırma, vektörün eğitilmiş ağın ilk katmanına uygulanması ve saklı katmanın çıkışlarının sıkıştırılmış bilgi olarak kullanılması ile elde edilmektedir. Aym ağın öğrenme setinde olmayan bilgiler için kullanımına izin veren, yapay sinir ağlarının genelleme yeteneklerini kullanarak aym W ve WT öğrenme setinde olmayan görüntüler için de kullanılabilirler. Sistemin performansı, görüntünün, quad tree tabanlı görüntü segmentasyon yöntemi ile işlendikten sonra sıkıştırılması ile artırılmıştır. Ayrıca DCT tabanlı sıkıştırma yöntemi değişik dijital görüntülere uygulanmış ve test sonuçlan nöral network tabanlı sıkıştırma için elde edilen sonuçlarla karşılaştınlmıştır.

ABSTRACT The basic objective of this thesis is to investigate the use of artificial neural networks for digital image_compression. Compression of digital images has been a topic of research for many years and a number of image compression standards has been created for different applications. The role of compression is to reduce bandwidth requirements for transmission, and memory requirements for storage of all forms of data. While today more than ever before new technologies provide high speed digital communications and large memories, image compression is still of major importance. Because along with the advances in technologies there is increasing demand for image communications, as well as demand for higher quality image printing and display. Current major trends in image compression include the traditional transform based methods, vector quantization, and wavelet based approaches. In transform coding, an image is subdivided into non-overlapping blocks of nxn pixels. Each block can be considered as a N-dimensional vector, N=nxn, in N-dimensional space. The transform coding is a transform which maps this set of vectors into another M- dimensional space (M<N) such that the inverse transformation to the original N- dimensional space leads to minimum deviation from the original. For the linear transformation coding, the transformation can be written as an MXN matrix W. The compressed vector y can be calculated as y = Wxo and the reconstructed vector can be calculated as ol = WTxy. The problem here is to find appropriate W that for specified M, minimizes the deviation between o and ol.Ill In vector quantization, the blocks in the image are entered into a training algorithm. Using this training algorithm, a codebook which can represent the image is obtained. The compression is achieved by using this codebook. Neural networks have recently been employed for image compression mainly for two reasons: their inherent adaptivity and their intrinsic parallel structure. Massively parallel implementations of neural networks have gained interest due to their capability of processing data fast enough to satisfy real time requirements (as the one imposed by video broadcasting or video storage). In our thesis we focus on applications of artificial neural networks to digital image compression. First we used a two-layered neural network model with the number of neurons in the first layer smaller than that in the second layer. The model is trained with a vector set as an input and as an output at the same time using standard supervised neural network training techniques. After training the resulting first layer weight matrix can be taken as W and the resulting second layer weight matrix will be WT, and this model can be used as a data compressor. The compression is achieved by applying input vector to the first layer of trained network and using the outputs of the hidden layer as compressed data. Exploiting the generalization capability of the neural network which allows the same network to be used for untrained data, the same W and WT can be used for untrained images. The performance of the compression system is further improved by using a preprocessing stage of quad-tree based image segmentation. Moreover, DCT-based image technique is also applied to different test images. The performance results for DCT- based and artificial neural network based compression methods are compared.

URI

https://acikbilim.yok.gov.tr/handle/20.500.12812/561807

Collections

TEZLER

Except where otherwise noted, this item's license is described as info:eu-repo/semantics/embargoedAccess