Learned frame prediction for video prediction
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Tüm video sıkıştırma algoritmaları içinde en önemli metotlardan biri haraket dengelemedir. Video çerçevesi tahmini, hareket dengeleme ile benzer bir problemdir. Son yıllarda çerçeve tahmini, derin sinir ağları (DSA) tarafından yapılmaktadır. Bu tezde öğrenilmiş çerçeve tahmini yapmak için bir DSA yaratıyoruz ve ek olarak bu DSA'yı kapsayan bir video kodlayıcı üretiyoruz. DSA'mızı iki farklı amaç doğrultusunda iki farklı yöntem ile eğitiyoruz. İlk olarak çerçeve tahmini ve video sıkıştırmada en yüksek doruk sinyal gürültü oranı (PSNR) değerlerini elde etmek amacıyla DSA'mızı ortalama karesel hatayı (OKH) baz alarak eğitiyoruz. Ardından görsel olarak daha gerçekçi çerçeve tahminleri yapmak için çekişmeli eğitim yöntemini kullanıyoruz. Çerçeve tahmininde, yöntemimizi, referans yöntemler olan çerçeve farkı ve 16x16 blok hareket dengeleme ile karşılaştırıyoruz. Video sıkıştırmada, karşılaştırmaya x264 video kodlayıcıyı da dahil ediyoruz. Çerçeve tahmininde, çekişmeli eğitimin, OKH ile eğilmiş DSA'ya göre daha keskin ve gerçekçi çerçeveler ürettiğini; ancak video sıkıştırmada sürekli olarak daha başarısız olduğunu gösteriyoruz. Bu sonuç, çekişmeli eğitimin insan gözüne daha hoş görünen video çerçeveleri üretmesine rağmen video sıkıştırmada kullanılmaması gerektiğini kanıtlıyor. Ek olarak, OKH ile eğitilen DSA, çerçeve tahmininde yüksek doğruluklu sonuçlar üretiyor; nicel sonuçlarda, iki problem için de, tüm videolarda diğer yöntemlerle kıyaslanabilir sonuçlar veriyor ve ortalama başarıda diğer yöntemleri geçiyor. Daha detaylı olarak, yüksek hareketli videolarda, öğrenilmiş çerçeve tahmini, bithızı-bozulma performansında diğer yöntemleri geçiyor; ve düşük hareketli videolarda x264 ile yarışabilir bir sonuç üretiyor. Motion compensation is one of the most essential methods for any video compression algorithm. Video frame prediction is a task analogous to motion compensation.In recent years, the task of frame prediction is undertaken by deep neural networks(DNNs). In this thesis we create a DNN to perform learned frame prediction andadditionally implement a codec that contains our DNN. We train our network usingtwo methods for two dierent goals. Firstly we train our network based on meansquare error (MSE) only, aiming to obtain highest PSNR values at frame predictionand video compression. Secondly we use adversarial training to produce visually morerealistic frame predictions. For frame prediction, we compare our method with thebaseline methods of frame dierence and 16x16 block motion compensation. For videocompression we further include x264 video codec in the comparison. We show thatin frame prediction, adversarial training produces frames that look sharper and morerealistic, compared MSE based training, but in video compression it consistently performsworse. This proves that even though adversarial training is useful for generatingvideo frames that are more pleasing to the human eye, they should not be employedfor video compression. Moreover, our network trained with MSE produces accurateframe predictions, and in quantitative results, for both tasks, it produces comparableresults in all videos and outperforms other methods on average. More specically,learned frame prediction outperforms other methods in terms of rate-distortion performancein case of high motion video, while the rate-distortion performance of ourmethod is competitive with x264 in low motion video.
Collections