Deep learning based three dimensional face expression recognition using geometry images from three dimensional face models
- Global styles
- Apa
- Bibtex
- Chicago Fullnote
- Help
Abstract
Tez, bir kişi duygularını göstermeye çalışırken 3B yüz ifadelerinin tanınmasını inceler. Bu ifadeler deneyimsiz insanlar için tespit ve tanıma problemini zorlaştırır. Bilgisayar görüşünde 3B yüz ifadesinin tanınmasının bir motivasyonu, insan davranışının otomatik olarak tanınmasıdır. Çok çeşitli disiplinler fenomenin ortaya çıkmasında etkilidir, örneğin; insan robot etkileşimi, güvenlik hizmetleri, psikologlar, öğretmenler vb.3B yüz modellerinin geometri görüntülerine dayanarak 3B yüz ifadelerini tanımak için bir yöntem öneriyoruz. Geometri görüntüleri, bir 3B ağın bir kare alan üzerine açılmasıyla elde edilir. İfade olgusu, geometriye dayalı yaklaşımda bir değişikliğe neden olur. Önerilen yöntem, doğru ifade sınıflandırması yapmak için ImageNet'te önceden tanımlanmış VGG derin sinir ağı modelini kullanır.Tez aşağıdaki gibi yapılandırılmıştır. Bölüm 1, 3B yüz ifadesinin görevini tanıtmaktadır. Bölüm 2, ağ işleme boru hattı hakkında ayrıntılı bilgi verir. Bölüm 3, derin sinir ağlarını kullanarak önerilen yöntemi açıklar. 4. Bölüm, uygulama detayları ile birlikte 3D yüz ifadesi tanıma için önerilen boru hattını sunmaktadır. Bölüm 5, tezin sonucuna varıyor.Bölüm 1, 3B yüz ifadesinin görevini açıklamaktadır. Bu alanla ilgili ilk araştırma, yetmişlerin önceden belirlenmiş ön koşucu çalışması ile birlikte yetmişli yıllardan beri var. Bu çalışma içerisinde, üzüntü, mutluluk, iğrenme, öfke, sürpriz, korku ve nötr görünüm gibi, altı kategoriye ayrılabilecek bazı temel yüz duygularının ortaya çıktığı gösterilmiştir. Yüz ifadelerinin bu sınıflandırmasının birkaç millet ve toplum üzerinde de uyumlu olduğu gösterilmiştir; Bu nedenle, bu duygular `her durumda` belli bir algı ile tanınabilir.Bu çalışma içinde, Yüz Eylem Kodlama Sistemi, aynı şekilde eylem birimleri tarafından tanımlanan yüz alanlarının hareketi arasındaki yüz duygularını ifade etmeyi tanımlamıştır. Çalışma, birçok bilim insanını yüz boyutlarını (örneğin yüz özellikleri) izleyerek 2 boyutlu olarak incelemek için motive etti ve bu özelliklerin her biri duyguları durağan resimler veya video kasetler içinde ayırarak geçirdiği yüz hareketi sayısının ölçümlerini de aldı. Her prosedür, iki boyutlu olarak büyüdü ve bu yüz özelliklerinin yüz birimlerinin uzunluğu uzarken, bu işaretler kategorizasyon çerçevelerinin girdi verileri olarak kullanılıyordu. Daha sonra, sınıflandırmadan elde edilen sonuç yüz duygu kategorilerinden bir tanesidir. Bu bakış açıları çoğunlukla, birkaç farklı yüz duygularını ayırt etmek için kullanılan sınıflandırma algoritmasına ek olarak seçilen yüz noktaları içinde değişir.Bölüm 2, ağ işleme boru hattı hakkında ayrıntılı bilgi verir. Günümüz grafik donanımında kullanılan standart geometrik gösterim düzensiz ağdır. Bir kafes, bir üçgen dizisinden ve her üçgenin üç köşe dizinine başvurduğu bir köşe dizisinden oluşur. Kafeslere göre daha fazla ayrıntı göstermek için doku eşlemenin kullanılması yaygındır. Ağ köşeleri, ağın bir UV alanı üzerine parametrelenmesini tanımlayan doku koordinatlarına atanır. Bu alan üzerine bir görüntü yerleştirilir ve ardından tekrar yüzeye eşlenir. Bu durumda, doku görüntüsü, piksel başına gölgelendirmede kullanılabilecek yüzey normlarını temsil eder. Remeshing'deki önceki çalışmalar, daha düzenli geometrik temsiller yaratmanın yolunun bir parçası oldu. Ancak, bu tür yöntemler hala sadece yarı düzenli olan bir örneklemeye yol açan düzensiz bir temel ağ kullanmaktadır. Yaklaşımımız, bir geometri görüntüsü denilen bir kare alan üzerinde tamamen düzenli bir numune ızgarası kullanarak keyfi bir yüzey kullanmaktır. 257 x 257 piksele sahiptir. Tek fark, normal 8 yerine kanal başına 12 bite sahip olmasıdır. RGB renkleri XYZ konumlarını kodladığından geometri görüntüsü olarak adlandırılır.Yüz ifadesi analizi, çeşitli uygulamaları ve amaçları nedeniyle çok sayıda bilim insanını cezbetmiştir. İfade analizinde önemli bir rol oynar, dolayısıyla insan-bilgisayar etkileşimi sistemlerinin gelişiminde rol oynar. Ek olarak, yüz hareketleri ve yüz özellik bozulmaları hakkında ön anlayış sağlayarak yüz tanıma sistemlerini güçlendirebilir. Yanak alanı dikkate değer sayıda ayırt edici ayrıntı içerdiği için bu özellikle etkileyicidir, ayrıca yüzdeki çarpıklıkların çoğunun gerçekleştiği yerdir. Bununla birlikte, çeşitli kullanımlar, psikoloji ile ilgili analizler, yüz animasyonu, yorgunluk tespiti, sanal gerçeklik ve robotik ile sınırlı değildir. Yüz ifadeleri, hem yüz dokusunda hem de geometride kısa süreli yüz distorsiyonu sonucu oluşan kaslar kasıldığında meydana gelir. Önceden, ifade tanımanın dikkat merkezi, videolar ve görüntüler gibi yaygın veri varlığından dolayı iki boyutlu bir etki alanıydı. 2D yüz ifadesi tanıma (FER) sistemleri olağanüstü bir başarı sağlasa da, şimdi bile aydınlatma ve 2D ifadesi tanımadaki farklılıkları ortaya koyma gibi zorluklarla karşı karşıyayız. Bununla birlikte, üç boyutlu veriler, bu değişikliklere göre değişmez ve doğası gereği büyük miktarda bilgi sağlar.Geçmişte, bir yüz ifadesi tanıma çerçevesinin tipik özelliklerinin bir listesi yapılmıştır. İlgi çerçevesi, çözüm yöntemlerinden dönüm noktası yerelleştirme, aydınlatma normalleşmesi ve yüz tanıma gibi çeşitli bilgisayarlı görme araştırma sorunlarına kar sağlayacaktır. Ayrıca, verilerin modeline bağlı olarak, ilgili zorluklara ek olarak, bu hedeflere ulaşma yöntemleri çeşitli olabilir. Örneğin, 3 boyutlu verileri kullanarak, poz tahmin problemini atlayan tekdüze geometrik özellikleri çıkarmak için geniş çapta sert kafa hareketlerini idare etmek mümkündür. Doğası gereği, üç boyutlu veriler aydınlatma değişikliklerinde değişmez. Bu nedenle, aydınlatmadaki değişiklikleri işlemek için atanan bir birim artık istenmemektedir. Bununla birlikte, tamamen otomatik bir FER çerçevesi gerektiğinde, bu görevleri ele almak için uygun birim veya tedarik düzenlemesini seçmeliyiz; örneğin, ilişkili dokuya sahip 3B veriler. Mevcut çeşitli araştırmalar, genel bir otomatik çerçeve oluşturmak yerine, örneğin ifade sınıflandırması ve özellik hesaplaması gibi 3D FER'in temel sorunlarını tamamen ele almaktadır. Değerlendirme için, kırpılmış 3D modellerini sağlayan BU-3DFE veritabanını kullanıyoruz, bu nedenle yüz tanıma artık gerekli bir adım değil. Ayrıca, özellik çıkartma işleminin yapılacağı manuel olarak eklenmiş dönüm noktası nedeniyle ek bir adım atlıyoruz.Yüz ifadesi tanıma yaklaşımımız, 3D kaydının (hizalamanın) özellikle geometrik yaklaşımlarda temel bir adım olduğunu göstermektedir. Aslında, hizalamadaki bir hata, yöntemimizin sonraki adımlarında veya diğer farklı yaklaşımlarda düzeltilemeyebilir. Sonunda, mevcut yüz ifadeleriyle bile doğru ve sağlam bir uyum sağlayan bir kayıt tekniğini temsil ediyoruz. Geleneksel fikir, referans olarak aynı yüz modelini kullanarak ve kafes işleme boru hattında birincil adım olarak kullanarak her fileye poz düzeltmesi uygulamamızdır. Hizalama, döndürme ve çevirmeyi içeren katı bir dönüşümü değerlendirir. Hizalama yöntemimiz Yinelemeli En Yakın Nokta algoritmasını kullanır. Algoritma, iki farklı yönelimli üçgen ağ arasındaki mesafeyi azaltarak hizalama görevini ele alır.Bölüm 3, derin sinir ağları kullanarak önerilen yöntemi açıklamaktadır. Geleneksel olarak, özellik çıkartma araştırması, büyük ölçüde Gabor ve Haralick özellikleri gibi el yapımı özelliklere odaklanmıştır. Bu el yapımı özelliklerin birçoğu, sınıflandırma yapmak için sağlam özellik vektörleri üretmek üzere görüntülerdeki piksel varyasyonlarını kodlar. Bunlara dayanarak, özellik vektörlerindeki rotasyon ve ölçek değişikliklerini kodlayan daha karmaşık el yapımı özellikler de önerilmiştir. Eğitim verilerinin kullanılabilirliği ile araştırmacılar öğrenmeye dayalı tekniklere odaklanmaya başlamış ve birkaç temsili öğrenmeye dayalı algoritmalar ortaya çıkmıştır. Dahası, öncül, makineleri insanlar tarafından en kolay şekilde gerçekleştirilen işler için eğitmek olduğu için, insan beyninin işleyişini anlamak ve taklit etmek uygun görünüyordu. Bu, araştırmacıların, derin öğrenme alanına yol açan karmaşık görevleri otomatikleştirmek için benzer yapıları yeniden üretmelerine neden oldu. Derin öğrenme araştırmaları, tek bir beyin nöronunun davranışını taklit edebilen bir algılayıcının tek birimi ile başladı. Perceptron, aşağıdaki şekilde girdiyi temel alan bir çıktı üretir: buradaki wi, girdi içindeki it elemanının ağırlığına karşılık gelir. Algılayıcının davranışının bir nöronunkine benzer olduğu söylenir, çünkü sabit bir eşiğe bağlı olarak, çıkışın 1 veya 0 olacağı söylenir. ağırlık) çıktısını ateşlemek. Algılayıcının bir yapı taşı olarak ele alınmasıyla, çeşitli karmaşık mimariler ileri sürülmüştür. Son zamanlarda, derin öğrenme alanı dik bir gelişme gördü. Biyometrik, nesne tanıma, konuşma ve doğal dil işleme alanındaki uygulamalarla ilgili birçok sorunu çözmek için kullanılmaktadır. Derin öğrenme mimarileri genel olarak üç paradigmaya ayrılabilir: kısıtlı Boltzmann makineleri (RBM'ler), otomatik kodlayıcılar ve evrişimli sinir ağları (CNN'ler). Otomatik kodlayıcılar ve Sınırlı Boltzmann makineleri, verilen verilerin anlamlı temsillerini öğrenmek için kullanılan geleneksel olarak denetlenmeyen modellerdir. Öte yandan, CNN'ler genel sınıflandırma performansını iyileştirmek amacıyla geleneksel olarak denetlenen modellerdir.4. Bölüm, uygulama detayları ile birlikte 3D yüz ifadesi tanıma için önerilen boru hattını sunmaktadır. BU-3DFE veri tabanı araştırma için kullanılmıştır. Veri setinde mevcut olan 100 kişinin tamamı erkek (44 kişi) ile kadın (56 kişi) arasında ayrılmıştır. Şahsiyetler, Orta Doğu Asya, Latin Amerikan, Doğu Asya, Siyah, Beyaz ve diğerlerini içeren çeşitli ulusal kategoriler ve etnik kökenler arasında etkili bir şekilde bölünmüştür. Her konu altı basit yüz ifadesini, özellikle de sürpriz (SU), üzüntü (SA), öfke (AN), mutluluk (HA), iğrenme (DI), korku (FE) ve ayrıca nötr durumu (NE) gösterir. Her yüz duygusunun nötr yüzleri hariç olmak üzere dört yoğun aşaması vardır - toprak, orta, güçlü ve üst.VGGNet model yapısı 2014 yılında duyurulmuştu. Sinir ağı, mimarinin sadeliği göz önüne alınarak, birbiri ardına istiflenen sadece 3x3 evrişim katmanları kullanılarak ayırt ediliyor. Hacim küçültme büyüklüğü, maksimum havuzlama kullanılarak aşılır. Son olarak, her biri 4,096 nöronlu her biri birbirine bağlı iki katman, daha sonra softmax sınıflandırma fonksiyonu ile takip edilir. 2014'te, 19 ve 16 katmanlı sinir ağları, ImageNet kullanılarak ve CIFAR'a göre 1000'den fazla istiflenmiş katmanın yanı sıra, 50 ila 200 katman arasında başarılı bir şekilde modellenebilecek ResNet'e sahip olmamıza rağmen, son derece derin olarak değerlendirildi. 10, küçük ölçekli bir veri kümesidir. Simonyan ve Zisserman, VGG19 veya VGG16'yı eğitmenin özellikle daha derin sinir ağları kullanırken yakınsama göz önünde bulundurarak rekabetçi olduğunu, bu nedenle daha kolay bir eğitim süresi elde etmek için başlangıçta daha az sayıda öğrenilebilir ağırlıkla birlikte küçük VGGNet çeşitlerini eğitmişlerdir. Daha az katmanı olan ağlar, daha sonra daha derin, daha büyük sinir ağlarının başlangıç ??durumuna getirilmesi gibi daha sonra kullanılmaları için hızlı bir şekilde birleşir - prosedür, ön hazırlık olarak da bilinir. Mantıklı bir şekilde mantıklı bir şekilde düşünürken, önceden eğitmek, daha derin bir sinir ağında bir başlatıcı gibi hizmet etmeden önce modellenmesi ve öğrenilebilir ağırlıklar elde edilmesini gerektiren tam bir sinir ağının modellenmesini ve son derece zaman kaybettirmesidir. Vakaların çoğunda pretörlüğü kullanmayı da tercih etmiyoruz ve alternatif olarak genellikle He ve diğerleri olarak bilinen Xaiver / Glorot başlatıcısı ve MSRA başlatıcısı öneriyoruz. başlatıcısı. Sinir ağlarının yakınsaklığının yanı sıra ağırlıkların nasıl başlatılacağının önemi, hem tamamen önemli araştırma konularıdır hem de bu tezin kapsamı değildir.Bölüm 5, tezin sonucuna varıyor. 3B etki alanında denemenin önemi, 3B modellemenin aydınlatma, farklılıklar ortaya koyma vb. Gibi 2B dezavantajları iyileştirmesidir. Bu nedenle, iyi bir tanıma yöntemine sahip olmak insan bilgisayar etkileşimi, ceza soruşturması, havaalanı güvenliği veya psikolojik inceleme için yararlı olabilir. Bir geometriye dayalı tanıma yöntemi önerilmiştir. Yöntem, 3D yüz modelleri kullanılarak elde edilen geometri görüntülerinden 3D ifadelerini tespit etmek için tasarlanmıştır. Metot, bir 3D ağın belirli kesim yollarını kullanarak kare bir alana açılmasını temel almaktadır. BU-3DFE veritabanı, 3D etki alanında en yaygın kullanılan veritabanlarından biridir. BU-3DFE'nin 3D anlatım modelleri kullanılarak oluşturulan kendi geometri imaj veritabanımızı kullanıyoruz. Orijinal veri tabanında 2500 yüz model ve GIM veri tabanında 2500 adet geometri görüntüsü bulunmaktadır. Önerilen yöntem hem GIM hem de BU-3DFE veritabanlarında değerlendirildi. Sınıflandırma sonuçlarını elde etmek için VGG derin sinir ağı modeli kullanılmıştır. İfadelerin diğer tanıma çerçevelerine benzer puanlar verme eğiliminde olduğunu gözlemledik. Geometri görüntüleri üzerinde denemeler yapmaya devam ediyoruz ve en gelişmiş sonuçları iyileştirmek için daha yüksek tanınırlık hassasiyetine sahip daha sofistike bir sınıflandırıcı tasarlamak mümkün olabilir. Deneysel sonuçlarımız VGG16 modelinin geometri imajı veritabanında en iyi 81,4/% sınıflandırma doğruluğuna sahip olduğunu göstermektedir. Sonuç olarak, sonuçlar, önceden eğitilmiş bir VGG16 ağının, ifade modellerinin 3B geometri piksellerinden karmaşık bilgileri kullanabildiğini ortaya koymaktadır. Sonuçlarımız ayrıca, sinirsel ağların yüz ifadesi tanıma görevinin yanı sıra 3B etki alanında uygulanmasına dair değerli sezgiler üretiyor. The thesis studies the recognition of 3D facial expressions when a subject is attempting to show her/his emotions. These expressions make the detection and recognition problem difficult for inexperienced people. A motivation of 3D face expression recognition in computer vision is an automatic recognition of human behaviour. A large variety of disciplines may benefit from revealing the phenomenon, e.g. human robot interaction, security services, psychologists, teachers, etc. We propose a pipeline to recognize 3D facial expressions based on geometry images of 3D face models. Geometry images are obtained opening up a 3D mesh onto a square domain. The expression phenomenon results in a change in geometry based approach. The proposed method uses VGG deep neural network model pretrained on ImageNet to make accurate expression classification. The thesis is structured as follows. Chapter 1 introduces the task of 3D facial expression. Chapter 2 gives the datailed information about mesh processing pipeline. Chapter 3 describes the proposed method using deep neural networks. Chapter 4 presents the proposed pipeline for 3D facial expression recognition with implementation details. Chapter 5 concludes the thesis.Chapter 1 describes the task of 3D facial expression. The initial research on this area has existed since the seventies accompanied by the front runner study established previosuly. Within this work, this is showed that several principal facial emotions occur that might be classified into six category, that is to say, sadness, happiness, disgust, anger, surprise, fear and as well as the neutral appearance. This classification of face expressions has been also demonstrated to be compatible over several nationalities and societies; therefore, these emotions are in certain perception `in all cases` recognizable.Chapter 2 gives the datailed information about mesh processing pipeline. The standard geometric representation used in today's graphics hardware is the irregular mesh. A mesh consists of an array of triangles, and an array of vertices, where each triangle refers to three vertex indices. To represent more detail over meshes, it is common to use texture mapping. The mesh vertices are assigned texture coordinates, defining a parametrization of the mesh onto an UV domain. An image is placed on this domain, which is then mapped back to the surface. In this case, the texture image represents surface normals, which can be used in per-pixel shading. Previous work in remeshing has gone part of the way in creating more regular geometric representations. But, such methods still use an irregular base mesh, which leads to a sampling that is only semi-regular. Our approach is to employ an arbitrary surface using a completely regular grid of samples on a square domain which is called a geometry image. It has 257 by 257 pixels. The only difference is that it has 12 bits per channel instead of the usual 8. It is called a geometry image because its RGB colors encode XYZ positions.Our approach on face expression recognition shows that 3D registration (alignment) is a fundamental step especially in geometric approaches. Actually, an error in alignment might not be fixed in the next steps of our method or other different approaches. Eventually, we represent a registration technique which provides accurate and robust alignment even with the facial expressions being present. The traditional idea is that we apply pose correction to each mesh using the same face model as a reference and as primary step in mesh processing pipeline. The alignment evaluates a rigid transformation which involves rotation and translation. Our alignment method employs the Iterative Closest Point algorithm. The algorithm deals with the alignment task through reducing the distance between two different oriented triangle meshes.Chapter 3 describes the proposed method using deep neural networks.Traditionally, research in feature extraction focused largely on handcrafted features such as Gabor and Haralick features. Many such hand-crafted features encode the pixel variations in the images to generate robust feature vectors for performing classification. Building on these, more complex hand-crafted features are also proposed that encode rotation and scale variations in the feature vectors as well. With the availability of training data, researchers have started focusing on learning-based techniques, resulting in several representation learning-based algorithms. Moreover, because the premise is to train the machines for tasks performed with utmost ease by humans, it seemed fitting to understand and imitate the functioning of the human brain. This led researchers to reproduce similar structures to automate complex tasks, which gave rise to the domain of deep learning. Research in deep learning began with the single unit of a perceptron, which was able to mimic the behavior of a single brain neuron. The perceptron generates an output based on the input as follows: where wi corresponds to the weight for the ith element of the input. The behavior of the perceptron is said to be analogous to that of a neuron, since, depending on a fixed threshold, the output would become 1 or 0. Thus, behaving like a neuron receiving electrical signal (input), and using the synapse (weight) to fire its output. Treating the perceptron as a building block, several complex architectures have further been suggested. Recently, the domain of deep learning has seen steep development. It is being used to address a multitude of problems with applications in biometrics, object recognition, speech, and natural language processing. Deep learning architectures can broadly be categorized into three paradigms: restricted Boltzmann machines (RBMs), autoencoders, and convolutional neural networks (CNNs). Autoencoders and Restricted Boltzmann machines are traditionally unsupervised models used for learning meaningful representations of the given data. CNNs, on the other hand, are traditionally supervised models with the objective of improving the overall classification performance. Chapter 4 presents the proposed pipeline for 3D facial expression recognition with implementation details. The BU-3DFE database is used for the study. An entire of 100 people present in the dataset, separated among male (44 people) as well as female (56 people). The personages are effectively divided up among various national categories and ethnic descents, containing Middle-East Asian, Latino-Americans, East-Asian, Black, White and the others. Every subject shows the six simple face expression, specifically, surprise (SU), sadness (SA), anger (AN), happiness (HA), disgust (DI), fear (FE) and also the neutral state (NE). Every face emotion has four stages of intensities — ground, medium, strong and top — excluding neutral faces.The VGGNet model structure was announced in 2014. The neural network is distinguished considering the simpleness of its architecture, utilizing just 3x3 convolution layers which are stacking one after the other resulting in an increase of the depth. Diminishing size of the volume is overcome using maximum pooling. Finally, two entirely connected layers, every one of them with 4,096 neurons are afterwards pursued via a softmax classification function. In 2014, 19 and 16 layered neural networks took into consideration as extremely deep, in spite of the fact that we currently have the ResNet that might be modeled successfully from 50 to 200 layers using ImageNet as well as more than 1,000 stacked layers considering CIFAR-10, a small-scale dataset. Simonyan and Zisserman discovered that to train VGG19 or VGG16 are competitive especially considering convergency while using more deeper neural networks, therefore to obtain an easier training time, they initially trained small varieties of VGGNet along with smaller number of learnable weights. The networks with less layers converges quickly so that they are afterwards utilized like initializier of the deeper, bigger neural networks — the procedure is also known as pretraining. When thinking logically in a sensible way, pretraining is an extremely time wasting, monotonous process, demanding a complete neural network to be modeled and obtained learnable weights prior to serving like an initializer in a more deep neural network. We do nor prefer to utilize pretraining in majority of the occasions and as an alternative we propose Xaiver/Glorot initializer and MSRA initializer generally known as He initializer. The significance of how to initialize weights as well as the convergency of neural networks are both entirely important research topics and it is not the scope of this thesis.Chapter 5 concludes the thesis. The importance of experimenting in 3D domain is that 3D modeling improves the 2D drawbacks such as illumination, pose variations, etc. Therefore, having a good recognition method might be useful for human computer interaction, criminal investigation, airport security or psychological examination.A geometry based recognition method is proposed. The method was designed to spot 3D expressions from geometry images obtained using 3D face models. The method is based on opening up a 3D mesh onto a square domain using specific cut-paths.The BU-3DFE database is one of the most widely used databases in 3D domain. We use our own geometry image database which is created using 3D expression models from BU-3DFE. There exists 2500 facial models in the original database and associated 2500 geometry images in the GIM database. The proposed method was evaluated on both GIM and BU-3DFE databases. VGG deep neural network model was used to obtain classification results. We observed that the expressions tend to give similar scores to other recognition frameworks. We keep experimenting on geometry images and it could be possible to design a more sophisticated classifier with higher recognition accuracy to improve state-of-the art results. Our experimental results show that VGG16 model has a best classification accuracy of 81.4/% on geometry image database. In conclusion, the results reveal that a pre-trained VGG16 network is capable of handling complicated information from 3D geometry pixels of expression models. Our results also produce precious intuition into the application of neural networks on 3D domain along with the facial expression recognition task.
Collections