[Paper Review๐] Exploring Emotion Features and Fusion Strategies for Audio-Video Emotion Recognition
Exploring Emotion Features and Fusion Strategies for Audio-Video Emotion Recognition
- Audio-Video Emotion Recognition -
Paper๐ 2021๋ 12์ 14์ผ ๊ธฐ์ค, AFEW ๋ฐ์ดํฐ๋ก SOTA ์ฑ๋ฅ ๋ฌ์ฑ
์ด ๋ ผ๋ฌธ์ audio ์ video ๋ ๊ฐ์ง modal ์ fusion(ํผํฉ) ํ์ฌ SOTA ์ฑ๋ฅ์ ๋ฌ์ฑํ์๋ค.
์ด ๋ ผ๋ฌธ์ ๋ฉ์ธ CONTRIBUTIONS ๋ฅผ ์ดํด๋ณด๋ฉด,
1) faceCNN์ ์ ์ดํ์ต์ ์๋ง์ ๋ฐ์ดํฐ์ ๊ณผ ์๋ง์ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๊ฒ์ด ์ค์ํ๋ค (๋ชจ๋ FER ๋ ผ๋ฌธ์์๋ ๋งํ์ง๋ง,, ์ผ๊ตด ์ธ์ ๋ชจ๋ธ์ ์ pre-train ์ํค๋ ๊ฒ์ด ์ฑ๋ฅ์ฌ๋ฆฌ๋ ๊ฒ์ ํต์ฌ์ด๋ผ๊ณ ๊ฐ์กฐํ๋ค์)
2) visual feature๊ณผ audio feature์ ํผํฉ ๊ธฐ๋ฒ์ ์ํด ์ธ๊ฐ์ง attention ๋งค์ปค๋์ฆ์ ๊ณ ์ํ์๋ค.
3) cross-modal feature ํผํฉ์ ์ํด factorized bilinear Pooling(FBP)๊ธฐ๋ฒ์ ์ ์ฉํ์๋ค. (cross-modal ์ด๋ผ๋ ๊ฒ์ audio modal ๊ณผ video modal ์ ํผํฉํ๋ ๊ฒ์ ๋ปํ๋ค๊ณ ์๊ฐํ๋ฉด ๋ ๊ฒ ๊ฐ๋ค.)
Pipeline of audio-video emotion recognition
๋ ผ๋ฌธ์์ ์ ์ํ๋ ๊ตฌ์กฐ๋ ์๋์ ๊ฐ์ต๋๋ค.
์ดํด๋ณด๋ฉด, ๊ฐ audio ์ video ์ด๋ฏธ์ง์ ๋ํด ์ ์ฒ๋ฆฌ๋ฅผ ์ํํ ํ ๊ฐ๊ฐ์ CNN ๋ชจ๋ธ์ ์ฌ์ฉํด feature์ ๋ฝ์ ๋ค์์ attention ๋งค์ปค๋์ฆ์ ์ฌ์ฉํด ๋์จ ๊ฐ์ fusion ์ ํ์ฌ ์ต์ข feature ์ ๋ฝ๊ฒ ๋ฉ๋๋ค.
๊ฐ ํ๋ก์ธ์ค ๋ณ๋ก ์์ธํ ์ดํด๋ด
์๋ค..!
Preprocessing
์ค๋์ค์ ์ด๋ฏธ์ง ์ ์ฒ๋ฆฌ์ ์์ด์๋ ๊ฐ๋ตํ๊ฒ ๋ ผ๋ฌธ ๋ด์ฉ์ ๊ทธ๋๋ก ์ฐ๊ฒ ์ต๋๋ค.
- AUDIO
Speech spectrogram -> use hamming window with 40msec window size, 10msec shift
Log mel-spectrogram -> calculate its deltas and delta-deltas
- VIDEO
use dlib toolbox for face detection and alignment
Extend face bbox with ratio of 30%
Crop face and scale to 224 x 224
(ํ ํ๋์ ๋ด์์ ์ผ๊ตด์ด ๊ฒ์ถ๋์ง ์๋๋ค๋ฉด ๋ชจ๋ ํ๋ ์๋ค์ ์ฌ์ฉํ์ง ์๋๋ค.)
Feature Extraction
์ ์ฒด ๊ตฌ์กฐ์์ ๋ดค๋ฏ์ด, audio ์ visual ์ด๋ฏธ์ง์ ๋ํด ๊ฐ๊ธฐ ๋ค๋ฅธ CNN ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ feature ๋ฅผ ๋ฝ๊ณ ์์ต๋๋ค. ๋จผ์ , audio ์ ๊ฒฝ์ฐ AlexNet์ ๋ง์ง๋ง pooling layer์์ feature ๊ฐ์ ๋ฝ์์ HxWxC ์ ํผ์ณ ๋งต ํํ๋ก ์ถ์ถ์ด ๋ฉ๋๋ค.
ํํธ, visual์ ๊ฒฝ์ฐ, ๋ง์ง๋ง FC๋ ์ด์ด์์ ๋์จ ๊ฐ์ ํผ์ณ๋ก ๋ฝ๊ธฐ ๋๋ฌธ์ n๊ฐ์ ๋ฒกํฐ ํํ๋ก ๊ฐ์ด ๋์ค๊ฒ ๋ฉ๋๋ค. (๋ ผ๋ฌธ์์๋ VGGFace, ResNet18, IR50 ์ธ ๊ฐ์ง ๋ชจ๋ธ์ ๋ํด์ ์คํ์ ํ์๊ณ ๊ทธ์ค IR50์ด ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ด์ด์ ์ต์ข ๊ตฌ์กฐ ์ด๋ฏธ์ง์๋ IR๋ก ์์ฑํ ๊ฒ ๊ฐ์ต๋๋ค.)
Three Attention machanism
์ด์ ํ๋ก์ธ์ค์ feature ์ ํผํฉํ๋ ๋ชจ๋์์ intra-modal ๋ถ๋ถ์ ์ดํด๋ด ์๋ค. ์ฌ๊ธฐ๋ audio ์ video ๋ ๊ฐ๊ฐ ๊ณ์ฐํ๊ณ ์์ต๋๋ค. ์์ง๊น์ง ๋์ ํฉ์น์ง๋ ์๋ค์.
attention์ ์์, ์ ์ ๋ ๊ฒ ๊ฐ์ค์น์ ๋ค์ ์ ๋์ฌ๊ฒ์ด๋ผ ์์๋๋ FC ๋ ์ด์ด(์๋ ์์์์๋ $W$)๋ฅผ ๋ด์ ํ์ฌ ์ ์ฌ๋๋ฅผ ๊ตฌํ๋ ์ง๋ FAN ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ์์๋ ๋ฆฌ๋ทฐํ์ผ๋ฏ๋ก ์ฐธ๊ณ ํ๊ธฐ!
self-attention๊ณผ relation-attention ์ธ์ transformer-attention ์ด๋ผ๋ ๊ฐ๋ ์ด ์ถ๊ฐ๋์๋ค! ์๋ก์ด ๊ฐ๋ ์์๊ฐ๋๊ฑฐ ๋๋ฌด ์ฌ๋ฐ๋ค์๐๐
trasnformer-attention์ ๊ธฐ์กด attention๊ณผ ๋ง์ฐฌ๊ฐ์ง์ ๊ฐ๋ ์ ๊ฐ๊ณ ๊ฐ๋๋ฐ, feature์ ์ฐจ์์ ์ค์ด๊ธฐ ์ํด ๋ค์๊ณผ ๊ฐ์ linear function ๊ณผ์ ์ ๊ฑฐ์ณ์ ์ฐจ์์ ๊ฐ์์ํจ ํ, ์ ์ฌ๋๋ฅผ ๊ตฌํ๊ณ ์์ต๋๋ค.
$W_{m \times d}$๋ฅผ ํผ์ณ๊ฐ๊ณผ ๊ณฑํด์ฃผ์ด ์ฐจ์์ ์ค์ธ ๊ฐ์ $f^{`}_i$ ๋ก ์ค์ ํ์ฌ ๊ทธ ๊ฐ์ผ๋ก ๋ด์ ์ํจ ๊ฐ์ ์ ๊ณฑ์ผ๋ก ์ทจํ์ฌ ๊ฐ์ค์น๋ก ์ฌ์ฉํ๊ณ ์์ต๋๋ค.
FBP(Factorized Bilinear Pooling) module
์์ ๊ฐ๋ ์ ์ดํดํ๊ธฐ ์ , Bilinear Pooling์ด ๋ฌด์์ธ์ง๋ฅผ ๋จผ์ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
Bilinear pooling ์ speech ์ visual๊ณผ ๊ฐ์ด ์๋ก ๋ค๋ฅธ modal ์ (์ฐจ์์ด ๋ค๋ฅธ ๋ฒกํฐ ๊ณ์ฐ) ๋ชจ๋ feature๋ค์ด ์ํธ์์ฉํ์ฌ ๊ณ์ฐํ ์ ์๋๋ก ํ๋ ๋ฐฉ๋ฒ์ ๋๋ค.
๋ค์๊ณผ ๊ฐ์ด audio feature vector $a$ ๋ m ์ฐจ์์ ์กด์ฌํ๊ณ , video feature vector ์ $n$ ์ฐจ์์ ์กด์ฌํฉ๋๋ค. ๋ ๋ค๋ฅธ ์ฐจ์์์ ๊ณ์ฐ์ ํ๋ ค๋ฉด ์ด๋ป๊ฒ ํด์ผํ ๊น์? ์ฌ๊ธฐ์๋ projection matrix๋ฅผ ์ฌ์ฉํฉ๋๋ค.
์๋ ์์๊ณผ ๊ฐ์ด a์ v ๋ฅผ ๋ด์ ํ๊ธฐ ์ํด ๊ฐ์ด๋ฐ mxn ์ฐจ์์ ์กด์ฌํ๋ projection matrix ์ธ $W$ ๋ฅผ ์ถ๊ฐํ์ฌ์ ๊ณ์ฐ์ ํด์ฃผ๊ณ ์์ต๋๋ค.
์ด๋ ๊ฒ ๋ ๋ฒกํฐ์ ๋ชจ๋ ์์์ ๋ํด์ ์ํธ์์ฉํ๋ฉฐ ๊ณ์ฐํ ์ ์์ด์ ๋ชจ๋ element๊ฐ์ ์ํธ ๊ด๊ณ์ฑ์ ํ์ ํ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. ํ์ง๋ง, ๊ทธ๋ฆผ์์๋ ๋ณด์ด๋ z ์ ๋ฉด์ ! ๋งค์ฐ ํฐ ๊ฒ์ ์ ์ ์์ฃ ! ์ฐ์ฐ์ ๋น์ฉ์ด ๋งค์ฐ ํฌ๊ณ overfitting์ ์ด๋ํ ์ํ์ด ์์ต๋๋ค.
๋ฐ๋ผ์ ์ด ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์๋ ๋ฐฉ๋ฒ ์ค ํ๋๊ฐ FBP ์ ๋๋ค.
์๋๋ ๋ ผ๋ฌธ์ ์์์ ์ ๋ฆฌํด ๋ณธ๊ฒ์ธ๋ฐ์.. ์ด ๋ ผ๋ฌธ์ ์์ด์ FBP ์ ๋ด์ฉ์ ๊ฐ๋ตํ๊ฒ ๋์์ ๋ค์ ๋ ผ๋ฌธ์ ์ฐธ๊ณ ํ์ฌ ์์ฑํ์์ต๋๋ค.
์์ ์์์ ๋ณต์กํด๋ณด์ด์ง๋ง ๋จ์ํ ์๊ฐํด๋ณด๋ฉด, Bilinear pooling์ ๋จ์ ๋๋ฌธ์, matrix factorization tricks ์ ์ฌ์ฉํด the projection matrix $W_i$ ๋ฅผ ์์ ๊ฐ์ด ๋๊ฐ์ low- rank์ ํ๋ ฌ๋ก ๋ฐ๊พธ์ด ๊ณ์ฐํ๋ ๊ฒ์ ๋๋ค.
Exploration of Emotion Features
Table 1 ์ VGGFace, ResNet18, IR50 ์ธ CNN ๋ชจ๋ธ๊ณผ FER+, RAF-DB, AffectNet ๋ฐ์ดํฐ๋ค์ ๋ํด ๊ฐ๊ฐ ํ์ตํด ์คํํ ๊ฒฐ๊ณผ, IR50์ AffectNet ๋ฐ์ดํฐ์ ์ผ๋ก ์ ์ดํ์ตํ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ๊ฐ์ฅ ์ข๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
Table 2 ๋ Audio์ Visual์ ๋ํด์ ๊ฐ self, relation, transformer attention์ ์กฐํฉํด ์ฌ์ฉํ ๊ฒฐ๊ณผ๋ค ์ค, ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๊ฒ์ ๋ modal์ ์์ด์ transformer ์ ์ฌ์ฉํ๋ ๊ฒ์์ ๋ณด์ฌ์ค๋๋ค.
์ด๋ฒ์ฃผ ์ธ๋ฏธ๋๋ ๋ฌด์ฌํ ์๋ฃ..! ๐ฝ
๋๊ธ๋จ๊ธฐ๊ธฐ