[Paper Review๐] Convolutional relation network for facial expression recognition in the wild with few-shot learning
์ค๋ ๋ฆฌ๋ทฐํ ๋ ผ๋ฌธ์ โก๏ธ Zhu, Qing, et al. โConvolutional relation network for facial expression recognition in the wild with few-shot learning.โย Expert Systems with Applicationsย 189 (2022): 116046.
FER์ ์ฑ๋ฅ์ ๋์ด์ฌ๋ฆด ์ ์๋ ์๋ก์ด metric ๋ฐฉ์์ ์ฐ๊ตฌํ์ฌ few-shot learning์ ๋ค๋ฅธ method๋ค๊ณผ ๋น๊ตํ ๋ ผ๋ฌธ์ด๋ค. FER๋ถ์ผ์ ๋ง์ถคํ metric์ ์ ๋ณด์๋ค๋ ๊ฒ์์ ์์๊ฐ ์๋๋ฐ ๋ด์ฉ์ ์กฐ๊ธ ๋ถ์คํด์ ์์ฌ์ ๋ ๋ ผ๋ฌธ์ด๋ค.
ํ์ง๋ง FER ๋ถ์ผ๋ฅผ ๋ค๋ฅธ ํ์ต๋ฐฉ๋ฒ์ผ๋ก ์ ์ฉ์์ผ ์ฐ๊ตฌํ๊ณ ์ถ์ ๋์๊ฒ ์์ด ๋งค์ฐ ๋จ๋น๊ฐ์ ๊ทธ๋ฐ ๋ ผ๋ฌธ์ด๋๊น ใ ใ
Framework overview
๋จผ์ , ์ด ๋ ผ๋ฌธ์์ ์ฃผ์ฅํ๋ ๋ชจ๋ธ์ ์ํคํ ์ณ ์ ๋ฐ์ ์ดํด๋ณด์.
few-shot learning๊ณผ ๊ฐ์ด support set๊ณผ query set์ด input์ผ๋ก ๋ค์ด๊ฐ๊ณ 1) feature embedding ์ ๊ฑฐ์ณ ๋์จ feature๋ฅผ ํ๋ฉด 2) depth attention pooling์ ๊ฑฐ์น ํ support feature์ query feature์ concate์ ์ํํ์ฌ, 3) ๋ง์ง๋ง convolution layers๋ค์ ๊ฑฐ์ณ concatenation๋ feature ๊ฐ๊ณผ 2)๋ฅผ ๊ฑฐ์น์ง ์๊ณ ๋์จ feature ๊ฐ์ ๊ณฑํ์ฌ ์ฌ์ฉํ๋ค.
์ด ๋จ๊ณ๋ค์ด ์๋ฏธํ๋ ๋ฐ๊ฐ ๋ฌด์์ธ์ง ํ๋์ฉ ์์๋ณด์!
Stage1 : Feature Embedding
์ฒซ๋ฒ์งธ๋ก๋ input์ผ๋ก ๋ค์ด์ค๋ support set ์ด๋ฏธ์ง๋ค๊ณผ query set ์ด๋ฏธ์ง๋ค์ ๋ํ์ฌ ๊ฐ๊ฐ feature๋ฅผ ๋ฝ๋ ๊ฒ์ด๋ค. ์ด ๋ชจ๋ธ์์ฒด๋ relation network๋ก ๊ตฌ์ฑ๋์ด์์ผ๋ฉฐ, ์ฒซ๋ฒ์งธ ๋จ๊ณ์ ํด๋นํ๋ layer๋ 4๊ฐ์ convolution block์ผ๋ก, ์๋์ ๊ฐ์ด ๊ตฌ์ฑ๋์ด์๋ค.
- Relation network convolution
Each convolution block has
3x3 convolution of 64 filters
Batch normalization
Relu activation function layer
2x2 max pooling
feature embedding ๋ถ๋ถ์ ์์ $f_\theta$ ๋ผ๊ณ ํ์ ๋,
- feature map of support set : $f_\theta(S^{(i)})$
- feature map of query set : $f_\theta(Q^{(j)})$
Stage2 : Salient Discriminative Feature Learning
1) Depth Average Pooling (DAP)
์ด ๋ถ๋ถ์ ๋ํด์ ํด์์ด ์ข ์ด๋ ค์ ๋๋ฐ, depth average pooling ํ๋๊น ๋น์ฐํ channel attention์ด๊ฒ ๊ฑฐ๋~ ์๊ฐ์ ํ๋๋ฐ, ์ง์์ channel attention์ด์๋ค๋ฉด Global Average Pooling์ด๋ผ๋ ๊ฐ๋ ์ด ์๋๋ฐ, ๊ทธ ๋จ์ด๋ฅผ ์ผ๊ฒ ์ง! ๋ผ๋ ์๊ฐ์ด ๋ค์ด ๋ค์ ๋ ผ๋ฌธ์ ๊ผผ๊ผผํ๊ฒ ์ฝ์๋ค. ์ฝ์ด๋ณด๋, channel attention์ ์๋๊ณ , ๋ ์ด๋ธ์ด ๊ฐ์ support set ์ด๋ฏธ์ง๋ค์ด ์ฌ๋ฌ๊ฐ๊ฐ ๋ค์ด์ค๊ฒ ๋๋๋ฐ, ๊ฐ์ ๋ ์ด๋ธ์ ํด๋นํ๋ ์ด๋ฏธ์ง๋ค์ ๋ํด์ DAP๋ฅผ ํด์ฃผ๋ ๊ฒ์ด์๋ค! ๊ทธ๋์ ํ ๋ ์ด๋ธ์ ๋ํ ์ฌ๋ฌ support set ์ด๋ฏธ์ง๋ค์ ํ๋์ feature map์ผ๋ก pooling์ด ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก ์จ์์ง ์์ง๋ง, ๋ ผ๋ฌธ์์ ์ ์ํ๋ ์์๊ณผ, ๊ธ์ ๊ทผ๊ฑฐํ๋ฉด ์ด๋ ๊ฒ ๋๋ ๊ฒ์ด ๋ง์ ๊ฒ์ด๋ค. ๋ํ, support set ๋ค ๊ฐ์ ๊ด๊ณ๋ฅผ average pooling ๋ฐฉ์์ผ๋ก ๊ณ์ฐํ๋ค๋ ์ ์์ ๊ด์ฐฎ์ ๋ฐฉ๋ฒ์ธ ๊ฒ ๊ฐ๋ค๊ณ ์๊ฐํ๋ค.
DAP ๋ support set ์ด๋ฏธ์ง๋ค์๋ง ํด์ฃผ๋๋ฐ ๊ทธ ์ด์ ๋, ์ด ํ๋ง์ ๊ฑฐ์น๋ฉด ๊ฐ ์ด๋ฏธ์ง๋ค์ด ๊ฐ์ง
"commonality"
๋ฅผ ๋ฝ๊ณ , ์ ์ฌํ์ง ์์ ๋ค๋ฅธ ๋ถ๋ถ์ ๋ํด์๋ ์ ๋ณด๋ฅผ ์์จ ์ ์์๋ค๊ณ ํ๋ค.
2) JS Divergence
์ด๊ฑด GAN ๋ ผ๋ฌธ๋ฆฌ๋ทฐํ๊ณ ๊ฐ๋ ์ ๋ฆฌ๋ฅผ ํ๋ฉด์ ๋ค๋ค๋ ๊ฐ๋ ์ด๋ผ โก๏ธ [GAN study] KL-divergence & JS-divergence & Maximum Likelihood Estimation์ ๊ฐ๋ ์ ๋ฆฌ ํน์ [๋ ผ๋ฌธ์ ๋ฆฌ๐] Generative Adversarial Nets ์ด ํฌ์คํ ์ ์ฐธ๊ณ ํ๋ฉด ์ดํด๊ฐ ๋น ๋ฅผ ๊ฒ ๊ฐ๋ค.
$D_{JS}^{i,j} (P(f^a_\theta(S^{(j)})),P(f^a_\theta(S^{(j)}))) $
์ด metric์ ์ฅ์ ์..
- JS Divergence ๋ก loss๋ฅผ ๊ณ์ฐํ์ฌ ๊ฐ์ ์ด๋ฏธ์ง๋ฅผ ๊ตฌ๋ถํ๋ ๋ฅ๋ ฅ์ ์ฆ๋์ํฌ ์ ์๋ค.
- ๋ค๋ฅธ ํด๋์ค๋ผ๋ฆฌ ๋ฉ๋ฆฌ ๋จ์ด์ง ์ ์๋๋ก penalize ํ ์ ์๋ค.
DAP์ ์
- Feature map of support setโs DAP : $f^a_\theta(S^{(j)})$
๊ฒฐ๊ตญ stage2์์ ์ฌ์ฉํ๋ Loss function์ ์ต์ข ์์!
$L_{dist}^k = 1 - $ $1\over{N^2}$ $\sum^N_{i=1} \sum^N_{j=1} [y_k^{i,j} - D_{JS}^{i,j} (P(f^a_\theta(S^{(j)})),P(f^a_\theta(S^{(j)})))]^2$
Stage3 : Emotion Similarity Learning
์ด ๋จ๊ณ์์๋, ๋ฐ๋ก ์ ๋จ๊ณ์์ ๊ตฌํ DAP ๋ฅผ ๊ฑฐ์น support set feature ๊ณผ, query set feature ์ concatenation ์ ์์ผ relation network์ ๋๋จธ์ง 4๊ฐ์ layer์ ๊ฑฐ์น๊ฒ ํ๋ค.
๋ํ, dap ๋ฅผ ๊ฑฐ์น์ง ์์ support set๊ณผ query set์ similarity๋ฅผ ๊ตฌํ๊ธฐ ์ํด, concate ํ feature๊ฐ ๋์จ feature์ ๊ทธ๋ฅ 8๊ฐ์ layer์ ๊ฑฐ์ณ๋์จ feature์ ๊ณฑ์ผ๋ก loss๋ฅผ ๊ณ์ฐํด์ค๋ค. ๋ฐ๋ผ์, ์ด๋ฒ ๋จ๊ณ์์ ๊ณ์ฐํ๋ loss function์ ๋ค์๊ณผ ๊ฐ๋ค.
$L_r^{(k)} =$ $1\over{N^2}$ $\sum^N_{i=1} \sum^N_{j=1} [y_k^{(i,j)} - r^{i,j} (g_๐ [C(f^a_\theta(S^{(j)}),f^a_\theta(S^{(j)})])]^2$
์ต์ข CRN Loss
$L_{CRN} =$ $1\over{K}$ $\sum^K_{k=1} (L_r^k + \lambda L_{dist}^k )$
Experiment details
์ด ๋ ผ๋ฌธ์์๋ ๊ฐ ๋ฐ์ดํฐ๋ง๋ค emotion label ์ ํด๋นํ๋ ์ด๋ฏธ์ง์ ๊ฐฏ์๊ฐ ๋งค์ฐ ์์ํ๋ค๋ฉด์ imbalance ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ๋น์ทํ๊ฒ ๊ฐ์ง๊ณ ์๋ ์์ label์ train์ผ๋ก, ์ ์ ์ด๋ฏธ์ง์๋ฅผ ๊ฐ๊ณ ์๋ ๋ ์ด๋ธ์ test๋ก ํ์ฌ์ ์คํ์ ์งํํ๋ค๊ณ ํ๋ค.
ํ์ง๋ง train์ ์ด๋ฏธ์ง๋ฅผ ํ์ ๋์จ๊ฒ์ ๋ค ์ผ๋์ง ์๋์ง๋ ์์ธํ ์์ ํ์ง ์์ ์ ํํ ์ ๋ณด๋ ๋ชจ๋ฅธ๋ค. ๋ํ, n-shot k-way ์ ๋ํ์ฌ n๊ณผ k ์ ๋ํ ์ ๋ณด๋ ์์ ๋์ด์์ง ์์.. ํ
Experiment Results
- RAF-DB
- FER2013
- SFEW
๋๊ธ๋จ๊ธฐ๊ธฐ