[Paper Review๐] Facial Expression Recognition with Visual Transformers and Attentional Selective Fusion
Facial Expression Recognition with Visual Transformers and Attentional Selective Fusion
- VTFF -
Paper๐, IEEE Transactions on Affective Computing ์ ์ค๋ฆฐ ๋ ผ๋ฌธ์ผ๋ก 2021๋ 10์์ ๋ฑ์ฌ.
์ด ๋ ผ๋ฌธ์ ์ฒ์์ผ๋ก FER ๋ถ์ผ์์ Transformer์ ์ฌ์ฉํ์ฌ RAF-DB, FERPlus and AffectNet ๋ฐ์ดํฐ์ ์ ๋ํด์ SOTA ์ฑ๋ฅ์ ๋ฌ์ฑ
์ด ๋ ผ๋ฌธ์ ๋ฉ์ธ CONTRIBUTIONS ๋ฅผ ์ดํด๋ณด๋ฉด,
1) Visual Transformer์ feature fusion ์ ์ฌ์ฉํ๋ ๋ฐฉ์์ ์ ์ํ์๊ณ , LBP ํผ์ณ์ CNN ํผ์ณ๋ฅผ ํตํฉ์์ผ global-local attention ๊ฐ์ ๋์ถํ์๊ณ ์ด๋ฅผ ํตํด FER ์ฑ๋ฅ์ ํฅ์์์ผฐ๋ค๋ ์ ์์ ์์๊ฐ ์์
2) ASF(Attention Seletive Fusion) ์ด๋ผ๋ ๋ชจ๋์ ์ ์ํ์๊ณ ๊ธ๋ก๋ฒํ ์ผ๊ตด ์ ๋ณด์ ๋ก์ปฌ ์ผ๊ตด ์ ๋ณด์ ๋ํด ํฉ์ณ์ ์ฌ์ฉํ๋ ๋ชจ๋์ด๋ค. ์ด๋ฅผ ํตํด์ ํ์์๋ ์ ๋ณด๋ ์์ถํ๋ ์์ผ๋ก ์ข ๋จ๊ฐ ํ์ต์ ํ ์ ์๋ค.
3) ์ฒ์์ผ๋ก FER ๋ถ์ผ์์ Transformer์ ์ฌ์ฉํ์๋ค. global self-attention์ ์ ์ฒด์ ์ธ ๋คํธ์ํฌ๊ฐ visual feature sequences์ ์์๋ค์ฌ์ด์ ๊ด๊ณ๋ฅผ ํ์ตํ ์ ์๊ฒ ํ์๊ณ ์ ๋ณด์ ๊ฒฐํ์ด ์๋ ๋ถ๋ถ์ ๋ฌด์ํ ์ ์๋๋ก ํ์๋ค.
4) RAF-DB, FERPlus and AffectNet ์์ ๊ธฐ์กด SOTA ๋ชจ๋ธ ๋ณด๋ค ์ข์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
LBP (Local Binary Pattern)
๋ ผ๋ฌธ ๋ด์ฉ์ ๋ค์ด๊ฐ๊ธฐ ์์, ์ด ๋ ผ๋ฌธ์์๋ RGB ์ด๋ฏธ์ง์ ๋์์ LBP ๋ผ๋ ์ด๋ฏธ์ง๋ ํจ๊ป ํ์ต์์ผ ์ฌ์ฉํ๋ค. LBP ์ด๋ฏธ์ง๋, ์ด๋ฏธ์ง๋ฅผ binary ๊ฐ์ ์ฌ์ฉํ์ฌ ํน์ง์ ์ถ์ถํ ์ด๋ค ์ด๋ฏธ์ง๋ก ๋ณํ์ํค๋ ๊ธฐ๋ฒ์ธ๋ฐ, ์๋ ์ด๋ฏธ์ง๋ฅผ ๋ณด๊ณ ์ดํดํด๋ณด์! ๐ธ
[์ด๋ฏธ์ง ์ถ์ฒ: https://towardsdatascience.com/face-recognition-how-lbph-works-90ec258c3d6b]
๋จผ์ ์ด๋ฏธ์ง๋ฅผ ๊ทธ๋ ์ด ์ค์ผ์ผ๋ก ๋ณํ ํ ํ์, ๋ชจ๋ ํฝ์ ์ ๋ํด sliding window ๋ฅผ ํ๋ฉด์ 3x3 pixel ๊ฐ์ผ๋ก ๊ฐ์ ธ์์ ๊ฐ์ฅ ๊ฐ์ด๋ฐ์ ๊ฐ์ ๊ธฐ์ค์ผ๋ก ๋๋จธ์ง 8๊ฐ์ ์์ญ์ ์ซ์์ ๋น๊ต๋ฅผํ๋ค. ์ฌ๊ธฐ์ ๊ฐ์ด๋ฐ ์ซ์๋ณด๋ค ํฌ๋ฉด 1, ์์ผ๋ฉด 0 ์ผ๋ก ์ด์งํ๋ฅผ ์์ผ์ค ํ, ๊ฐ ๊ฐ๋ค์ ์ผ๋ ฌ๋ก ๋์ดํ์ฌ 2์ง์๋ก ๋ํ๋ธ ๊ฐ์ ๋ค์ 10์ง๋ฒ์ผ๋ก ๋ฐ๊ฟ์ค๋ค.
์์ ์ฌ์ง์ ๋ณด๋ฉด ๊ฐ์ด๋ฐ ๊ฐ์ธ 90์ ๊ธฐ์ค์ผ๋ก ์์ ๊ฒ์ 0, ํฐ ๊ฐ์ 1๋ก ๋ณํ ํ ํ์, ์ผ์ชฝ์์ ์ค๋ฅธ์ชฝ ์์์ ์๋ ์์๋๋ก concatenate ํ ๊ฐ์ ๋ค์ 10์ง๋ฒ์ผ๋ก ๋ฐ๊พธ์ด์ ๊ฐ์ด๋ฐ ๊ฐ์ 141๋ก ๋ณํํด ์ฃผ์๋ค.
**์ด๋ฐ์์ผ๋ก ๋ชจ๋ ํฝ์
์๋ํ ๊ฐ๋ค์ ๋ณํํด ์ฃผ์ด ์๋ณธ ์ด๋ฏธ์ง๋ณด๋ค ์ด๋ฏธ์ง์ ํน์ง์ ์ ๋ํ๋ผ ์ ์๋ ์ด๋ฏธ์ง๋ก ๋ณํ
๋๋ ๊ฒ์ด๋ค.
Overview of proposed VTFF (Visual Transformer Fusion Feature)
์ ์ฒด์ ์ ๋ชจ๋ธ ๊ตฌ์กฐ๋ ๋ค์๊ณผ ๊ฐ๋ค.
RGB ์ด๋ฏธ์ง์ LBP ์ด๋ฏธ์ง๋ฅผ ๊ฐ ๊ฐ์ feature extract ๋ชจ๋ธ์ ํต๊ณผ์์ผ ๋์จ ํผ์ณ๋งต(feature map) ์ ๋ํด Attentional Selective Fusion ๋ชจ๋์ ๊ฑฐ์น ํ, ์ด๋ฅผ ๋ค์ 1D ๋ก ๋ง๋ค์ด Transformer ๊ตฌ์กฐ์ ํต๊ณผ์์ผ ๋์จ ๊ฐ๋ค์ ๊ฐ์ง๊ณ emotion์ ๋ํ classification์ ์งํํด์ค๋ค.
ํํํํ๐ ๋ญ๊ฐ ์ฅํฉํ๋ฐ ํ๋์ฉ ์ดํด๋ณด์
VTFF (Feature extract backbone)
์ ์ฒด ๊ตฌ์กฐ ์ค, input๊ณผ feature extract ๋ถ๋ถ์ด๋ค.
๋จผ์ 3์ฑ๋์ ๊ฐ์ง RGB ์ด๋ฏธ์ง๋ก ์ด๋ป๊ฒ LBP๋ฅผ ๋ง๋๋์ง ์ดํด๋ณด๋ฉด, RGB์ ๊ฐ ์ฑ๋์ ๋ํ LBP ์ด๋ฏธ์ง๋ฅผ ์์ฑํด์ค ํ ๊ฐ ์ด๋ฏธ์ง๋ค์ Concatenate ์์ผ์ ๊ฐ์ 3์ฑ๋์ ์ฐจ์์ผ๋ก ๋ง๋ค์ด์ค๋ค. ์ด๋ ๊ฒ ๋๋ฉด Feature extract backbone ์ธ ๊ฐ๊ฐ์ renset18์ ๊ฐ์ input ์ฌ์ด์ฆ๋ก ๋ค์ด๊ฐ๊ฒ ๋๋ค. ์ด๋, ResNet18 ์ MS-Celeb-1M ๋ฐ์ดํฐ ์ ์ผ๋ก pre-trained ๋ weight๋ก weight๋ฅผ ์ด๊ธฐํ ์์ผ์ค๋ค.
๋ ์ด๋ฏธ์ง๊ฐ ๊ฐ๊ฐ์ resnet18์ ํตํด์ ํผ์ณ๋งต์ ์ป๊ฒ ๋๋ฉด, ์ด๊ฒ์ ๋ค์๊ณผ ๊ฐ์ด $X_{RGB}$, $X_{LBP}$ ๋ผ๊ณ ํ๋ค. ๊ฐ ์ฐจ์์ ์๋์ ๊ฐ์ด R(๋ ผ๋ฌธ์์๋ 32)์ ๋น์จ๋งํผ ์ฐจ์์ด ์ถ์๋๋ฉฐ $H /over R$ ๊ณผ ๊ฐ์ ๋ถ์๋กค $H_d$ ์ ๊ฐ์ด ์ฌ ์ ์ ํด์ฃผ์๋ค๊ณ ํ๋ค.
VTFF (Attentional selective fusion module = ASF)
๋ค์์ ์ดํ ์ ๋ชจ๋์ด๋ค, ์์์ ๋์ถํ feature ๊ฐ์ ๋ํด์ attention ์ฐ์ฐ์ ์งํํด์ฃผ๊ฒ ๋๋๋ฐ, ๋จผ์ ๋ feature๊ฐ์ integration์ ์ต๊ธฐ wegigt ๊ฐ์ ๊ณฑํด์ค ํ ๋ํด์ค๋ค.
์ด๊ฒ์ U ๋ผ๊ณ ์ ์ํ๋ค. ๊ทธ๋ผ ์ด์ ์ด U ๋ฅผ ๊ฐ๊ฐ Local Attention, Global Attention์ ์งํํด ์ฃผ๊ฒ ๋๋๋ฐ ๊ทธ ๊ตฌ์กฐ์ ์ฐจ์ด๊ฐ ์๋ค.
Local Attention
์ ๊ฒฝ์ฐ input feature์ ๋ํ ๋ฏธ์ธํ ๋ํ ์ผ๋ค์ ๊ธฐ์ตํ๊ณ ์์ผ๋ฉฐ, ์ปจ๋ณผ๋ฃจ์ ์ ๊ฑฐ์น๋ฉด์ Height์ Width๋ ๊ทธ๋๋ก, channel ๊ฐ์ ์ ํด์ง ๊ฐ์ผ๋ก ์ค์ด๋ค๊ฒ ๋๋ฉด์ ์ฐจ์์ ๊ณต๊ฐ์ input size ๋งํผ ๊ทธ๋๋ก ์ ์งํ๋ฉด์ ์ ์ ์ฑ๋์ ์ฐจ์์ด ์ค์ด๋ค๊ฒ ๋๋ค.
ย ย ย ย ย ==> ์ด๊ฒ์ผ๋ก ์ง์ญ์ ์ผ๋ก ํฉ์ด์ ธ ์๋ ์ฐจ๋ณ์ ์ ๋ณด์ ์ง์คํ๊ฒ ๋๋ค
- ๋ฐ๋ฉด,
Global Attention
์ ๊ฒฝ์ฐ ์ฑ๋ ์ฐจ์์ ๊ทธ๋๋ก ๋ ์ฑ, Height์ Width์ ๊ฐ์ 1๋ก ์ค์ธ๋ค.
ย ย ย ย ย ==> ์ด๊ฒ์ผ๋ก ์ฑ๋ ์ฐจ์ ์์์ feature๋ค์ ๊ธ๋ก๋ฒํ ๊ด๊ณ๋ฅผ ํฌ์ฐฉํ ์ ์๋๋ก ํ๋ค.
*์๋ก๊ฐ ์๋ก์ ๋ณด์์ ์ด ๋ ์ ์๋ ๊ฐ๋ค์ ๋์ถํ๊ฒ ๋๋ค.
์๋ ์์์ ์ฐธ๊ณ ํ์!
์ดํ ์ ๋ชจ๋์ ๋ง์ง๋ง ๋ถ๋ถ์ด๋ค..! ์์์ ๊ตฌํ $G(U)$์ $L(U)$๋ฅผ broadcasting addition์ ํตํด ๋ํ ๊ฐ์ $GL(U)$ ๋ผ๊ณ ์ฌ์ ์ ํด์ค๋ค.
์ฌ๊ธฐ์ Broadcasting ์ ๋ํด ์ด์ง ์ธ๊ธํ์๋ฉด, ์ฐจ์์ด ๋ฌ๋ผ๋ ๊ณ์ฐ์ด ๊ฐ๋ฅํด์ง๋๋ก ์๋์ผ๋ก ๋ง์ถฐ ๊ณ์ฐํ ์ ์๋ ๊ธฐ๋ฒ์ด๋ค.
์๋ ์ด๋ฏธ์ง ์ฐธ๊ณ !
๋ค์ ์ดํ ์ ๋ชจ๋๋ก ๋์์์, ์ด๋ ๊ฒ ๊ตฌํ $GL(U)$ ๋ฅผ ๋ค์ ๋ชจ๋์ ์ ๋ ฅ๋จ์ ๋ค์ด์๋ ํผ์ณ๋งต๊ณผ elementwise multiplication์ ํตํด ๊ณ์ฐ์ ํด์ฃผ๊ณ ๋ ๋ค์ ๋ํด์ค ๊ฐ์ feature fusion๋ ๊ฐ $X_{fused}$ ๋ผ๊ณ ์ ์ํด์ค๋ค.
์ฌ๊ธฐ์ LBP ์ ํผ์ณ๋งต์๋ $GL(U)$์ ๊ทธ๋๋ก ๊ณ์ฐํด์ฃผ๊ณ , RGB ์ ํผ์ณ๋งต์๋ $1-GL(U)$ ์ ๊ณฑํด์ฃผ๋๋ฐ, ์ฌ๊ธฐ์ $1-GL(U)$์ 1๊ฐ์ ๊ฐ์ง matrix ๋ก, ๋ชจ๋ $GL(U)$์ element์์ 1์ฉ ๋นผ์ค๋ค๊ณ ์๊ฐํ๋ฉด ๋๋ค. ๋ ํผ์ณ๋งต์ ๋ค๋ฅด๊ฒ ๊ณฑํด์ฃผ๋ ์ด์ ๋, ์ด์ฐจํผ attention layer์ ์ ๋ ฅ์ ๋ค์ด์จ ๊ฐ์ด LBP์ RGB์ ํน์ง๋ค์ด ์ ์ด์ฐ๋ฌ์ง ๊ฐ๋ค์ด ๋ค์ด์ฌ ๊ฒ์ด๊ณ , ์ด๋ฅผ ํตํด ์ป์ ๊ฐ ๋ํ, ํน์ง์ ๋ฐ์ํ๊ณ ์์ ๊ฑฐ๊ธฐ ๋๋ฌธ์ ์ ๋ ฅ์ feature map ์๋ ๋น์จ์ ๋ค๋ฅด๊ฒ ํด์ ๊ณ์ฐํด์ฃผ๋ ๊ฒ์ด๋ผ๊ณ ํ๋จ๋๋ค.
VTFF (Multi-Layer Transformer Encoder)
๋ค์์ ASF์์ ์ป์ matrix ๋ฅผ 1์ฐจ์์ผ๋ก ๋ณ๊ฒฝ์์ผ์ ์ํ์ค์ ๋งจ ์์ cls ํ ํฐ์ ๋ถ์ด๊ณ ~ ์งํ์์ผ ์ฃผ๋๋ฐ, ์ด๋ VIT ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ์์ ์์ธํ ๋ค๋ฃจ์์ผ๋ ์ฌ๊ธฐ ์ฐธ๊ณ !
Results
๋ค์์ ์ด์ SOTA ๋ชจ๋ธ๋ค๊ณผ์ ์ฑ๋ฅ์ ๋น๊ตํ ํ์ด๋ค.
๋๊ธ๋จ๊ธฐ๊ธฐ