[Paper Review๐Ÿ“ƒ] Facial Expression Recognition with Visual Transformers and Attentional Selective Fusion

Facial Expression Recognition with Visual Transformers and Attentional Selective Fusion

- VTFF -

Paper๐Ÿ˜™, IEEE Transactions on Affective Computing ์— ์‹ค๋ฆฐ ๋…ผ๋ฌธ์œผ๋กœ 2021๋…„ 10์›”์— ๋“ฑ์žฌ.

์ด ๋…ผ๋ฌธ์€ ์ฒ˜์Œ์œผ๋กœ FER ๋ถ„์•ผ์—์„œ Transformer์„ ์‚ฌ์šฉํ•˜์—ฌ RAF-DB, FERPlus and AffectNet ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด์„œ SOTA ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑ

์ด ๋…ผ๋ฌธ์˜ ๋ฉ”์ธ CONTRIBUTIONS ๋ฅผ ์‚ดํŽด๋ณด๋ฉด,

1) Visual Transformer์„ feature fusion ์„ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ์‹์„ ์ œ์•ˆํ•˜์˜€๊ณ , LBP ํ”ผ์ณ์™€ CNN ํ”ผ์ณ๋ฅผ ํ†ตํ•ฉ์‹œ์ผœ global-local attention ๊ฐ’์„ ๋„์ถœํ•˜์˜€๊ณ  ์ด๋ฅผ ํ†ตํ•ด FER ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œ์ผฐ๋‹ค๋Š” ์ ์—์„œ ์˜์˜๊ฐ€ ์žˆ์Œ

2) ASF(Attention Seletive Fusion) ์ด๋ผ๋Š” ๋ชจ๋“ˆ์„ ์ •์˜ํ•˜์˜€๊ณ  ๊ธ€๋กœ๋ฒŒํ•œ ์–ผ๊ตด ์ •๋ณด์™€ ๋กœ์ปฌ ์–ผ๊ตด ์ •๋ณด์— ๋Œ€ํ•ด ํ•ฉ์ณ์„œ ์‚ฌ์šฉํ•˜๋Š” ๋ชจ๋“ˆ์ด๋‹ค. ์ด๋ฅผ ํ†ตํ•ด์„œ ํ•„์š”์—†๋Š” ์ •๋ณด๋Š” ์••์ถ•ํ•˜๋Š” ์‹์œผ๋กœ ์ข…๋‹จ๊ฐ„ ํ•™์Šต์„ ํ•  ์ˆ˜ ์žˆ๋‹ค.

3) ์ฒ˜์Œ์œผ๋กœ FER ๋ถ„์•ผ์—์„œ Transformer์„ ์‚ฌ์šฉํ•˜์˜€๋‹ค. global self-attention์€ ์ „์ฒด์ ์ธ ๋„คํŠธ์›Œํฌ๊ฐ€ visual feature sequences์˜ ์š”์†Œ๋“ค์‚ฌ์ด์˜ ๊ด€๊ณ„๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜์˜€๊ณ  ์ •๋ณด์˜ ๊ฒฐํ•์ด ์žˆ๋Š” ๋ถ€๋ถ„์€ ๋ฌด์‹œํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜์˜€๋‹ค.

4) RAF-DB, FERPlus and AffectNet ์—์„œ ๊ธฐ์กด SOTA ๋ชจ๋ธ ๋ณด๋‹ค ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค.


LBP (Local Binary Pattern)

๋…ผ๋ฌธ ๋‚ด์šฉ์— ๋“ค์–ด๊ฐ€๊ธฐ ์•ž์„œ, ์ด ๋…ผ๋ฌธ์—์„œ๋Š” RGB ์ด๋ฏธ์ง€์™€ ๋™์‹œ์— LBP ๋ผ๋Š” ์ด๋ฏธ์ง€๋„ ํ•จ๊ป˜ ํ•™์Šต์‹œ์ผœ ์‚ฌ์šฉํ•œ๋‹ค. LBP ์ด๋ฏธ์ง€๋ž€, ์ด๋ฏธ์ง€๋ฅผ binary ๊ฐ’์„ ์‚ฌ์šฉํ•˜์—ฌ ํŠน์ง•์„ ์ถ”์ถœํ•œ ์–ด๋–ค ์ด๋ฏธ์ง€๋กœ ๋ณ€ํ™˜์‹œํ‚ค๋Š” ๊ธฐ๋ฒ•์ธ๋ฐ, ์•„๋ž˜ ์ด๋ฏธ์ง€๋ฅผ ๋ณด๊ณ  ์ดํ•ดํ•ด๋ณด์ž! ๐Ÿ˜ธ

image

[์ด๋ฏธ์ง€ ์ถœ์ฒ˜: https://towardsdatascience.com/face-recognition-how-lbph-works-90ec258c3d6b]

๋จผ์ € ์ด๋ฏธ์ง€๋ฅผ ๊ทธ๋ ˆ์ด ์Šค์ผ€์ผ๋กœ ๋ณ€ํ™˜ ํ•œ ํ›„์—, ๋ชจ๋“  ํ”ฝ์…€์— ๋Œ€ํ•ด sliding window ๋ฅผ ํ•˜๋ฉด์„œ 3x3 pixel ๊ฐ’์œผ๋กœ ๊ฐ€์ ธ์™€์„œ ๊ฐ€์žฅ ๊ฐ€์šด๋ฐ์˜ ๊ฐ’์„ ๊ธฐ์ค€์œผ๋กœ ๋‚˜๋จธ์ง€ 8๊ฐœ์˜ ์˜์—ญ์˜ ์ˆซ์ž์™€ ๋น„๊ต๋ฅผํ•œ๋‹ค. ์—ฌ๊ธฐ์„œ ๊ฐ€์šด๋ฐ ์ˆซ์ž๋ณด๋‹ค ํฌ๋ฉด 1, ์ž‘์œผ๋ฉด 0 ์œผ๋กœ ์ด์ง„ํ™”๋ฅผ ์‹œ์ผœ์ค€ ํ›„, ๊ฐ ๊ฐ’๋“ค์„ ์ผ๋ ฌ๋กœ ๋‚˜์—ดํ•˜์—ฌ 2์ง„์ˆ˜๋กœ ๋‚˜ํƒ€๋‚ธ ๊ฐ’์„ ๋‹ค์‹œ 10์ง„๋ฒ•์œผ๋กœ ๋ฐ”๊ฟ”์ค€๋‹ค.

์˜ˆ์‹œ ์‚ฌ์ง„์„ ๋ณด๋ฉด ๊ฐ€์šด๋ฐ ๊ฐ’์ธ 90์„ ๊ธฐ์ค€์œผ๋กœ ์ž‘์€ ๊ฒƒ์€ 0, ํฐ ๊ฐ’์€ 1๋กœ ๋ณ€ํ™˜ ํ•œ ํ›„์—, ์™ผ์ชฝ์—์„œ ์˜ค๋ฅธ์ชฝ ์œ„์—์„œ ์•„๋ž˜ ์ˆœ์„œ๋Œ€๋กœ concatenate ํ•œ ๊ฐ’์„ ๋‹ค์‹œ 10์ง„๋ฒ•์œผ๋กœ ๋ฐ”๊พธ์–ด์„œ ๊ฐ€์šด๋ฐ ๊ฐ’์„ 141๋กœ ๋ณ€ํ™˜ํ•ด ์ฃผ์—ˆ๋‹ค.

**์ด๋Ÿฐ์‹์œผ๋กœ ๋ชจ๋“  ํ”ฝ์…€์—๋Œ€ํ•œ ๊ฐ’๋“ค์„ ๋ณ€ํ™˜ํ•ด ์ฃผ์–ด ์›๋ณธ ์ด๋ฏธ์ง€๋ณด๋‹ค ์ด๋ฏธ์ง€์˜ ํŠน์ง•์„ ์ž˜ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋Š” ์ด๋ฏธ์ง€๋กœ ๋ณ€ํ™˜๋˜๋Š” ๊ฒƒ์ด๋‹ค.


Overview of proposed VTFF (Visual Transformer Fusion Feature)

์ „์ฒด์ ์€ ๋ชจ๋ธ ๊ตฌ์กฐ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

image

RGB ์ด๋ฏธ์ง€์™€ LBP ์ด๋ฏธ์ง€๋ฅผ ๊ฐ ๊ฐ™์€ feature extract ๋ชจ๋ธ์„ ํ†ต๊ณผ์‹œ์ผœ ๋‚˜์˜จ ํ”ผ์ณ๋งต(feature map) ์— ๋Œ€ํ•ด Attentional Selective Fusion ๋ชจ๋“ˆ์„ ๊ฑฐ์นœ ํ›„, ์ด๋ฅผ ๋‹ค์‹œ 1D ๋กœ ๋งŒ๋“ค์–ด Transformer ๊ตฌ์กฐ์— ํ†ต๊ณผ์‹œ์ผœ ๋‚˜์˜จ ๊ฐ’๋“ค์„ ๊ฐ€์ง€๊ณ  emotion์— ๋Œ€ํ•œ classification์„ ์ง„ํ–‰ํ•ด์ค€๋‹ค.

ํ›„ํ•˜ํ›„ํ•˜๐Ÿ˜ ๋ญ”๊ฐ€ ์žฅํ™ฉํ•œ๋ฐ ํ•˜๋‚˜์”ฉ ์‚ดํŽด๋ณด์ž


VTFF (Feature extract backbone)

์ „์ฒด ๊ตฌ์กฐ ์ค‘, input๊ณผ feature extract ๋ถ€๋ถ„์ด๋‹ค.

image

๋จผ์ € 3์ฑ„๋„์„ ๊ฐ€์ง„ RGB ์ด๋ฏธ์ง€๋กœ ์–ด๋–ป๊ฒŒ LBP๋ฅผ ๋งŒ๋“œ๋Š”์ง€ ์‚ดํŽด๋ณด๋ฉด, RGB์˜ ๊ฐ ์ฑ„๋„์— ๋Œ€ํ•œ LBP ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•ด์ค€ ํ›„ ๊ฐ ์ด๋ฏธ์ง€๋“ค์„ Concatenate ์‹œ์ผœ์„œ ๊ฐ™์€ 3์ฑ„๋„์˜ ์ฐจ์›์œผ๋กœ ๋งŒ๋“ค์–ด์ค€๋‹ค. ์ด๋ ‡๊ฒŒ ๋˜๋ฉด Feature extract backbone ์ธ ๊ฐ๊ฐ์˜ renset18์— ๊ฐ™์€ input ์‚ฌ์ด์ฆˆ๋กœ ๋“ค์–ด๊ฐ€๊ฒŒ ๋œ๋‹ค. ์ด๋•Œ, ResNet18 ์€ MS-Celeb-1M ๋ฐ์ดํ„ฐ ์…‹์œผ๋กœ pre-trained ๋œ weight๋กœ weight๋ฅผ ์ดˆ๊ธฐํ™” ์‹œ์ผœ์ค€๋‹ค.

image

๋‘ ์ด๋ฏธ์ง€๊ฐ€ ๊ฐ๊ฐ์˜ resnet18์„ ํ†ตํ•ด์„œ ํ”ผ์ณ๋งต์„ ์–ป๊ฒŒ ๋˜๋ฉด, ์ด๊ฒƒ์„ ๋‹ค์Œ๊ณผ ๊ฐ™์ด $X_{RGB}$, $X_{LBP}$ ๋ผ๊ณ  ํ•œ๋‹ค. ๊ฐ ์ฐจ์›์€ ์•„๋ž˜์™€ ๊ฐ™์ด R(๋…ผ๋ฌธ์—์„œ๋Š” 32)์˜ ๋น„์œจ๋งŒํผ ์ฐจ์›์ด ์ถ•์†Œ๋˜๋ฉฐ $H /over R$ ๊ณผ ๊ฐ™์€ ๋ถ„์ˆ˜๋กค $H_d$ ์™€ ๊ฐ™์ด ์žฌ ์ •์˜ ํ•ด์ฃผ์—ˆ๋‹ค๊ณ  ํ•œ๋‹ค.

image


VTFF (Attentional selective fusion module = ASF)

๋‹ค์Œ์€ ์–ดํ…์…˜ ๋ชจ๋“ˆ์ด๋‹ค, ์œ„์—์„œ ๋„์ถœํ•œ feature ๊ฐ’์— ๋Œ€ํ•ด์„œ attention ์—ฐ์‚ฐ์„ ์ง„ํ–‰ํ•ด์ฃผ๊ฒŒ ๋˜๋Š”๋ฐ, ๋จผ์ € ๋‘ feature๊ฐ’์„ integration์˜ ์ตœ๊ธฐ wegigt ๊ฐ’์„ ๊ณฑํ•ด์ค€ ํ›„ ๋”ํ•ด์ค€๋‹ค.

์ด๊ฒƒ์„ U ๋ผ๊ณ  ์ •์˜ํ•œ๋‹ค. ๊ทธ๋Ÿผ ์ด์ œ ์ด U ๋ฅผ ๊ฐ๊ฐ Local Attention, Global Attention์„ ์ง„ํ–‰ํ•ด ์ฃผ๊ฒŒ ๋˜๋Š”๋ฐ ๊ทธ ๊ตฌ์กฐ์— ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค.

  • Local Attention ์˜ ๊ฒฝ์šฐ input feature์— ๋Œ€ํ•œ ๋ฏธ์„ธํ•œ ๋””ํ…Œ์ผ๋“ค์„ ๊ธฐ์–ตํ•˜๊ณ  ์žˆ์œผ๋ฉฐ, ์ปจ๋ณผ๋ฃจ์…˜์„ ๊ฑฐ์น˜๋ฉด์„œ Height์™€ Width๋Š” ๊ทธ๋Œ€๋กœ, channel ๊ฐ’์€ ์ •ํ•ด์ง„ ๊ฐ’์œผ๋กœ ์ค„์–ด๋“ค๊ฒŒ ๋˜๋ฉด์„œ ์ฐจ์›์˜ ๊ณต๊ฐ„์€ input size ๋งŒํผ ๊ทธ๋Œ€๋กœ ์œ ์ง€ํ•˜๋ฉด์„œ ์ ์  ์ฑ„๋„์˜ ์ฐจ์›์ด ์ค„์–ด๋“ค๊ฒŒ ๋œ๋‹ค.

ย ย ย ย ย  ==> ์ด๊ฒƒ์œผ๋กœ ์ง€์—ญ์ ์œผ๋กœ ํฉ์–ด์ ธ ์žˆ๋Š” ์ฐจ๋ณ„์  ์ •๋ณด์— ์ง‘์ค‘ํ•˜๊ฒŒ ๋œ๋‹ค

  • ๋ฐ˜๋ฉด, Global Attention์˜ ๊ฒฝ์šฐ ์ฑ„๋„ ์ฐจ์›์€ ๊ทธ๋Œ€๋กœ ๋‘” ์ฑ„, Height์™€ Width์˜ ๊ฐ’์„ 1๋กœ ์ค„์ธ๋‹ค.

ย ย ย ย ย  ==> ์ด๊ฒƒ์œผ๋กœ ์ฑ„๋„ ์ฐจ์› ์•ˆ์—์„œ feature๋“ค์˜ ๊ธ€๋กœ๋ฒŒํ•œ ๊ด€๊ณ„๋ฅผ ํฌ์ฐฉํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•œ๋‹ค.

*์„œ๋กœ๊ฐ€ ์„œ๋กœ์˜ ๋ณด์™„์ ์ด ๋  ์ˆ˜ ์žˆ๋Š” ๊ฐ’๋“ค์„ ๋„์ถœํ•˜๊ฒŒ ๋œ๋‹ค.

์•„๋ž˜ ์ˆ˜์‹์„ ์ฐธ๊ณ ํ•˜์ž!

image

์–ดํ…์…˜ ๋ชจ๋“ˆ์˜ ๋งˆ์ง€๋ง‰ ๋ถ€๋ถ„์ด๋‹ค..! ์œ„์—์„œ ๊ตฌํ•œ $G(U)$์™€ $L(U)$๋ฅผ broadcasting addition์„ ํ†ตํ•ด ๋”ํ•œ ๊ฐ’์„ $GL(U)$ ๋ผ๊ณ  ์žฌ์ •์˜ ํ•ด์ค€๋‹ค.

์—ฌ๊ธฐ์„œ Broadcasting ์— ๋Œ€ํ•ด ์‚ด์ง ์–ธ๊ธ‰ํ•˜์ž๋ฉด, ์ฐจ์›์ด ๋‹ฌ๋ผ๋„ ๊ณ„์‚ฐ์ด ๊ฐ€๋Šฅํ•ด์ง€๋„๋ก ์ž๋™์œผ๋กœ ๋งž์ถฐ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋Š” ๊ธฐ๋ฒ•์ด๋‹ค.

์•„๋ž˜ ์ด๋ฏธ์ง€ ์ฐธ๊ณ !

image

๋‹ค์‹œ ์–ดํ…์…˜ ๋ชจ๋“ˆ๋กœ ๋Œ์•„์™€์„œ, ์ด๋ ‡๊ฒŒ ๊ตฌํ•œ $GL(U)$ ๋ฅผ ๋‹ค์‹œ ๋ชจ๋“ˆ์˜ ์ž…๋ ฅ๋‹จ์— ๋“ค์–ด์™”๋˜ ํ”ผ์ณ๋งต๊ณผ elementwise multiplication์„ ํ†ตํ•ด ๊ณ„์‚ฐ์„ ํ•ด์ฃผ๊ณ  ๋˜ ๋‹ค์‹œ ๋”ํ•ด์ค€ ๊ฐ’์„ feature fusion๋œ ๊ฐ’ $X_{fused}$ ๋ผ๊ณ  ์ •์˜ํ•ด์ค€๋‹ค.

์—ฌ๊ธฐ์„œ LBP ์˜ ํ”ผ์ณ๋งต์—๋Š” $GL(U)$์„ ๊ทธ๋Œ€๋กœ ๊ณ„์‚ฐํ•ด์ฃผ๊ณ , RGB ์˜ ํ”ผ์ณ๋งต์—๋Š” $1-GL(U)$ ์„ ๊ณฑํ•ด์ฃผ๋Š”๋ฐ, ์—ฌ๊ธฐ์„œ $1-GL(U)$์€ 1๊ฐ’์„ ๊ฐ€์ง„ matrix ๋กœ, ๋ชจ๋“  $GL(U)$์˜ element์—์„œ 1์”ฉ ๋นผ์ค€๋‹ค๊ณ  ์ƒ๊ฐํ•˜๋ฉด ๋œ๋‹ค. ๋‘ ํ”ผ์ณ๋งต์— ๋‹ค๋ฅด๊ฒŒ ๊ณฑํ•ด์ฃผ๋Š” ์ด์œ ๋Š”, ์–ด์ฐจํ”ผ attention layer์˜ ์ž…๋ ฅ์— ๋“ค์–ด์˜จ ๊ฐ’์ด LBP์™€ RGB์˜ ํŠน์ง•๋“ค์ด ์ž˜ ์–ด์šฐ๋Ÿฌ์ง„ ๊ฐ’๋“ค์ด ๋“ค์–ด์˜ฌ ๊ฒƒ์ด๊ณ , ์ด๋ฅผ ํ†ตํ•ด ์–ป์€ ๊ฐ’ ๋˜ํ•œ, ํŠน์ง•์„ ๋ฐ˜์˜ํ•˜๊ณ  ์žˆ์„ ๊ฑฐ๊ธฐ ๋•Œ๋ฌธ์— ์ž…๋ ฅ์˜ feature map ์—๋„ ๋น„์œจ์„ ๋‹ค๋ฅด๊ฒŒ ํ•ด์„œ ๊ณ„์‚ฐํ•ด์ฃผ๋Š” ๊ฒƒ์ด๋ผ๊ณ  ํŒ๋‹จ๋œ๋‹ค.

image


VTFF (Multi-Layer Transformer Encoder)

๋‹ค์Œ์€ ASF์—์„œ ์–ป์€ matrix ๋ฅผ 1์ฐจ์›์œผ๋กœ ๋ณ€๊ฒฝ์‹œ์ผœ์„œ ์‹œํ€€์Šค์˜ ๋งจ ์•ž์— cls ํ† ํฐ์„ ๋ถ™์ด๊ณ ~ ์ง„ํ–‰์‹œ์ผœ ์ฃผ๋Š”๋ฐ, ์ด๋Š” VIT ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ์—์„œ ์ž์„ธํžˆ ๋‹ค๋ฃจ์—ˆ์œผ๋‹ˆ ์—ฌ๊ธฐ ์ฐธ๊ณ !

image



Results

๋‹ค์Œ์€ ์ด์ „ SOTA ๋ชจ๋ธ๋“ค๊ณผ์˜ ์„ฑ๋Šฅ์„ ๋น„๊ตํ•œ ํ‘œ์ด๋‹ค.

image



์ฐธ๊ณ 

[1] Local Binary Pattern

ํƒœ๊ทธ: , ,

์นดํ…Œ๊ณ ๋ฆฌ:

์—…๋ฐ์ดํŠธ:

๋Œ“๊ธ€๋‚จ๊ธฐ๊ธฐ