[Paper Review๐] Distract Your Attention: Multi-head Cross Attention Network for Facial Expression Recognition
Noisy Student Training using Body Language Dataset Improves Facial Expression Recognition
-DAN-
paper๐
์ด๋ฒ์, Papers with code ๊ธฐ์ค, AffectNet Data๋ก ํ์ฌ 2์๋ฅผ ์ฐจ์งํ๊ณ ์๋ ๋ ผ๋ฌธ์ ๋ถ์ํด๋ณด๊ณ ์ ํ๋ค.
FER์ meta learning ๊ธฐ๋ฒ์ ์ ์ฉํ๊ณ ์ ์ฌ๋ฌ meta learning ๊ธฐ๋ฒ์ ๊ณต๋ถํ๋ ์ค, ๊ธฐ์กด ๋ฐฉ์๋ค์ ์์ ๋ค๋ฅด๊ฒ ์๊ธด ์ด๋ฏธ์ง์์ ๊ฐ ํด๋์ค ๋น ์ ์ ๋ฐ์ดํฐ๋ง์ ๊ฐ์ง๊ณ ์ฐ์ฐํ๋ ์๊ณ ๋ฆฌ์ฆ ๋ฐฉ์์ ์ ์ํ๋ค.
ํ์ง๋ง ์ผ๊ตด ๋ฐ์ดํฐ์ ๊ฒฝ์ฐ, ์ผ๊ตด์ด๋ผ๋ ๋ฒ์ฃผ๋ ๊ฐ๊ณ , ๊ทธ ์์์ ๋ฏธ์ธํ ํ์ ์ฐจ์ด๋ง ์๊ธฐ ๋๋ฌธ์ ๊ทธ ์ฐจ์ด์ ์ด์ ์ ๋ง์ถ๋ฉด์ ์๊ณ ๋ฆฌ์ฆ์ ์ด๋ป๊ฒ ์ ๊ทผํด์ผํ ์ง์ ๋ํด ๊ณ ๋ฏผํ๊ณ ์๋ค.
๊ทธ๋์ ์ฝ๊ฐ ๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ์ ์ด์ฉํ๋ฉด์ ์ผ๊ตด ๋ถ๋ถ, ์ค์ํ ํ์ ์ด ๋ณํํ๋ ๊ทธ ๋ถ๋ถ์ ์ด์ ์ ๋ง์ถ ๋ ผ๋ฌธ์ ์ฐพ์์ ๊ณต๋ถํด ๋ณด์๋ค.
๋ ผ๋ฌธ์์ ์ ์ํ๊ณ ์๋ ์ ์ฒด ๋ชจ๋ธ ๊ตฌ์กฐ๋ ์๋์ ๊ฐ๋ค.
์ฌ๋ ๋ชจ๋ธ๋ค๊ณผ ๋น์ทํ๊ฒ base model (์ฌ๊ธฐ์๋ resnet ์ฌ์ฉ) ์ผ๋ก feature์ ์ถ์ถํ์ฌ ๊ทธ feature๋ก attention์ ๊ฑฐ์ณ์ ์ฒ๋ฆฌํ๋ ๋ฐฉ์์ด๋ค.
ํฌ๊ฒ FCN, MAN, AFN ์ธ ๋ชจ๋๋ก ๊ตฌ์ฑ๋์ด์๋ค.
- FCN(Feature Clustering Network)
Affinity Loss
์์์ ์๋์ ๊ฐ์ผ๋ฉฐ, $M = Y$, ์ฌ๊ธฐ์ Y๋ ํด๋์ค(7๊ฐ), ์ด๋ฉฐ feature๊ฐ $x^{`}$ ์ ๊ฐ class์ ํด๋นํ๋ random์ผ๋ก ์ ํด์ง center point์ ์ฐจ์ด๋ก loss๋ฅผ ๊ตฌํ๊ณ ์๋ค.
์๋๋ Affinity Loss ๋ฅผ ์ฌ์ฉํจ์ผ๋ก์จ inter class ๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ์ต๋ํ ์ํค๋ฉด์ intra class์ ๊ฑฐ๋ฆฌ๋ ์ต์ํ ์ํค๋ ์์ผ๋ก ๋ฐ์ดํฐ ๋ถํฌ๊ฐ ์ ๋ฆฌ๋๋ ๊ฒ์ ๋ณผ ์ ์๋ค.
- MAN (Multi-head cross Attention Network)
Attention ๋ชจ๋์ ์ด 2๊ฐ์ง๋ฅผ ์ฌ์ฉํ๊ณ ์์ผ๋ฉฐ Spatial, Channel attention์ ์ฌ์ฉํ๊ณ ์๋ค. ๋ attention์ ์ด์ ๋ ผ๋ฌธ์์๋ ๋ค๋ค๋๋ฐ ์ด๋ฆ๋ง ๊ฐ๊ณ ๊ทธ ๋ด์ฉ์ ๋ค๋ฅธ ๊ฒ ๊ฐ๋ค.
SA์ CA ๋ฅผ ์ฌ์ฉํ ๋ ผ๋ฌธ์ [๋ ผ๋ฌธ์ ๋ฆฌ๐] Noisy Student Training using Body Language Dataset Improves Facial Expression Recognition ์ฌ๊ธฐ๋ฅผ ์ฐธ๊ณ ํ๋ฉด ๋ ๊ฒ ๊ฐ๋ค.
์ด๋ฒ attention ์์๋ local feature์ ๋ ์ ๋ฝ๊ธฐ ์ํด์ 3x3, 1x3, 3x1 ์ปจ๋ณผ๋ฃจ์ ์ ๊ฐ๊ฐ ๊ฑฐ์ณ์ summation ํ๋ ๋ฐฉ์์ผ๋ก ์ฌ์ฉํ๊ณ ์๋ค. ๋น์ฐํ ๋ง์ด๊ฒ ์ง๋ง ์ฌ๋ฌ ์ฌ์ด์ฆ์ kernel๋ก convolution์ ํ๊ณ ๋ํ๋ฉด ํน์ง feature๋ค์ด ๋ํด์ ธ์ ์ค์ ๋ถ๋ถ์ ๊ฐ์ด ๋ ์ปค์ง๊ธฐ ๋๋ฌธ์ ์ง์ญ์ ํน์ง์ ์ ํฌ์ฐฉํ ์ ์๊ฒ ๋๋ค.
์ด ํ, spatial attention์ output ๊ฐ์ Channel Attention์ input ๊ฐ์ผ๋ก ๋ค์ด๊ฐ์ ๋๋ฒ์ linear๋ฅผ ๊ฑฐ์น๊ฒ ๋๋ค.
- AFN (Attention Fusion Network)
MAN ๋ชจ๋์ ๊ฑฐ์ณ ๋์จ ํผ์ณ๋ค์ ์๊ทธ๋ชจ์ด๋ํจ์๋ฅผ ์ตํ ํ ๊ฐ๊ฐ summation์ ํด์ฃผ์ด linear -> batch normalization์ ๊ฑฐ์ณ์ ์ต์ข feature๋ฅผ ๋ฝ๊ฒ ๋๋ค.
Partition Loss
AFN ์์ ์ฌ์ฉํ๋ loss๋ ๋ค์๊ณผ ๊ฐ์๋ฐ, ์์์ attention ์ด k ๋ฒ ๋์๊ฐ๋ฏ๋ก ๊ทธ๊ฒ ๋งํผ ํ์คํธ์ฐจ๋ก ๋๋์ด์ log softmax๋ก ๊ณ์ฐํ๊ณ ์๋ค.
๊ฒฐ๊ตญ ์ต์ข loss ๋ 3๊ฐ์ง loss๋ฅผ(affinity + partition + ce) ๋ชจ๋ ํฉํ์ฌ ์ ๋ฐ์ดํธ ํ๋๋ฐ, ์์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ณฑํด์ ๊ฐ์ค์น๋ฅผ ์ฃผ์ด ๊ณ์ฐํด์ค๋ค (๋ ผ๋ฌธ์์๋ 1.0 ์ผ๋ก ์ค์ ํด์ค)
Performance
์๋ ๊ทธ๋ํ๋ attention์ ๋ช๋ฒ ๋๋ ธ์ ๋ ์ฑ๋ฅ์ด ์ข์์ง๋ฅผ ํ๋จํ๊ธฐ ์ํด ๊ทธ๋ฆฐ ํ์ด๋ค. 4๋ฒ์ ๋ฐ๋ณตํ ๋์ ์ฑ๋ฅ์ด ๊ฐ์ฅ ์ข์๊ณ , ์ค๋ฅธ์ชฝ ๊ทธ๋ฆผ์์๋ ๊ฐ๊ฐ attention์ด ๋์๊ฐ๋ฉด์ feature์ visualizationํ ๊ฒฐ๊ณผ์ด๋ค. ๋๊ณผ ์ ์ฃผ๋ณ์ ์ค์๋๊ฐ ๋ถํฌ๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.
4๋ฒ ๋ฐ๋ณตํ๋๊ฒ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ด๋ผ๋๋ฐ ์ด์ฐ๋ณด๋ฉด ๋น์ฐํ ๊ฒฐ๊ณผ์ธ ๊ฒ ๊ฐ๋ค ์์ชฝ ๋๊ณผ ์์ชฝ ์ ๊ฐ๊ฐ ํ์ ๋ณํ์ ์์ด์ ๊ฐ์ฅ ์ค์ํ ๋ถ๋ถ์ด์ ํด๋์ค๋ค์ ๊ตฌ๋ถํ ์ ์๋ ์งํ์ด๊ธฐ ๋๋ฌธ์ ๊ฒฐ๊ณผ๊ฐ ๊ทธ๋ ๊ฒ ๋์จ ๊ฒ ๊ฐ๋ค.
๋ง์ฝ 3๋ฒ ๋ฐ๋ณตํ๋ค๋ฉด ์ ์ ์ด๋ ๋ ํ์ชฝ์ ๋ํ ์งํ๊ฐ ๋๋ฝ๋์ด์์ ํ ๋ฐ, ํ์ ์ ๋์นญ์ด ์ค์ํ๋ฏ๋ก(์๋ฅผ ๋ค์ด, ์๋ฏธ์ฌ์ฅํ ํ์ ์ ์ง์ ๋ ํ์ชฝ ๋๋ง ์ปค์ง๋ ๊ฒฝ์ฐ -_^, ๐ง ์ ๋ ์ค์์ ํ ์ชฝ ๋์ ๋ํด์๋ง ๋ถ๋ฅํ๋ค๋ฉด ๊ฒฐ๊ณผ๋ ๋ค๋ฅด๊ฒ ๋์ค๊ฒ ์ฃ ?) ์ ํ๋์ ์ฐจ์ด๊ฐ ํ์คํ ๋๋ ๊ฒ ๊ฐ์ต๋๋ค.
์ด์ ์ฌ์ฌ ์ฃผ์ ๋ฅผ ๊ตฌ์ฒดํ ํ๊ณ ์คํ์ ๊น์ง๊น์ง~ ํด๋ณผ ์๊ธฐ๊ฐ ์๋ค.. ์ผ๋จ AFEW ๋ฐ์ดํฐ ์ ์ ์ ๋ถ์ํด๋ณด๋ฉด์ Meta learning ๊ณต๋ถํด์ผ๊ฒ ๋ค. ํ์ดํ !!๐๐
๋๊ธ๋จ๊ธฐ๊ธฐ