[Paper Review๐] Noisy Student Training using Body Language Dataset Improves Facial Expression Recognition
Noisy Student Training using Body Language Dataset Improves Facial Expression Recognition
-Noisy Student FER-
Paper๐
์ด๋ฒ์, Papers with code ๊ธฐ์ค, AFEW ๋ฐ์ดํฐ๋ก SOTA์ฑ๋ฅ์ ๋ฌ์ฑํ FER ๋ ผ๋ฌธ์ ๋ฆฌ๋ทฐํ๋ ค๊ณ ํ๋ค.
์ฐธ ๋ง์ด๋ ์ฌ์ฉํ์๋ค. 3๊ฐ์ง attention ๊ธฐ๋ฒ, ์ผ๊ตด ์ด๋ฏธ์ง๋ฅผ 3๊ฐ์ง๋ก ๋๋์ด์ ๋ถ์, noisy student์ผ๋ก ํ์ต, extra dataset ์ฌ์ฉ.. ์ด๋ ๊ฒ ๋ค ์ฌ์ฉํด๋ audio๋ฅผ ์ฌ์ฉํ multi-modal model ๋ณด๋ค๋ ์๋์ ๋ญํฌ๋์ด์๋ค.
**์๋ ์ด๋ฏธ์ง๋ AFEW ๋ฐ์ดํฐ์
๊ธฐ์ค์ผ๋ก ๋ชจ๋ธ ์์์ด๋ค. 6์๋ฅผ ์ฐจ์งํ๋ ์ค
Introduction
-
Propose an efficient model addresses the challenges posed by videos in the wild while tackling the issue of labelled data inadequacy
-
Previous video-based emotion recognition used visual cues but a fusion of 5 different architectures with more than 300 million parameters.
However
, this model proposed method uses a single model with approximately 25million parameters and comparable performance -
Use SOTA pre-trained deep learning model (Enlighten-GAN) for preprocessing (because, previous methods tend to amplify noise, tone distortion, and other artefacts)
-
Use three-level attention mechanism (spatial-attention block, channel-attention block, frame-attention block)
์์ฝํ์๋ฉด, ์ฑ๊ธ๋ชจ๋ธ์ ์ฌ์ฉํ๋ฉด์, ์ด๋ฏธ์ง ์ ์ฒ๋ฆฌ์ GAN, Backbone์์๋ 3๋ฒ์ attention, unlabelled dataset(extra data)์ ์ฌ์ฉํ์ฌ SOTA ์ฑ๋ฅ์ ๋ฌ์ฑํ์๋ค.
Pre-processing
์ด๋ฏธ์ง ์ ์ฒ๋ฆฌ ๊ณผ์ ์ ๋์ํ ํด๋ณด์๋ค.
๋ชจ๋ FER์ด ๊ทธ๋ฌํ๋ฏ, ๋น๋์ค ๋ฐ์ดํฐ๋ฅผ ํ๋ ์์ฒ๋ฆฌํ๊ณ , ๊ฐ ํ๋ ์์์ MTCNN์ ์ฌ์ฉํด ์ผ๊ตด์ ์ฐพ๊ณ CROPํ ํ ๊ฐ๋๋ฅผ ๋ง์ถฐ์ฃผ๋ ์์ ์ ํ๋ค. (MTCNN ๋ ผ๋ฌธ์ ์ฝ๋์ค์ด๋ค. ์ถํ ํฌ์คํ ํ๊ฒ ๋ค..!)
์ฌ๊ธฐ์ ์ถ๊ฐ๋๋๊ฒ Enlighten-GAN์ธ๋ฐ, ์์ ๊ทธ๋ฆผ์์๋ ๋ณผ ์ ์๋ฏ์ด ์ด๋์ด ํ๋ฉด์์ ์ผ๊ตด์ ํน์ง์ ์ ์ฐพ๊ธฐ ํ๋ค๊ธฐ ๋๋ฌธ์ GAN์ ์ฌ์ฉํ์ฌ์ ์ด๋ฏธ์ง๋ฅผ ๋ฐ๊ฒ ํ๋ ์ฒ๋ฆฌ๋ฅผ ํด์ฃผ์๋ค.
๊ธฐ์กด์๋ ์ ์ฒ๋ฆฌ ์๊ณ ๋ฆฌ์ฆ(gamma correction, difference of Gaussians, histogram equalization ๋ฑ)์ ์ฌ์ฉํ์๋๋ฐ, ๋ ธ์ด์ฆ๋ฅผ ์์ธํ์ํค๊ณ ํค์ด๋ ๋ค๋ฅธ ์ธ๊ณต๋ฌผ๋ค์ ์๊ณก์ํค๋ ๋ฌธ์ ๊ฐ ์์ด GAN์ ์ฌ์ฉํ๋ค๊ณ ํ๋ค.
์ด๋ ๊ฒ ๋ฐ๊ธฐ ์ฒ๋ฆฌํด์ค ์ผ๊ตด ์ด๋ฏธ์ง๋ฅผ ๋ค์ MTCNN์ ํตํด ์์ชฝ ๋๊ณผ ์์ชฝ ์ ์ ์ ๋๋๋งํฌ๋ฅผ ์ฐพ์์ ๋์์ half lower crop!, ์ ์์ half upper ๊น์ง crop! ํด์ค ํ ๋ค์ 224x224๋ก resizeํด์ค๋ค.
Backbone Network with Spatial-Attention
๋ค์์ ResNet18 backbone ๋คํธ์ํฌ ๊ตฌ์กฐ์ด๋ค. ๋ ผ๋ฌธ์์ ์ ์ํ๋ ์ด๋ฏธ์ง๊ฐ ํท๊ฐ๋ ค์ ๋ค์ ์์ ํด์ ์ ๋ฆฌํด๋ณด์๋ค.
input์ผ๋ก๋ 224x224x9 ๋ก ์ด๋ฏธ์ง ์ ์ฒ๋ฆฌ์์ ์ป์ face, eyes, mouth ์ธ ์ฅ์ ์ด๋ฏธ์ง๋ฅผ ์ ๋ ฅํ๋ค. ์ด ๊ตฌ์กฐ๋ group-convolution์ ์ฌ์ฉํ์ฌ ๋ ๋ฆฝ์ ์ธ ์ฐ์ฐ์ ์ํํ๋ค๊ณ ํ๋ค. (์ด๋ฏธ์ง๋ก๋ 3๊ฐ์ง ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ๊ฒ ์ฒ๋ผ ๋ณด์ด์ง๋ง ํ๋์ ๋ชจ๋ธ๋ก ๋ ๋ฆฝ์ ์ธ ์ฐ์ฐ์ ์ํํ๋ ๊ฒ..!) ๋ณด๋ฉด, ์ฐ๋์ ํ ๋๋ฆฌ์ BOX๊ฐ Residual block์ด๊ณ , ๊ฐ Residual block์์ SA(Spatial Attention) ๋ฅผ ์ํํ์ฌ 1์ฐจ์์ feature๋ฅผ ๋ฝ์์ 4๊ฐ์ block์์ ๋ฝ์ feature๋ค์ concat ์์ผ์ 960๊ฐ์ feature vector์ ๋ฝ์๋ธ๋ค. ์ด๋ ๊ฒ ๋ฝ์ feature๋ ์ด๋ฏธ์ง์์ ์ด๋ ๋ถ๋ถ์ด ์ค์ํ์ง์ ๋ํ ์ ๋ณด๋ฅผ ๊ฐ์ง๊ณ ์๋ค.
- Spatial Attention ์ฐ์ฐ
$W_sl$๊ณผ $W_s2$๋ ๊ฐ๊ฐ ๊ฐ์ค์น ํ๋ ฌ๊ณผ ๋ฒกํฐ์ด๋ค. $L$์ 2D-tensor๋ก ์ฐจ์์ ๋ณ๊ฒฝํด์ค channel์ด๋ผ๊ณ ๋ณด๋ฉด ๋๋ค. ์์ธํ๊ฑด ๋ ๊ณต๋ถํด์ผ๊ฒ ์ง๋ง, ์์์ ๋ณด๋ฉด attention ๊ตฌํ๋ ์์๊ณผ ๋์ผํ๋ฐ ์ข ๋ค๋ฅธ ๊ฒ์ ์ ์ ์๋ค. attention์ ๋ณธ๋, fc ๋ ์ด์ด์์ ์ฐ์ฐ์ ํด์ฃผ์๋ ๋ฐ๋ฉด, ์ฌ๊ธฐ์๋ ํ๋ ฌ๊ณฑ์ผ๋ก ์ฐ์ฐ์ ํ๋ค. ๋๊ฐ ์์ธํ ์์๋๋ถ ์์ผ๋ฉด ์ฐ๋ฝ์ข.. ์ฃผ์ ์
channel Attention
๊ฐ face, eyes, mouth์์ ๋ฝ์ 960feature ๋ก attention์ฐ์ฐ์ ํตํด ํ๊ท ์ ๋ธ ํ๋์ 960feature์ ๋ฝ๊ฒ ๋๋ค. ์ด๋ฅผ ๋ค์ 512 feature๋ก ์ค์ด๋ฉด ์ด feature๊ฐ ํ ํ๋ ์์ feature
์ด ๋๋ค
์ด๋ ๊ฒ ๊ฐ ํ๋ ์์ ๋ํ ํ๊ท feature๋ค์ ๊ณ์ฐํด ๊ตฌํด๋ด์ด 512 feature๋ฅผ ๋ง๋ค๊ฒ ๋๋ ๊ฒ์ด๋ค.
Frame Attention
๊ฐ ํ๋ ์์ ๋ํ 512 feature ์ ๋ํด์ ๋ ๋ค์ attention! ๊ทธ๋ฆฌ๊ณ ์ต์ข ์ ์ผ๋ก 7๊ฐ์ label์ ๋ํด classification ํด์ค๋๋ค.
Noisy student training
AFEW ๋ฐ์ดํฐ๋ฅผ ํ์ธํด๋ณด๋ ํ์คํ ์์ด ์ ์๋ค. ์ด๊ฑธ๋ก๋ง ํ์ตํ๋ฉด ์ฑ๋ฅ์ด ์ ์๋์ค๊ธด ํ ๊ฒ ๊ฐ๋ค ใ ใ ๊ทธ๋์ ์ด ๋ ผ๋ฌธ์์ ์ ์ํ๊ฒ, Unlabelled๋ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ธ์์ pseudo label์ ํ ํ ํ์ต์ํจ ๋ชจ๋ธ๋ก ์ฌ์ฉํ๋ ๊ฒ(noisy student ๊ฐ๋ ) ์ธ๋ฐ, ์ฌ๊ธฐ์๋ unlabel ๋ ๋ฐ์ดํฐ๋ฅผ BoLD(BodyLanguage Dataset)์ ์ฌ์ฉํ์๋ค.
์์๋ ๋ค์๊ณผ ๊ฐ๋ค.
- AFEW8.0์ผ๋ก ํ์ตํ๋ค.
- ํ์ตํ ๊ฒ ์ค ๊ฐ์ฅ best model๋ก BoLD ๋ฐ์ดํฐ์ pseudo label์ ์งํํ๋ค.
- AFEW8.0์ ๋ํ์ฌ label์ด ์์ฑ๋ BoLD ๋ฐ์ดํฐ๋ฅผ ํฉํ ๋ฐ์ดํฐ(์ต์ข ๋ฐ์ดํฐ์ )๋ก ํ์ต์ ์ํค๋๋ฐ ์ฌ๊ธฐ์ + noise๋ฅผ ์ถ๊ฐํด์ค๋ค
- ์ต์ข ๋ฐ์ดํฐ์ ์ผ๋ก 3๋ฒ 4๋ฒ ๋ฐ๋ณตํ๋ค.
(์ฌ์ฉํ noise์๋ dropout(0.5), contrast, brightness, translation, sharpness, flips ๋ฑ์ ๋๋ค์ผ๋ก ์ฌ์ฉํจ)
๐ => Noisy Student ์ฐธ๊ณ
result
๊ฐ face, mouth, eyes ์ ๋ํด์ afew8.0์ผ๋ก ์ฑ๋ฅ์ธก์ ํ ๊ฒฐ๊ณผ์ธ๋ฐ์, ๊ฐ์ ํํ์ ์์ด์ ๋์ด ๋ง์ด ์ฐ์ด๋ sad๋ ์ญ์ eyes ์์ ์ฑ๋ฅ์ด ์ข๊ณ , happy์ angry ๊ฐ์ด ์ ์ ํํ์ด ์ค์ํ ๊ฐ์ ์ mouth์์ ์ฑ๋ฅ์ด ์ข๊ฒ ๋์จ ๊ฒ์ ํ์ธํ์์ต๋๋ค. ํ์ง๋ง best ๋ ์ด ์ธ๊ฐ์ง๋ฅผ ๋ชจ๋ ํฉํด์ ์ฌ์ฉํ๋ ๊ฒ! ์ด๋ผ๊ณ ์ฃผ์ฅํ๋ค์
๋ค์์ iteration์ ๋ฐ๋ณตํ๋ฉด์ ์ฑ๋ฅ์ด ํฅ์๋จ + ๊ท ํ๋ง์ถ unlabelled ๋ฐ์ดํฐ์ ์ค์์ฑ์ ๋ณด์ฌ์ฃผ๋ ์ ๋๋ก ํด์ํ๋ฉด ๋ ๊ฒ ๊ฐ์
CK+๋ฐ์ดํฐ์์ 99.69%, AFEW ์์๋ 55.17%์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์๋ค๋ ๊ฒ์ ์ ์ ์์ต๋๋ค.
component importance๋ฅผ ๋ณด์ฌ์ค๋๋ค. ์ญ์ ์ด๊ฒ์ ๊ฒ ๋ค ๋ถ์ด๊ณ training๋ ๋ง์ด ๋ฐ๋ณตํ๊ฒ ์ฑ๋ฅ์ด ์ข๊ฒ ๋์ค๋ค์.
๊ทธ๋ผ์๋ AFEW8.0 ๋ฐ์ดํฐ ๊ธฐ์ค์ผ๋ก 6๋ฑ์ด๋ผ๋๊ฒ.. ์ด๋ ๊ฒ ๋ค ๋ถ์ฌ๋ ๊ฒฐ๊ตญ multi-modal model์ ์ด๊ธธ ์ ์๋ค๋โฆ ๊ณต๋ถํ๋ฉด์ ๋ง์ ์๊ฐ์ ํ๊ฒ ํ๋ ๋ ผ๋ฌธ์ด์์ต๋๋ค. ์ต์ ๊ธฐ๋ฒ๋ค(GAN๊ณผ attention 3๊ฐ์ง)์ ๋ชจ๋ ๋ค ๊ฐ๋ค ์ฐ๊ณ ์ฌ์ง์ด extra dataset๊น์ง ์ฌ์ฉํ์๋๋ฐ AUDIO๋ฅผ ๊ฐ์ด ์ฌ์ฉํ model๊ณผ 10% ์ฉ์ด๋ ์ฐจ์ด๊ฐ ๋๋ค. visual ๋ง์ผ๋ก๋ ํ๊ณ๊ฐ ์๋ ๊ฒ์ธ์ง ์๋๋ฉด ์๋ก์ด ์๊ณ ๋ฆฌ์ฆ์ ์ ์ํ๊ณ ๋ฐฉํฅ์ ์ ํํ๋ ๊ฒ์ ๊ณ ๋ฏผํด๋ด์ผ๊ฒ ๋ค..!
์ค๋๋ ๋ฌด์ฌํ ์ธ๋ฏธ๋ ์๋ฃ!๐ฝ
๋๊ธ๋จ๊ธฐ๊ธฐ