[Paper Review๐] Frame Attention Networks for facial expression Recognition in videos
Frame Attention Networks for facial expression Recognition in videos
- FAN -
Paper๐
์ด ๋
ผ๋ฌธ์ ๋น๋์ค(์์)์ ํ๋ ์์ฒ๋ฆฌํ์ฌ ์ผ๊ตดํ์ ์ ์ธ์ํ๋๋ฐ์ ํ๊ณ๋ฅผ ์ง์ ํ๊ณ relation-attention
์ด๋ผ๋ ๊ฐ๋
์ ์ถ๊ฐํ CNN ๋ชจ๋ธ์ ์ ์ํ๊ณ ์์ต๋๋ค.
๋จผ์ , Frame์ ์ฒ๋ฆฌํ์ฌ FER(Facial Express Recognition)์ ํ๋๋ฐ self-attention์ด๋ผ๋ ๊ฐ๋ ์ ๋์ ํ ๋ฐฐ๊ฒฝ์ ์์๋ณด๊ฒ ์ต๋๋ค.
์ผ๋จ, ์์์ ์ฒ๋ฆฌํ๊ธฐ ์ํด์๋ ํ ๋น๋์ค ํ์ผ์ frame(์ด๋ฏธ์ง ํ์ผ)์ผ๋ก ๋ฐ๊พธ์ด์ ์ฒ๋ฆฌ๋ฅผ ํด์ผํ๋๋ฐ, ๊ฐ๊ฐ์ ํ๋ ์๋ค์ ๋ํ ์ผ๊ตด์ ํน์ง์ ์ฐพ๋ ๊ฒ์ ๋งค์ฐ ์ค์ํ ์ผ์ ๋๋ค.
๋ฐ๋ผ์ ์ด ๋ ผ๋ฌธ์์๋ ํ๋ ์์ํฌ์ ์ข ๋จ ํ์ต์ ์์ด์ *์ฐจ๋ณ์ ์ธ ๋ถ๋ถ์ ์๋์ผ๋ก ํ์ด๋ผ์ดํธ ํ ์ ์๋ ๋ฐฉ๋ฒ์ ์ ์ํ๊ณ ์์ต๋๋ค.
๊ทธ๋ ๋ค๋ฉด ์ฌ๊ธฐ์ ์ฐจ๋ณ์ ์ธ ๋ถ๋ถ์ด๋, ๊ฐ ํ๋ ์๋ค์ด ๊ฐ์ง๋ ์ค์๋๋ฅผ ๋งํ๊ณ ์๋๋ฐ์, ์์ธํ ๊ฒ์ ์ฒ์ฒํ ์ค๋ช ํ๊ฒ ์ต๋๋ค.
์ผ๋จ video-based FER์ ์์ด์ ํน์ง์ ์ถ์ถํ๋ ๋ฐฉ๋ฒ์๋ 3๊ฐ์ง๊ฐ ์์ต๋๋ค.
1) static-based feature extraction (ํน์ง์ ๊ธฐ๋ฐ ์ถ์ถ)
ex) LBP, Gabor filters
2) spatial-temporal methods (์๊ณ์ด, ์๊ณต๊ฐ์ ์ธ์ํ๋ ๋ฐฉ๋ฒ)
ex) LSTM, C3D
3) Geometry based methods (์ผ๊ตด์ key point๋ฅผ ์ถ์ถํ์ฌ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ)
์์ 3๊ฐ์ง ๋ฐฉ๋ฒ์์ 1) ๋ฒ์ ๋ฐฉ๋ฒ์ด EmotiW ๋ผ๋ challenge์์ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๋ฐฉ์์ด๋ผ ์ด ๋ฐฉ์์ ์ฌ์ฉํ๋ค๊ณ ํฉ๋๋ค.
๊ทธ๋ฐ๋ฐ ๋ฌธ์ ๋ ์ฌ๊ธฐ์ 1) ๋ฒ์ ๋ฐฉ์์ ์ฌ์ฉํ๋ ค๋ฉด Frame aggregation ์ด๋ผ๋ ๊ฒ์ ํด์ผํฉ๋๋ค. ์ด ๋ ผ๋ฌธ ์ด์ ์ ๋ ผ๋ฌธ์ ์ดํด๋ณด๋ฉด์ ๊ณ ์ ๋ ๊ธธ์ด์ video representation ๊ฐ์ n๊ฐ์ ํด๋์ค์ ํ๋ฅ ๋ถํฌ ๋ฒกํฐ๋ก ํ์ฑํ๋๋ฐ ์ด๊ฒ์ ํ๋ ์๋ค์ ํ๊ท ํน์ ํ์ฅ์ ๋ฐฉ์์ผ๋ก ๋ฌถ์ด์ ์ฒ๋ฆฌํ๋ค๊ณ ํฉ๋๋ค.
์๋ ์์์ ๋ณด๋ฉด
$r=\sum_k a_kf_k$ ์์, $a_k$๋ linear weight, $f_k$๋ feature representation์์ ์ถ์ถํ feature extraction(ํน์ง์ ) k๋ ๋น๋์ค์ k ๋ฒ์งธ ํ๋ ์์ด๋ฉฐ, $r$์ representation ๊ฐ์ ๋ปํฉ๋๋ค.
๊ฐ ํ๋ ์์ ๋ํด์ linear weight, ์ฌ๊ธฐ์๋ ํ์ดํผ ํ๋ผ๋ฏธํฐ ์ธ ๊ฒ ๊ฐ์ต๋๋ค. ๋ ผ๋ฌธ์์ ์ด weight ๊ฐ์ ๋ฐ๋ผ ์ฑ๋ฅ์ ์ฐจ์ด๊ฐ ์๋ค๊ณ ๋งํ ๊ฒ์ ๋ฏธ๋ฃจ์ด ๋ณด์ ์์๋ก ์ฃผ์ด์ง๋ ๋๋ค๊ฐ์ธ ๊ฒ ๊ฐ์ต๋๋ค.
์ด๋ฐ์์ผ๋ก ๊ฐ ํ๋ ์์ ๋ํด์ ๊ฐ์ค์น๋ฅผ ๊ณฑํ ๊ฒ๋ค์ ํฉ์ผ๋ก ํ๋์ representation ๊ฐ์ผ๋ก ๋ณธ๋ค๋ ๊ฒ์ ๋๋ค.
ํ์ง๋ง ์๋ ์ฌ์ง์ ๋ณด๋ฉด, ํ ๋น๋์ค์ ๋ํด frame์ผ๋ก ์ชผ๊ฐ์ง๋ฉด์ ๊ฐ ํ๋ ์์ด ํ์คํ ํ์ ์ ๋ณด์ด๋ ๊ฒ๋ ์์ง๋ง ์ ๋งคํ๊ฒ ์๊ฐ๋ ์ ์๋ ํ๋ ์๋ ์๋๋ฐ, ์ด๊ฒ์ ๋ํ ๊ณ ๋ ค ์์ด (๊ฐ ํ๋ ์์ ํ์ ์ ํ์คํ ์ ๋์๋ ์๊ด์์ด) ๊ฐ์ค์น๋ฅผ ๋๋คํ๊ฒ ์ฃผ์ด๋ฒ๋ฆฌ๋ ๊ฒ์ ๋๋ค. ์๋ฅผ ๋ค๋ฉด happy ์๋ ์ฌ๋ญ ๋ฌ๋ผ๋ณด์ด๋ ๋ง์ง๋ง ํ๋ ์์ ๋ค์ด๊ฐ ๋๋ค ๊ฐ์ค์น($a_k$)๊ฐ ์ปค๋ฒ๋ฆฐ๋ค๋ฉด, ํ์ตํ ๋ ์ ๋งคํ ๋ฐ์ดํฐ์ ๋น์ค์ด ๋ ์ปค์ง๋ ๋ถ์์ฌ๊ฐ ์ผ์ด๋๊ฒ ์ฃ !๐ต๐ต
๋ฐ๋ผ์, ์ด ๋ ผ๋ฌธ์์๋ ์์ ๊ฐ์ ๋ฐฉ์์ผ๋ก๋ ๊ฐ frame ๋ค์ ๋ํ ์ค์๋๋ฅผ ๋ฌด์ํ๋ ๊ฒฝํฅ์ด ์๋ค๋ฉฐ ํ๊ณ๋ฅผ ์ง์ ํ์์ต๋๋ค.
๊ทธ๋ ๊ฒ ํด์ ๊ฐ ํ๋ ์์ ๋ํด ์ค์ํ ์ ๋๋ฅผ ํ๋ณํด ์ค์๋์ ๊ฐ์ค์น๋ฅผ ์ฃผ์
! ํ๊ณ ๋์จ๊ฒ์ด FAN ์
๋๋ค.
Network Architecture
๋คํธ์ํฌ ๊ตฌ์กฐ๋ ๋ค์๊ณผ ๊ฐ์ด ๋ ๊ฐ์ ๋ชจ๋๋ก ์ด๋ฃจ์ด์ ธ ์์ต๋๋ค.
1) Feature embedding module
์ ๋ ฅ๊ฐ์ผ๋ก ๋ค์ด์จ ๋น๋์ค ํ๋ ์๋ค์ CNN ์ปจ๋ณผ๋ฃจ์ ์ ํตํด ๊ฐ ํน์ง์ ๋ฒกํฐ๋ฅผ ์ถ์ถํฉ๋๋ค.
2) Frame attention module
์ถ์ถ๋ feature vector (ํน์ง์ ๋ฒกํฐ)๋ค์ ์ฐ์ฐํ์ฌ attention weight๋ฅผ ๊ณ์ฐํ์ฌ ํ๋ ์์ ๋ํ ํ๋ฅ ๊ฐ์ ์ป์ด classification์ ์ํํ๋ค.
attention module์ ์์ธํ ์ดํด๋ณด๋ฉด,
๋จผ์ ๋ ธ๋์์ผ๋ก ํ์ด๋ผ์ดํธ๋ ๋ถ๋ถ์์ self-attention weight ์ global representation ๊ฐ์ ๊ตฌํ๊ฒ ๋ฉ๋๋ค.
self-attention wieght๋ attention weight๋ฅผ ๊ตฌํ๋ ๋ฐฉ์๊ณผ ๋์ผํ๊ฒ ์ด๋ฃจ์ด์ง๋๋ฐ์, attention weight๋ input์ hidden state ๋ฒกํฐ์ ouput ์์ ๋์ฌ ๊ฒ์ด๋ผ ์์๋๋ ํ ์์ ์ state ์ ๋ฒกํฐ ๊ฐ์ ๊ฐ๊ฐ dot product (๋ด์ ) ์์ผ์ output์ผ๋ก ๋์ค๊ฒ ๋ ๊ฐ์ ๋ํด ๋ชจ๋ input๊ณผ์ ์ ์ฌ๋๋ฅผ ๊ตฌํ๋ ๋ฐฉ์์ ๋๋ค.
์์ฐ์ด ์ฒ๋ฆฌ์ ๊ฐ์ Sequence-to-sequence ์ attention score๋ฅผ ์ป๋ ๊ตฌ์กฐ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์ด๊ฒ๊ณผ ์ ์ฌํ๊ฒ FAN์์๋ feature vector ๊ฐ์ input์ hidden state, FC ๋ ์ด์ด์ ํ๋ผ๋ฏธํฐ ๊ฐ์ ์ถ๋ ฅ์ผ๋ก ๋์ฌ ๊ฒ์ด๋ผ ์์๋๋ ๊ฐ์ผ๋ก ๋ ๊ฒ ๊ฐ์ต๋๋ค.
์ฌ๊ธฐ์ $q^0$ ๋ฅผ FC ๋ ์ด์ด์ ํ๋ผ๋ฏธํฐ ๊ฐ์ด๋ผ๊ณ ํ๋๋ฐ, ์ค์ ๋ก ๊ณต์ github ์ ๊ฐ์ ์ฝ๋๋ฅผ ๋ฏ์ด๋ณธ ๊ฒฐ๊ณผ FC ๋ ์ด์ด ์์ฒด๋ฅผ dot product ํ๋ ๊ฒ ๊ฐ์์ต๋๋ค. Attention machanism ์ ์ฌ์ฉํ๋ ๋ค๋ฅธ FER ๋ ผ๋ฌธ์์๋ ํ์ธ ๊ฒฐ๊ณผ FC ๋ ์ด์ด ์์ฒด๋ฅผ ๋ด์ ํ๋ค๊ณ ์ค๋ช ํ์ผ๋ฏ๋ก, ์ด ๋ ผ๋ฌธ์์๋ FC ๋ ์ด์ด ์์ฒด๋ฅผ ๋ด์ ํ๋ ๊ฒ์ด๋ผ๊ณ ์๊ฐํ๊ฒ ์ต๋๋ค.
(์๊ฐํด๋ณด๋.. ๋ค์์ ๋์ค๊ฒ ๋ ๊ฒ์ด๋ผ๊ณ ์์๋๋ ๋ชจ๋ ๊ฐ๋ค๊ณผ์ ์ ์ฌ๋๋ฅผ ์งํํด์ ์ด๋ค๊ฒ์ด ๋์ ๊ฐ์ผ๋ก ๋์ฌ์ง๋ฅผ ๊ณ์ฐํ๋ ๊ฒ์ด๋ฏ๋ก FC๋ ์ด์ด ์์ฒด๋ก ์ฐ์ฐํ๋ ๊ฒ์ด ๋ง๋๊ฒ ๊ฐ์ต๋๋ค.)
๊ทธ ๋ค์์ attention module์์ ๋นจ๊ฐ์ ๋ถ๋ถ์ ๋ํ ์ค๋ช ์ ๋๋ค. ์ด ๋ถ๋ถ์ relation attention weight๋ฅผ ๊ตฌํ๋๋ฐ์, relation attention ์ด๋ผ๋ ๊ฐ๋ ์ global feature์ local feature ๋ ๋ชจ๋๋ฅผ ๊ฐ๊ณ ํ์ตํ๋ ๊ฒ์ด ๋ ์ข์ ์ฑ๋ฅ์ ๋ผ ๊ฒ์ด๋ผ๋ ๊ฐ์ ํ์ ๋ง๋ค์ด์ง ๊ฐ๋ ์ ๋๋ค.
๊ทธ๋์ ๋ณด๋ฉด, ์ผ๋จ ์ฒซ๋ฒ์งธ ๋จ์์ ๋์จ feature ๊ฐ๊ณผ self-attention weight๋ฅผ ํตํด ๋์จ global representation ๊ฐ ($f\prime_v$) ๋ฅผ concat ์์ผ์ ์ด๋ฅผ ๋ค์ FC๋ ์ด์ด์ ๋ด์ ์์ผ ์๊ทธ๋ชจ์ด๋ ํจ์๋ฅผ ์ทจํด weight ๊ฐ์ ๊ตฌํ๊ฒ ๋ฉ๋๋ค.
๋ฐ๋ผ์ ๊ตฌํ self-attention weight ($\alpha_i$)์ global representation ($\beta_i$) ๋ฅผ ๊ฐ์ง๊ณ ์ต์ข representation ๊ฐ์ธ $f_v$๋ฅผ ๊ตฌํ ์ ์๊ฒ ๋ฉ๋๋ค.
์ ๊ฐ ํด์ํ relation attention์ ํ ์ฐจ๋ก๋ก ๊ณ์ฐ๋ attention๊ฐ(์ ์ฌ๋ ๊ฐ์ค์น์ ๊ณ์ฐ๋ ํผ์ณ๊ฐ)๋ค์ ๋ ๋ค์ ํ์ฐจ๋ก ๋ attention ๊ณ์ฐ์ ํจ์ผ๋ก ์จ feature์ ํ์ฐจ๋ก ๊ณ์ฐํ์ฌ ๋ ์ค์ํ ๊ฐ์ ๊ฐ์ ๋ ์ฃผ๊ณ , ์ค์ํ์ง๋ง ๋ ์ค์ํ ๊ฒ์๋ ๊ฐ์ค์น๋ฅผ ๋ ๋ถ์ฌํ๋ ๊ฒ ๊ฐ์ต๋๋ค. (์ค์ํ ํผ์ณ๋ฅผ ๋ ๊ฐ์กฐํ๋ ๋๋..? ์ ํํ ํด์์ ํ์๋ ๋ถ ์ฐ๋ฝ์ฃผ์ธ์..!!)
Compare relation attention vs self attention
self attention ๊ณผ relation attention ์ ๋น๊ตํ๋ฉด ๋ ๋ชจ๋ ๊ฐ ์ํ์ค ํ๋ ์๋ค ์ค ํ์คํ ํ์ ์ ๋ณด์ด๋ ๊ฒ์ ๋ ๋ง์ ๊ฐ์ค์น๋ฅผ ์ฃผ๋ ๊ฒ์ ๋ณด์ด๊ณ ์์ต๋๋ค.
๊ฑฐ๊ธฐ์ relation attention ์ด ์ข ๋ ์ข์ ๊ฐ์ค์น๋ฅผ ์ฃผ๋ ๊ฒ์ ํ์ธํ์ต๋๋ค.
Experiment Result
- CK+
๋จผ์ , CK+ ๋ฐ์ดํฐ์ ์์์ ์ฑ๋ฅ์ ์ดํด๋ณด๋ฉด.. baseline ๋ชจ๋ธ๋ณด๋ค attention ์ ์ทจํ ๋ชจ๋ธ์ด ๋ ์ข์ ์ฑ๋ฅ์, relation attention ์ ์ฌ์ฉํ ๋ชจ๋ธ์ด ์กฐ๊ธ ๋ ์ข์ ์ฑ๋ฅ์ ๋ด๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค. ์ฌ๊ธฐ์ CK+๋ก ๋์จ ์ฑ๋ฅ์ SOTA ์ฑ๋ฅ์ ๋ณด์ธ๋ค๊ณ ํฉ๋๋ค!
- AFEW 8.0
์ํ ๋ฐ์ดํฐ๋ก ์ด๋ฃจ์ด์ง AFEW 8.0 ๋ฐ์ดํฐ์ ์์์ ์ฑ๋ฅ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. SOTA ์ฑ๋ฅ๊น์ง๋ ์๋์ง๋ง ๊ทธ๋๋ relation attention์ ์ฌ์ฉํ ๋์ ์ฑ๋ฅ์ด ๋ ์ข๊ฒ ๋์จ๋ค๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค.
๋๊ธ๋จ๊ธฐ๊ธฐ