[Paper Review๐] Facial expression and attributes recognition based on multi-task learning of lightweight neural networks
Facial expression and attributes recognition based on multi-task learning of lightweight neural networks
- Multi-task EfficientNet-B2 -
Paper๐
์ด ๋ ผ๋ฌธ์ ๋น๋์ค(์์)์ ํ๋ ์์ ์ฌ๋ฌ๊ฐ ๋ฐ์ ๊ฐ ํ๋ ์๋ง๋ค์ mean, std, min, max ๊ฐ์ ๊ณ์ฐํ์ฌ ์ผ๊ตดํ์ ์ ์ธ์ํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๊ณ ์์ต๋๋ค.
ํน์ง
-
์ผ๊ตด ์์ฑ(๋์ด, ์ฑ๋ณ, ๊ตญ์ )์ ๋ถ๋ฅ์ ์ผ๊ตด ์ธ์ง๋ฅผ ํ์ตํ๊ธฐ ์ํด์ ๋ง์ง์ด ์๋ crop ๋ ์ผ๊ตด์ด๋ฏธ์ง๋ฅผ input๊ฐ์ผ๋ก ํ์ต
-
๋น๊ต์ ๋น ๋ฅด๊ณ ๊ฐ๋ฒผ์ด MobileNet, EfficientNet, RexNet architecture ๋ฅผ baseline network๋ก ์ฌ์ฉํ๋ค.
-
์ผ๊ตด ํ์ (๊ฐ์ )์ ์์ธกํ๋๋ฐ ์์ด์ ๋คํธ์ํฌ๋ฅผ fine-tuning ํ๋ ๊ฒ์ ์ค์์ฑ์ ๊ฐ์กฐํ๊ณ ์์
์ด ๋ ผ๋ฌธ์์๋ Multi-task networks ๋ผ๋ ๊ฒ์ ์ ์ํ๋๋ฐ ๊ตฌ์กฐ๋ฅผ ๋ณด๋ฉด ์๋์ ๊ฐ์ ๊ตฌ์กฐ๋ก ์ด๋ฃจ์ด์ ธ ์๋ค.
ํ๋์ฉ ์ดํด๋ณด์๋ฉด, ์์์ ์ธ๊ธํ MobileNet, EfficientNet, RexNet์ facial recognition CNN(์ผ๊ตด์ธ์ ๋ชจ๋ธ)์ backbone network๋ก ์ฌ์ฉ์ ํ๊ณ ์๋ค. ๊ทธ๋ฆฌ๊ณ ์ด CNN์ ๊ฑฐ์ณ์ ๊ฐ๊ฐ ์ฑ๋ณ, ๋์ด, ๊ตญ์ , ๊ฐ์ ์ด 4๊ฐ์ง์ ๋ํด ์์ธก์ ์งํํ๊ณ ์๋ ๊ฒ์ ๋ณผ ์ ์๋ค.
๋จผ์ , backbone architecture(Face recognition CNN) ์์ ์ํํ๊ธฐ ์ํด ๋ค์ด์ค๋ input image ๋ ๋ค์ด์จ ํ๋ ์์์ ์ผ๊ตด์ ์ฐพ์ ์ผ๊ตด๋ถ๋ถ๋ง์ ์๋ผ์ 244x244 ํฌ๊ธฐ์ ๋ง๊ฒ ์ด๋ฏธ์ง๋ฅผ ๋๋ฆฌ๋ ์์ ์ ํ๋ค.(๋ง์ง์ด ์๊ฒ๋ crop ํจ) ์ด๋ MTCNN face detection์ ์ฌ์ฉํ์ฌ ์ผ๊ตด์ ์ฐพ๋๋ก ํ๋ค. MTCNN์ ๋๋ฆฌ๋ค๋ ํ๊ฐ๊ฐ ์์ด์ ์ค์๊ฐ์ผ๋ก ๋ณผ๋ facebox ๋ฅผ ์ฌ์ฉํด๋ณผ๊น ์๊ฐ์ค์ด๋ค.
SOTA ์ฑ๋ฅ์ ๋ค์๊ณผ ๊ฐ๋ค.
emotion 7๊ฐ์ ๋ํด์ AFFECT ๋ฐ์ดํฐ์ ์ผ๋ก 66.34% ๊น์ง ์ฑ๋ฅ์ ๋์ด์ฌ๋ ธ๋ค.
์ฌ๊ธฐ์ ๋ ์ง๊ณ ๋์ด๊ฐ ๋ถ๋ถ์ ๋์ด๋ฅผ ๋ง์ถ๋ layer ๊ฐ ์ฑ๋ณ๊ณผ ๋ฏผ์กฑ์ layer ๋ณด๋ค ๋ ๊น๋ค๋ ๊ฒ์ด๋ค. ๊ทธ ์ด์ ๋ ์ฑ๋ณ๊ณผ ๋ฏผ์กฑ๊ฐ์ ๊ฒฝ์ฐ ๊ทธ ์นดํ ๊ณ ๋ฆฌ๊ฐ ๋ช ๊ฐ ์์ง๋ง, ๋์ด์ ๊ฒฝ์ฐ 1์ด๋ถํฐ N ์ด๊น์ง ๋งค์ฐ ๋ฒ์๊ฐ ์์ํ๊ณ ๋ง๊ธฐ ๋๋ฌธ์ ๋ ์ด์ด๋ฅผ ๋ ์ถ๊ฐํด์ฃผ์๋ค๊ณ ํ๋ค.
๋, ๊ฐ์ ์ธ์์ ์ํด์๋ ์์์๋ ์ธ๊ธํ๋ฏ์ด finetuned layer์ ์ฌ์ฉํด ํ์ตํ๋ ๊ฒ์ด ์ฑ๋ฅ์ด ๋ ์ข๊ธฐ ๋๋ฌธ์ ์ด ๋ถ๋ถ์ ํ๋ฒ ๊ฑฐ์น๊ณ ์์ธก์ ์งํํ๊ฒ ๋๋ค.
์์ ๊ทธ๋ฆผ์ ์ด๋ก์ ๋ฐ์ค๋ถ๋ถ์์ frozen weight ๋ผ๋ ๊ฒ์ ํ๋ค. weight๋ฅผ frozen ํ๋ค๋ ๊ฒ์ ๊ธฐ์กด ๋คํธ์ํฌ ๊ตฌ์กฐ์ pretrained ๋ weight๋ฅผ ๊ฐ์ ธ์์ ํ์ต์ ์ํฌ ๋, ๋ด๊ฐ ๋ง๋๋ ์๋ก์ด weight ๋ก ๊ฐ์ update ์ํค๊ธฐ ๋ณด๋ค๋ ๊ธฐ์กด์ ์๋ weight๋ฅผ ๊ทธ๋๋ก ํ์ต ์ํค๋ ๊ฒ์ด ํ์ตํ ๋ ์ฑ๋ฅ์ด ๋ ์ข๊ธฐ ๋๋ฌธ์ ์ฌ์ฉํ๋ ๊ธฐ๋ฒ์ด๋ผ๊ณ ํ๋ค.
์ผ๋จ fronzen ์ ๋ํด์๋ ์ข๋ ๊ณต๋ถํด์ผ ๊ฒ ์ง๋ง. ๋ด ์๊ฐ์๋, ์ด๋ฏธ SOTA ์ฑ๋ฅ์ ์ด๋ค๋ธ ๋คํธ์ํฌ ๊ตฌ์กฐ์ด๊ณ , ์ด ๊ตฌ์กฐ๋ก ํ์ต๋ weight ๊ฐ๋ค์ ๊ทธ ๊ตฌ์กฐ์ ์ ํฉํ ๊ฐ์ ๊ฐ์ง๊ณ ์์ ๊ฒ์ด๋ผ๊ณ ์๊ฐํ๋ค. ๊ทธ๋ ๋ค๋ฉด ์ด ๊ฐ์ ๊ทธ๋๋ก ์ฐ๋๊ฒ ์๋ฌด๋๋ ์ข๊ฒ ์ฃ ?!
๋ฐ๋ผ์ ์ด ๋คํธ์ํฌ์์๋ face recogntion CNN ๋ถ๋ถ์ update ํ๋ ๋์ ๋๋จธ์ง ๊ตฌ์กฐ๋ frozen ์ํค๊ณ ๋ช๋ฒ์ ๋ ํ์ตํ ์ดํ์ ํจ๊ป ํ์ต์์ผ weight๋ฅผ update ํ๋ค. frozen ํด์ update ํ๋ ํ์๋ ๊ฐ๊ฐ ์ฑ๋ณ, ๋์ด, ๋ฏผ์กฑ, ๊ฐ์ ์ ๋ ์ด์ด์ ๋ฐ๋ผ ๋ค๋ฅด๋ ๋ ผ๋ฌธ ์ฐธ๊ณ !
Emotion Recognition process
๊ฐ์ ์ ์ธ์ํ๋ ํ๋ก์ธ์ค๋ฅผ ๊ฐ๋จํ๊ฒ ๊ทธ๋ฆผ์ผ๋ก ์ ๋ฆฌํด ๋ณด์๋ค. ๋ค์๊ณผ ๊ฐ์ด ๋ชจ๋ sequence ํ๋ ์ (์ํ์ค ๋ฐ์ดํฐ๊ฐ ์๋๋ผ๋ฉด ๊ทธ๋ฅ ํ๋ ์์์๋ ์งํ) ์ ์๋ ์ผ๊ตด์ ์ฐพ์ 244x244 ๋ก ๋ง์ง ์์ด crop์ ํ๋ค. ๊ทธ๋ ๊ฒ ์ฐพ์๋ธ ์ผ๊ตด์ ์ด๋ฏธ์ง์ ๋ํด์ feature์ ์ถ์ถํด feature๊ฐ์ ๋ํด mean, std, min, max ๊ฐ์ ๊ณ์ฐํด ๊ฐ ๊ณ์ฐ์ concatenate ์์ผ์ค๋ค.
์ฝ๋๋ก ๋ณด๋ฉด ์ดํด๊ฐ ๋น ๋ฅด๋ค ์๋ ์ฝ๋ ์ฐธ๊ณ !
์์ ์์ด์ ์ผ๊ตด๋ก ์ํํด ๋ณด์๋ค.
์ผ๋จ ์ผ๊ตด์ ์ ์ก๊ณ , ๊ธฐ์ธ์ด์ง๋ ์ผ๊ตด์ ๋ํด alignment๋ฅผ ์ ํ๊ณ ์๋ค. ์ค๋ฅธ์ชฝ ์์์ bounding box๋ฅผ ๋ณด๋ฉด ์ธ๋ก๊ฐ ๋ ๊ธด ์ง์ฌ๊ฐํ ํํ๋ก ์กํ๊ณ , ์ผ๊ตด๋ ๊ธฐ์ธ์ด์ ธ์์ง๋ง, ์ผ์ชฝ์ crop๋ ์ด๋ฏธ์ง๋ฅผ ๋ณด๋ฉด ์ผ๊ตด์ ๊ธฐ์ธ๊ธฐ๋ ์์ง์ผ๋ก ์ ์ ๋ ฌ๋์ด์๊ณ 224 ์ฌ์ด์ฆ์ ์ด๋ฏธ์ง๋ก ์ฑ์์ ธ์ ๋ค์ด๊ฐ ๊ฒ์ ๋ณผ ์ ์๋ค.
๋ฐ๋ก ์ด ์ด๋ฏธ์ง๊ฐ CNN์ input ๊ฐ์ผ๋ก ๋ค์ด๊ฐ feature๋ฅผ ๋ฝ๊ฒ ๋๋ ๊ฒ์ด๋ค.
console ์ฐฝ์ ๋ณด๋ฉด [0.00959151 0.3924815 0.6546932 โฆ ์ด๋ฐ ์ซ์๋ฅผ ๋ณผ ์ ์๋๋ฐ, ์ด๊ฒ ํ ํ๋ ์์ ํ ์ผ๊ตด ๋น feature์ mean, std, min, max ๊ฐ์ด ๋์ด๋์ด์๋ ๊ฒ์ด๋ค.
Experiments
AffectNet ๋ฐ์ดํฐ์ ์ ๋ํ ์ผ๊ตด ๊ฐ์ ์ธ์ ์ฑ๋ฅ! ๋ฌด๋ ค 62.42% ๋ก SOTA ๋ฌ์ฑ!
ํนํ ์ด ๋ชจ๋ธ์ ๋ชจ๋ฐ์ผ์์ ๋์๊ฐ ์ ์๋๋ก ํ๋ ๊ฒ์ด ํต์ฌ์ด๊ธฐ ๋๋ฌธ์ (๊ทธ๋์ backbone architecture๋ ๊ฐ๋ฒผ์ด๊ฑฐ ์) CPU ์์๋ ์๋์๊ฐ๋์ง, ์ผ๋ง๋ ๋น ๋ฅด๊ฒ ๋์๊ฐ๋์ง๋ฅผ ์ฒดํฌํ์๋ค. MobileNet-v1 ์ด ๋น ๋ฅด๋ค. ์ฝ๋๋ฅผ ๋ณด๋๊น ์ด๋ฏธ์ง ํ์ฅ ๋ฃ์๋์ ์ฒ๋ฆฌ์ธ๋ฐ.. ๋๋ ๋น๋์ค๋ก ์ค์๊ฐ ์ฒ๋ฆฌ๊ฐ ์ค์ํ๋ฐ.. AFEW๋ก ํ์ต์์ผฐ๋ค๊ธธ๋ ๋น๋์ค๋ก demo ๊ฐ๋ฅํ๊ฐ ํ๊ณ ์ค๋ ์์ง๋ง.. ํ์ฅ์ ์ด๋ฏธ์ง์ฒ๋ฆฌ demo ๋ฐ์ ์์๋ค. ๊ทธ๋์ ๋น๋์ค์ ์ฒ๋ฆฌ๋ ์ ์๋๋ก ์ฝ๋๋ฅผ ์์ ํ์ฌ ์ฌ์ฉํ๋ ์ค!
๋ด ์ฐ๊ตฌ์ฃผ์ ๊ฐ FER ์ด ํต์ฌ์ด๊ณ ๋ถ๊ฐ์ ์ผ๋ก GAN ๋ชจ๋ธ์ ์ฐ๋ ๊ฒ์ด๋ผ ์ด์ FER ๋ ผ๋ฌธ๋ ์์ฃผ ์ฝ๊ณ ํฌ์คํ ํ ์์ ์ด๋ค..!
์ด์ฐ์ ์ฐ ์์ฌ์ํ ์ ๋ฒํฐ์!
๋๊ธ๋จ๊ธฐ๊ธฐ