[๋ ผ๋ฌธ์ ๋ฆฌ๐] EfficientDet: Scalable and Efficient Object Detection
EfficientDet: Scalable and Efficient Object Detection
- EfficientDet -
๋ ผ๋ฌธ์๋ณธ๐
Detection ์ฝ๋๋ ๋ง์ด ์ฝ์ด๋ณด์์ง๋ง ํฌ์คํ ์ ์ฒ์์ธ ๊ฒ ๊ฐ๋ค. ์๋ฌด๋๋ classification์ ๋นํด ์ด๋ ค์์ ๋ฏธ๋ฃจ๋ค ๋ณด๋๊น detection ์ชฝ์ ํผํ๊ฒ ๋๋ค. ํ์ง๋ง ๊ต์๋์ด ํผํ๊ธฐ๋ง ํ๋ฉด ์๋๊ณ ๋๊น์ง ๋ง๋ฌด์ผ๋ฆฌ๋ฅผ ์ง์ด์ผ ํ๋ค๊ณ ํ์ ์ ๋ง๋ฌด๋ฆฌ! ๋ฅผ ํด๋ณด๋ ค๊ณ ํ๋ค.
EfficientDet์ ์ด๋ฆ์์๋ถํฐ ์ ์ ์๋ฏ์ด EfficientNet์ ๊ธฐ๋ฐ์ผ๋ก detection์ ํ ๋ชจ๋ธ์ด๋ค. ์ด ๋ ผ๋ฌธ์ EfficientNet์ ๋จผ์ ์ฝ์ผ๋ฉด ์ดํดํ๊ธฐ ์ฌ์ฐ๋ ํ ๋ฒ ์ฝ์ด๋ณด๊ณ ์ค๋ ๊ฒ์ ์ถ์ฒํ๋ค
์ด ๋ ผ๋ฌธ์์ ์์์ผ ํ ํต์ฌ ๋ด์ฉ 2๊ฐ์ง๋ BiFPN๊ณผ compound scaling method ์ ๋๋ค.
1) BiFPN
๋ ผ๋ฌธ์ ๋ณด๋ฉด, bi-directional feature pyramid network, allows easy and fast multi-scale feature fusion ๋ผ๊ณ ์ ํ์๋๋ฐ, ๋ค์์๋ ์์ธํ ๋ค๋ฃจ์ง๋ง Feature Pyramid Network๋ฅผ ๋ ํจ์จ์ ์ด๊ฒ ๊ฐ์กฐํ ๋ฐฉ์์ด๋ผ๊ณ ์๊ฐํ๋ฉด ๋๋ค.
2) Compound scaling method
EfficientNet์ Backbone network๋ก ์ฌ์ฉํ๋ค๋ณด๋ ์ด์ ๋ง์ถ๊ธฐ ์ํด compound scaling method๋ฅผ ์ฌ์ฉํฉ๋๋ค.
์๋ ์ด๋ฏธ์ง๋ฅผ ๋ณด๋ฉด, ์ฐ์ฐ๋์ ๊ธฐ์กด SOTA ๋ชจ๋ธ๊ณผ ๋น๊ตํ์๋ ํ์ ํ ์ค์์ง๋ง, ์ฑ๋ฅ์ ์๋ฑํ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค. EfficientNet๊ณผ ๋น์ทํ ์์์ ๋ณด์ด๋ค์!
EfficientDet architecture
์ ์ฒด์ ์ธ ๊ตฌ์กฐ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. backbone์ผ๋ก๋ถํฐ ๊ฐ๊ฐ $1 / 2^i$ ๋งํผ์ฉ scale ํ feature๋ค์ pyramid ์ฒ๋ผ ์ญ ๋์ดํ์ฌ์ 3๋ฒ์งธ ๋ ์ด์ด๋ถํฐ 7๋ฒ์งธ ๋ ์ด์ด๋ค์ ํผ์ณ๋ค๋ก ๊ณ์ฐ์ ํด์ค๋๋ค.
๋ ผ๋ฌธ์๋ ๋์์์ง ์์ง๋ง 3๋ฒ์งธ feature ๋ถํฐ ์ฐ์ฐ์ ๊ณ ๋ คํ๋ ์ด์ ๋ ์๋ง ์ด ๋๋ถํฐ ์ ์๋ฏธํ ํน์ง์ ๋ค์ ๊ฐ์ง feature๊ฐ ์์ฑ๋๊ธฐ ๋๋ฌธ์ 3๋ฒ์งธ๋ถํฐ ํ์ง ์์๋ ์ถ๋ค์..!
๋, 5๊ฐ์ feature ๋ค์ BiFPN ์ฐ์ฐ์ n ๋ฒ ๋ฐ๋ณตํ๊ฒ ํ์ฌ ๋ง์ง๋ง feature๋ค์ concatenate ํ์ฌ ๊ฐ๊ฐ class prediction๊ณผ box prediction network๋ก ๊ณ์ฐํด์ค๋๋ค.
FPN development process
FPN์ ์ฒ์ ๋ค์ด๋ณด์๋ค๋ฉด ์ด ๊ฐ๋ ์ด ๋ฌด์์ธ๊ฐ ๋นํฉ์ค๋ฌ์ ์ ํ ๋ฐ! ๊ทธ๊ฒ ๋ฐ๋ก ์ ๋๋ค ใ ใ
์์ ์ด๋ฏธ์ง๋ FPN์ ๋ฐ์ ์์์ ๋ณด์ฌ์ฃผ๊ณ ์๋๋ฐ์, (a)์ FPN์ ๊ฐ์ฅ ์ค๋ฆฌ์ง๋ ํํ๋ก ๋ค์ํ scale์ ์ด๋ฏธ์ง๋ค์ fusion ์ํค๋ฉด ์ฑ๋ฅ์ด ๋ ์ข๊ฒ ๋์ฌ๊ฒ์ด๋ค! ๋ผ๋ ์ง๊ด์์ ๋์จ ๊ฐ๋ ์ ๋๋ค. ๋ณด๋ฉด TOP-DOWN ๋ฐฉ์์ผ๋ก ๊ฐ feature๋ค์ upsampling(์ด๋ฏธ์ง ์ค์ผ์ผ์ ํฌ๊ฒํ์ฌ ํฉ์น๋๊ฒ! ๋ํด์ค๋ค) ํ์ฌ ํฉ์น๊ฒ ๋ฉ๋๋ค. ์ด๋ ๊ฒ ํด์ ์ฑ๋ฅ์ ๋์์ง๋ง, ์ ๋ณด๊ฐ ํ์ชฝ์ผ๋ก ํ๋ฅด๋ ๊ฒ์ ๋ํ ํ๊ณ๋ฅผ ์ง์ ํ๋ฉฐ ๋์จ๊ฒ์ด (b)์ PANet์ ๋๋ค. TOP-DOWN ํ BOTTOM-UP์ ํ ๋ฒ ๋ ์ถ๊ฐํ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค! ๊ทธ๋ฆฌ๊ณ (c)๋ NAS์ ๊ฐ๋ ์ FPN์ ๋์ ํ ๊ฒ์ธ๋ฐ, ์ต์ ์ ์ฑ๋ฅ์ ๋ด๋ ์ต์ ์ architecture์ ์ฐพ๋๋ก ํ๋ ๊ฒ์ ๋๋ค. NASNET ๋ ผ๋ฌธ๋ฆฌ๋ทฐ ๋ฅผ ์ฐธ๊ณ ํ๋ฉด ์ด๋ค ๋ฐฉ์์ธ์ง ์์ ์์ต๋๋ค! ์ด๋ ๊ฒ best architecture์ ์ฐพ์ผ๋ ค๋ค๋ณด๋ GPU ์ฐ์ฐ์ด ๋๋ ค์ง๋ ๋ฌธ์ ๊ฐ ์๊ฒผ๋ค๊ณ ํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์คํ๋ ค PANet์ ์ฑ๋ฅ์ด ๋ ์ข๋ค๊ณ ํ๋ค.
๊ทธ๋ฆฌ๊ณ ! ์ฌ๊ธฐ์ ์๋ก๋์จ BiFPN์ PANet์์ ๊ฐ์ ์ํจ ๋ฐฉ์์ ๋๋ค. ์ PANet์์ input node๊ฐ 1๊ฐ์ธ ๋ ธ๋์์ผ๋ก ํ์ด๋ผ์ดํธ๋ ๋ ธ๋๋ฅผ ์ ์ธ์ํจ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค. ์ด๋ ๊ธฐ์ฌ๋๊ฐ ์ ์ feature์ ์ฐ์ฐ์ ์ค์ด๊ธฐ ์ํด์ ์ ๊ฑฐํ์๋ค๊ณ ํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ , input node๋ฅผ ๋ค์ํ๋ฒ ๋ง์ง๋ง ๋ ธ๋์ธ ouput ๋ ธ๋์ ๋ํด์ค๋๋ค. ์ด๋ ๋ ๋ง์ feature์ fusion ์์ผ ์ฑ๋ฅ์ ์ข๊ฒ ํ๋ค๊ณ ํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ๋ธ๋ญ์ n๋ฒ ๋ฐ๋ณต! ๋ ผ๋ฌธ์์ 3๋ฒ ๋ฐ๋ณตํ๋ค๊ณ ํจ
BiFPN accuracy
์์ ์ด๋ฏธ์ง๋ FNP๋ค์ ์ฑ๋ฅ ๋น๊ต์ ๋๋ค. BiFPN์ด ์ฐ์ฐ๋๋ ์์๋ฐ ์ฑ๋ฅ์ ๊ฐ์ฅ ์ข๊ณ ๋, weight๋ฅผ ์ถ๊ฐํ๋ฉด ๋ ์ข์์ง๋ค๊ณ ํฉ๋๋ค.
BiFPN : Weighted feature fusion
feature fusion์ ์ํฌ ๋ weight๋ฅผ ์ฃผ๋ฉด ์ฑ๋ฅ์ด ๋ ์ข๊ฒ ๋์ค๋ ๊ฒ์ ์์ ํ์์ ํ์ธ์ ํ์์ต๋๋ค. ๋ฐ๋ก Fast normalized fusion์ ์ฌ์ฉํ์ฌ ์ฑ๋ฅ์ ํฅ์์์ผฐ์ต๋๋ค.
๋จผ์ unbounded fusion์ ๋จ์ํ ์ค์นผ๋ผ ๊ฐ์ input feature์ ๊ณฑํด์ฃผ๋ ๋ฐฉ์์ธ๋ฐ ๊ธฐ๋ณธ์ ์ธ ๋ฐฉ์์ด์ฃ ! ํ์ง๋ง ์ด๋ ๊ฒ ๋๋ฉด ์ค์นผ๋ผ ๊ฐ์ด ๋๋ฌด ํฌ๊ฑฐ๋ ์์ผ๋ฉด ์ ์ฒด์ ์ผ๋ก ๋ถ๊ท ํํ ๊ฐ์ด ๋์๋ฒ๋ ค์ ์ฑ๋ฅ์ด ์ข์ง ์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ softmax fusion์ ์ด๋์ ๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ง๋ง ์ฐ์ฐํ๋๋ฐ ์๊ฐ์ด ์ค๋๊ฑธ๋ ค์ (์๋ง ์์ฐ์์๋ก ๊ณ์ฐํ๊ธฐ ๋๋ฌธ์ธ ๊ฒ ๊ฐ์ต๋๋ค.) ๋น์ทํ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง ๋น ๋ฅด๊ธฐ ๋ฉด์์ ๋ง์ด ํฅ์๋ Fast normalized fusion์ ์ฌ์ฉํฉ๋๋ค.
Fastnormalized์ ๋ฐฉ์์์ weight๋ Relu ํจ์๋ฅผ ๊ฑฐ์ณ๋์จ ๊ฐ์ผ๋ก 0~1์ ๊ฐ์ ๋ณด์ฅํ๋ฉด์ ๋ถ๋ชจ๊ฐ 0์ผ๋ก ์๋ ดํ๋ ๊ฒ์ ๋ง๊ธฐ ์ํด 0.0001์ ์์ฃผ ์์ ๊ฐ์ ์ถ๊ฐ๋ก ๋ํด์ค๋๋ค(์์์์์ ์ ์ค๋ก ).
์๋ ์ฝ๋๋ก ์ดํด๋ณด๋ฉด ๋ ์๋ฟ์ต๋๋ค.
Comparision of different feature fusion
์ฐ์ฐ๊ณผ์ ๋์ํ
Compound scaling
scaling ํ๋ ๋ฐฉ์์ ์๋์ ์์๋๋ก ์ฒ๋ฆฌํด์ค๋๋ค. ์ด ์ค์ผ์ผ๋ง ๋ฐฉ์์ EfficientNet์ ๋ง์ถฐ์ฃผ๊ธฐ ์ํด์ ๊ณ ๋ ค๋์์ต๋๋ค.
Comparision of different scaling
SOTA for COCO Dataset
์ค๋ ์ธ๋ฏธ๋๋ ๋ฌด์ฌํ ์๋ฃ!๐ฅฐ๐ฅฐ
๋๊ธ๋จ๊ธฐ๊ธฐ