[๋ ผ๋ฌธ์ ๋ฆฌ๐] Rethinking Model Scaling for Convolutional Neural Networks
Rethinking Model Scaling for Convolutional Neural Networks
- EfficientNet -
๋ ผ๋ฌธ์๋ณธ๐
0. Abstract
CNN์ ํ์ ๋ ์์์์ ๊ฐ๋ฐ๋์ด์์ผ๋ฉฐ ๋ ๋ง์ ์์์ด ๊ฐ๋ฅํด์ง๋ฉด ๋ ์ข์ ์ฑ๋ฅ์ ์ํด ํฌ๊ธฐ๋ฅผ ํค์๋๊ฐ๋ ๋ฐฉํฅ์ผ๋ก ๋ฐ์ ๋์ด์๋ค.
์ด ๋ ผ๋ฌธ์์๋ model scaling์ ๋ํด ์ด์ผ๊ธฐ ํ๋ฉฐ network์ depth, width, resolution ์ฌ์ด์ ๊ด๊ณ์ ๋ํ ๊ท ํ์ ๋ง์ถฐ์ผ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
depth, width, resolution์ ์ฐจ์๋ค์ ๊ฐ๋จํ๋ฉด์๋ ๋์ ํจ์จ์ ๋ณด์ด๋ ์๋ก์ด scaling๋ฐฉ๋ฒ์ธ 'compound coefficient'
๋ฅผ ์ ์ํ๋ฉฐ, MobileNet๊ณผ ResNet์ ์ด ๋ฐฉ๋ฒ์ ์ ์ฉํด ํจ์จ์ฑ์ ํ
์คํธํ๋ค.
๋ ๋์๊ฐ, โNeural Architecture Search(NAS)โ๋ฅผ ์ฌ์ฉํด baseline network๋ฅผ ์ค๊ณํ์ผ๋ฉฐ ์ด baseline network๋ฅผ scale up ํด ๊ฐ์กฑ ๋ชจ๋ธ์ธ EfficientNet์ ์ค๊ณํ์๋ค. (NAS๋ ๊ฐํํ์ต์ ๊ธฐ๋ฐ์ผ๋ก ์ต์ ์ network๋ฅผ ์ฐพ๋ ๋ฐฉ๋ฒ์ธ๋ฐ ์ด๊ฒ์ ๋ํ ์์ธํ ์ค๋ช ์ => ์ฌ๊ธฐ)
ํนํ, EfficientNet-B7์ ImageNet dataset์ ๋ํด 84.4%(top-1 acc)/97.1%(top-5 acc)๋ฅผ ์ป์์ ์ ๋๋ก ๋งค์ฐ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ ์ด๋ convNet๋ณด๋ค 8.4๋ฐฐ ์์ผ๋ฉฐ 6.1๋ฐฐ ๋น ๋ฅธ ์ฑ๋ฅ์ ๊ฐ์ง๋ค.
๋ํ, CIFAR-100(91.7%), Flowers(98.8%) ์ ๋ค๋ฅธ 3๊ฐ์ ํ์ต ๋ฐ์ดํฐ์ ์ ์ ์ดํ์ต์ ์์ผ๋ SOTA ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
1. Introduction
Scaling up ๋ฐฉ๋ฒ์ ConvNet์ ์ฑ๋ฅํฅ์์ ์์ฃผ ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ์ ๋๋ค. ResNet์ ๊ฒฝ์ฐ์๋ ResNet-18์์ ResNet-200์ผ๋ก layer์๋ฅผ ๋๋ฆผ์ผ์จ ์ฑ๋ฅ์ด ํฅ์๋๊ณ , ์ต๊ทผ์๋ GPipe๊ฐ baseline model์ 4๋ฐฐ scaling up ํ์ฌ ImageNet์ ๋ํด 84.3%(top-1 acc)์ ์ป์๋ค. ํ์ง๋ง ConvNet์ ํจ์จ์ ์ธ scaling up์ ํ๋ ๊ณผ์ ์ ๋ํด์๋ ์ฌ์ ํ ์ ์๋ ค์ง ๋ฐ๊ฐ ์๋ค.
GPipe๐
GPipe ๋?
GPipe๋ Google Brain์์ ๋ฐํํ ํ์ต๊ธฐ๋ฒ์ผ๋ก ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๋ง์ด ์ฐจ์งํ๋ ํฐ ๋ชจ๋ธ์ ํจ์จ์ ์ผ๋ก ํ์ต์ํค๋๋ฐ ์ ์ฉํ๋ค. Google์ด ๊ณต๊ฐํ ๋ ผ๋ฌธ์ ๋ฒค์น๋งํฌ์ ๋ฐ๋ฅด๋ฉด ๊ธฐ์ค๋ณด๋ค 8๋ฐฐ ๋ง์ ์ฅ์น(TPU)๋ก 25๋ฐฐ ํฐ ๋ชจ๋ธ์ ํ์ต์ํฌ ์ ์๊ณ , ๊ธฐ์ค๋ณด๋ค 4๋ฐฐ ๋ง์ ์ฅ์น์์ 3.5๋ฐฐ ๋นจ๋ฆฌ ํ์ต์ํฌ ์ ์๋ค๊ณ ํ๋ค.
Google์ GPipe๋ฅผ ์ด์ฉํด 5.6์ต๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๋ AmoebaNet-B ๋ชจ๋ธ์ ํ์ต์์ผฐ๋ค. ์ด ๋ชจ๋ธ์ ImageNet์์ 84.3%(top-1 acc)์ ์ป๊ณ 97%(top-5 acc)๋ก SOTA๋ฅผ ๊ธฐ๋กํ๋ค.
Gpipe๋ Pipeline Parallelism๊ณผ Checkpointing, ์ด ๋ ๋ฐฉ๋ฒ์ผ๋ก ๊ฐ๋ฅํ ํฐ ๋ชจ๋ธ์ ํ์ต์ํจ๋ค.
- Pipeline Parallelism
GPipe๋ ๋ชจ๋ธ์ ์ฌ๋ฌ ํํฐ์ ์ผ๋ก ๋๋ ๊ฐ๊ฐ ์๋ก ๋ค๋ฅธ ์ฅ์น์ ๋ฐฐ์นํด ๋ ๋ง์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ฌ์ฉํ ์ ์๊ฒ ํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ฌ๋ฌ ํํฐ์ ์ด ์ต์ฌํ ๋ณ๋ ฌ์ ์ผ๋ก ์๋ํ ์ ์๋๋ก, ๋ชจ๋ธ์ ์ ๋ ฅ๋๋ ๋ฏธ๋๋ฐฐ์น๋ฅผ ์ฌ๋ฌ ๋ง์ดํฌ๋ก๋ฐฐ์น๋ก ๋๋ ๋ชจ๋ธ์ ํ๋ ค๋ณด๋ธ๋ค.
- Checkpointing
๊ฐ ํํฐ์ ์ ์ฒดํฌํฌ์ธํธ๋ฅผ ๋ง๋ค์ด ๋ฉ๋ชจ๋ฆฌ ๊ฐ์ฉ๋์ ๊ทน๋ํํ๋ค. ์์ ํ(forward propagation)๋ ํํฐ์ ๊ฒฝ๊ณ์ ์ ์ถ๋ ฅ๋ง ๊ธฐ์ตํ๊ณ ๋ด๋ถ์ hidden layer๋ ํ๋ฐ์ํจ๋ค. ํ๋ฐ๋ hidden layer์ ์ญ์ ํ(back propagation) ๋ ๋ค์ ๊ณ์ฐ๋๋ค.
๊ทธ ๋์์ ConvNet์ scaling ๋ฐฉ๋ฒ์ ๋ํด์๋ depth, width, resolution ์ด ์ ์ค ํ๋์ dimension๋ง์ ์กฐ์ ํ๋ ๋ฐฉ์์ผ๋ก ์ฌ์ฉ๋์ด์๋ค. ์ด ์ค ๋ ๊ฐ์ง ์ด์์ ์กฐ์ ํ๋ ๋ฐฉ๋ฒ๋ ๊ณ ๋ ค๋ ์ ์์ง๋ง, ๋ฏธ์ธํ๊ฒ ์กฐ์ ํด์ค์ผ ํ๋ ์์ ๋ค์ด ๋ง์ด ํ์ํ๋ฉฐ ์ต์ ์ ๊ฒฐ๊ณผ๋ฅผ ์ ๋ํ๋ด์ง ๋ชปํ๋ค.
๋ฐ๋ผ์ ์ด ๋
ผ๋ฌธ์์๋ ๊ฐ๋จํ๋ฉด์ ํจ์จ์ ์ธ 'compound scaling method'
๋ฅผ ์ ์ํ๋ฉฐ ์ด ๋ฐฉ๋ฒ์ ํต์ฌ์ network์ width, depth, resolution ์ฌ์ด์ ๊ท ํ์ ๋ง์ถ๋ ๊ฒ์ ์ฑ๋ฅํฅ์์ ๋งค์ฐ ์ค์
ํ๋ฉฐ ์ด๋ค๊ฐ์ ๊ท ํ์ ๊ฐ๋จํ ์์์ ๋น(constant ratio)๋ก ๊ตฌํด์ง ์ ์๋ค๋ ๊ฒ์ด๋ค.
์๋ฅผ ๋ค์ด ์ฐ๋ฆฌ๊ฐ $2^N$๋ฐฐ ํฐ ๋ชจ๋ธ์ ๋์์ธํ๊ณ ์ถ๋ค๋ฉด baseline network์ depth๋ฅผ ๋จ์ํ $\alpha^N$, width๋ฅผ $\beta^N$, image size๋ฅผ $\gamma^N$ํด์ ์์ grid search๋ฅผ ํตํด ์์ ์กฐ๊ฑด์ ๋ง์กฑํ๋ $\alpha, \beta, \gamma$๊ฐ์ ์ฐพ๊ฒ ๋๋ค.
์๋ ์ด๋ฏธ์ง์ ๊ฐ์ด ์ ์ parameter์๋ก ์์ฒญ๋ ์ฑ๋ฅ์ ๋ผ ์ ์๋ค. (significantly out-perform other convnets ๋ผ๊ณ ์จ์ ธ์๋ค. ์๋์ ์ธ parameter ์ ์ ์๋ก ์์ฒญ๋ ์ฑ๋ฅ์ ๋ธ๋คโฆ๋ผ๊ณ ๊ฐ์กฐํจ)
๊ทผ๋ฐ ์ง์ง.. ๋๋จํ ์ฑ๋ฅ์ธ ๊ฒ ๊ฐ๋ค.
๋ค์์ 3๊ฐ์ง ๋ฐฉ๋ฒ์ scale up ์ ๋ํ๋ด๋ ๊ทธ๋ฆผ์ด๋ค.
(a)์ baseline network๋ฅผ ํ ๋๋ก (b)~(d) ๋ width, depth, resolution์ scaling up ํ์ ๋์ ๊ตฌ์กฐ๋ฅผ ๋ํ๋ธ๋ค.
๊ฒฐ๊ตญ ๋ง์ง๋ง (e)์ compound scaling ์ ์ ํ๋ ๊ฒ์ด ์ด ๋ ผ๋ฌธ์ ๋ชฉํ์ด๋ค.
๋
ผ๋ฌธ์์๋ MobileNet๊ณผ ResNet์ ์ด์ฉํด ์ด๋ฅผ ํ์ธํ๊ณ ์์ผ๋ฉฐ, Model scaling์ ์ํ ์ฑ๋ฅ ํฅ์์ baseline network์ ๋งค์ฐ ์์กด์ ์ด๊ธฐ ๋๋ฌธ์, baseline network๋ฅผ ์ค์ ํ๋๋ฐ ์์ด์ neural architecture search(NAS)
๋ฅผ ์ฌ์ฉํ๋ค.
2. Compound Model Scaling
์ด๋ฒ ์ฅ์์๋ scaling problem์ ๋ํ ๋ค๋ฅธ ์ ๊ทผ๋ฒ๋ค์ ์ดํด๋ณด๊ณ ์๋ก์ด scaling method๋ฅผ ์ ์ํ๋ค.
2.1. Problem Formulation
ํ๋์ ConvNet Layer $i$๋ $Y_i = F_i(X_i)$๋ก ์ ์ ๋๋ค.
-
$F_i$๋ ์ฐ์ฐ์, $Y_i$๋ output tensor, $X_i$๋ input tensor์ ์๋ฏธ
-
$X_i$์ ํฌ๊ธฐ๋ $<H_i, W_i, C_i>$์ด๋ฉฐ, ๊ฐ๊ฐ $H_i, W_i$ ๋ ๊ณต๊ฐ์ ์ฐจ์ $C_i$๋ channel ์ฐจ์์ ์๋ฏธํ๋ค.
ํ๋์ convNet$N$์ $N = F_k\bigodotโฆ \bigodot F_2 \bigodot F_1(X_1)$ ๋ก ํ์ํ๋ค.
ํ์ง๋ง ์ค์ ๋ก ConvNet layers ๋ ์ฌ๋ฌ stage๋ก ๋๋ ์ง๋ฉฐ ๊ฐ๊ฐ์ stage๋ ๊ฐ์ ๊ตฌ์กฐ๋ฅผ ๊ณต์ ํ๋ค. (์๋ฅผ ๋ค์ด ResNet์ ๊ฒฝ์ฐ 5๊ฐ์ stage๊ฐ ์๊ณ down-sampling์ ์ํํ๋ ๋งจ ์ฒ์ ๋ ์ด์ด๋ฅผ ์ ์ธํ๊ณ ๋ ๊ฐ stage์ ๋ชจ๋ ๋ ์ด์ด๋ค์ ๊ฐ์ convolutional ํ์ ์ ๊ฐ์ง๋ค.)
๋ฐ๋ผ์ ์ฐ๋ฆฌ๋ ConvNet์ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ ์ ์๋ค.
$N = \bigodot\limits_{i=1โฆs} F_i^{L_i}(X_{<H_i, W_i, C_i>})$
$F_i^{L_i}$ ๋ $F_i$ ๋ ์ด์ด๊ฐ $i$ stage์์ $L_i$๋ฒ ๋ฐ๋ณต, $<H_i, W_i, C_i>$ ๋ ๋ ์ด์ด $i$์ input tensor X ๊ฐ์ ๋ํ๋ธ๋ค.
์ฐ๋ฆฌ์ ๋ชฉํ๋ ์ต์ ํ ๋ฌธ์ ๋ก ๊ท๊ฒฐ๋๋ ์ด๋ค ์ ํ๋ ์์์ด ์ฃผ์ด์ ธ๋ ๋ชจ๋ธ ์ ํ๋๋ฅผ ์ต๋ํ ํ๋ ๊ฒ์ด๋ค. ์ด์ ๋ ผ๋ฌธ์ด ์ป๊ณ ์ ํ๋ ์ต์ข ๋ชฉํ๋ฅผ ๊ฐ๋จํ ์์ผ๋ก ์ ๋ฆฌํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
$\max\limits_{d,w,r}\,\,\,\, Accuracy(N(d,w,r))$
$Memory(N) \leq target \, memory$
$FLOPS(N) \leq target\,flops$
$w,d,r$ ์ network ์ width, depth, resolution์ scaling ํ๊ธฐ ์ํ ์์๊ฐ์ด๋ฉฐ, $\hat{F}_i,\hat{L}_i,\hat{H}_i,\hat{W}_i,\hat{C}_i$ ๋ baseline network์ ๋ฏธ๋ฆฌ ์ ํด์ ธ ์๋ ํ๋ผ๋ฏธํฐ ๊ฐ์ด๋ค.
์ฆ ,
๋ณ๋๋๋ ์์๊ฐ : $w,d,r$
๊ณ ์ ๊ฐ : $\hat{F}_i,\hat{L}_i,\hat{H}_i,\hat{W}_i,\hat{C}_i$
2.2. Scaling Dimension
์ค์ํ ๋ฌธ์ ๋, ์ต์ ์ $d,w,r$ coefficient ๋ค์ ์๋ก ์ฐ๊ด๋์ด์๋ค๋ ๊ฒ๊ณผ ์๋ก ๋ค๋ฅธ ์ ํ์ ์์์ ๋์ฌ์๋ค๋ ๊ฒ์ด๋ค. ๋ฐ๋ผ์ ๋๋ฆฌ ์ฌ์ฉ๋ ConvNet๋ค์ ๋ค์์ dimension ์ค ํ๋๋ง ์ ํํด scaling ํด์๋ค.
-
Depth ($d$) -> ๊น์ ๋ ์ด์ด
-
Width ($w$) -> channel์ ์
-
Resolution ($r$) -> input image size
์๋ ๊ทธ๋ํ๋ baseline model์ width, depth, resolution coefficients ์ ๋ฐ๋ผ scaling up ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค.
๊ฐ๊ฐ ์ฑ๋ฅ์ด ์ข์์ง์ ์ ์ ์์ง๋ง acc๊ฐ ์ฝ 80%๊ฐ ๋๋ ์์ ์์ ๊ธํ๊ฒ saturate ๋๋ ๊ฒ์ ๋ณผ ์ ์๋ค.
๋คํธ์ํฌ์ depth, width, resolution ์ ์ฐจ์ ์ค ํ๊ฐ์ง ๋ง์ scaling up ํ๋ ๊ฒ์ ์ฑ๋ฅ์ ํฅ์์ํค์ง๋ง ๋ ํฐ ๋ชจ๋ธ์ ์์ด์๋ ์ ํ๋๊ฐ ์ค์ด๋ ๋ค.
2.3 Compound Scaling
์ง๊ด์ ์ผ๋ก ์๊ฐํด๋ณด๋ฉด ๊ฐ ์์๋ค์ ์์กด์
์ด๋ค. ์๊ฐํด ๋ณด์, input image(resolution)๊ฐ ์ปค์ง๋ค๋ฉด network๊ฐ ๋ ๋์ ์์ญ์ ์์ฉํ ์ ์๋ receptive field๋ฅผ ํ๋ณด(depth)ํด์ผ ํ๋ฉฐ, ๋์ฑ ๋ง์ channel(width)์ ํตํด ์ ์ ๋ pattern์ ์ถ์ถํด์ผ ํ ๊ฒ์ด๋ค.
์๋ ๊ทธ๋ํ๋ depth ์ resolution ํฌ๊ธฐ๋ฅผ ๊ณ ์ ํ ์ฑ๋ก width ๊ฐ์ ๋ณํ์ํค๋ฉด์ ํ ์คํธํ ๊ฒฐ๊ณผ์ด๋ค.
๋์ผํ FLOPS์์ width/depth/resolution ์กฐํฉ์ ์ฐพ์๋ด์ผ ํ๋ค.
์ด ๊ฒฐ๊ณผ๋ฅผ ํตํด ConvNet scaling์ ํ๋ ๋์ ๋ ๋์ ์ฑ๋ฅ๊ณผ ํจ์จ์ฑ์ ์ถ๊ตฌํ๊ธฐ ์ํด์๋ network์ ๋ชจ๋ dimensions์ ๊ท ํ์ ์ก๋ ๊ฒ์ด ์ค์ํ๋ค
๋ ๊ฒ์ ์ ์ ์๋ค.
์ด ๋ ผ๋ฌธ์์ ์ ์ํ๋ ์๋ก์ด ๋ฐฉ์์ compound scaling method๋ ๋ค์๊ณผ ๊ฐ๋ค. compound coefficient ์ธ $\phi$ ๋ก network์ width, depth, resolution์ scaleํ๋ค.
compound scaling ๋ฐฉ๋ฒ์ ์ฌ์ฉ๋๋ notation
depth: $d\,=\,\alpha^\phi$
width: $w\,=\,\beta^\phi$
resolution: $r\,=\,\gamma^\phi$
$s.t. \,\,\,\, \alpha\cdot \beta^2 \cdot\gamma^2\approx 2$
$\alpha \geq 1, \beta \geq 1, \gamma \geq 1$
๊ฐ $\alpha, \beta, \gamma$๋ small grid search ์ ์ํด ์ ํด์ง ๋ณ์๋ค์ด๋ฉฐ $\phi$๋ ์ผ๋ง๋ ๋ง์ resource๋ฅผ ์ฌ์ฉํ ์ง์ ๋ํด ์ฌ์ฉ์๊ฐ ์ ํ coefficient ์ด๋ค.
Convolution operation์ FLOPS๋ $d, w^2, r^2$ ๊ฐ๊ฐ์ ๋ํด ๋น๋กํด ์ฆ๊ฐํ๋ ์ฑ์ง์ ๊ฐ๊ณ ์๋ค. ์ฌ๊ธฐ์ width์ resolution์ ์ ๊ณฑ์ด ๋ค์ด๊ฐ ์ด์ ๋ depth๋ 2๋ฐฐ ํค์์ฃผ๋ฉด FLOPS๋ ๋น๋กํด์ 2๋ฐฐ ์ฆ๊ฐํ์ง๋ง width ์ resolution์ ๊ฐ๋ก ์ธ๋ก๊ฐ ๊ฐ๊ฐ ๊ณฑํด์ ธ ์ ๊ณฑ ๋ฐฐ ์ฆ๊ฐํ๊ธฐ ๋๋ฌธ์ด๋ค.
์์ ์์์ $\alpha\cdot \beta^2 \cdot\gamma^2 \approx 2$ ์์๋ ์ ์ ์๋ฏ ๊ฐ์ 2๋ก ์ ํ์์ผฐ์ผ๋ฏ๋ก ์ด FLOPS๋ ๋๋ต $2^\phi$์ ๋น๋กํด ์ฆ๊ฐํ๋ค.
grid search๐
grid search ๋?
Grid search(๊ฒฉ์ ํ์)์ ๋ชจ๋ธ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋ฃ์ ์ ์๋ ๊ฐ๋ค์ ์์ฐจ์ ์ผ๋ก ์ ๋ ฅํ๋ค์ ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๋ ํ์ดํผํ๋ผ๋ฏธํฐ๋ค์ ์ฐพ๋ ํ์ ๋ฐฉ๋ฒ์ด๋ค.
์ฆ, ๋ชจ๋ธ์ ํ์ตํ๊ธฐ ์ํ ์ฌ๋ฌ ๋ฐฉ๋ฒ์ด ์๋๋ฐ ์ด ์ค ์ด๋ค ํน์ ๋ฐฉ๋ฒ์ด ์ด ๋ชจ๋ธ์ ์ ํฉํ์ง ํ๋จํ๋ค.
- ํ์ดํผํ๋ผ๋ฏธํฐ(hyper parameter, ์ด๋งค๊ฐ๋ณ์) ๋ชจ๋ธ ์์ฑ์ ์ฌ์ฉ์๊ฐ ์ง์ ์ค์ ํ๋ ๋ณ์๋ก, ๋ง์ฝ ๋๋ค ํฌ๋ ์คํธ ๋ชจ๋ธ์ ๋ง๋ ๋ค๊ณ ํ๋ฉด ํธ๋ฆฌ์ ๊ฐ์๋ฅผ ๋ช๊ฐ๊น์ง ํ ๊ฒ์ธ์ง, ํธ๋ฆฌ์ ๊น์ด, ๋ฅ๋ฌ๋ ๋ชจ๋ธ์์๋ layer์ ๊ฐฏ์, ํ์ตํ์ ๋ฑ์ด ์ด์ ํด๋นํ๋ค. ๋ฐ๋ฉด, ํ๋ผ๋ฏธํฐ(parameter)๋ ํ์ต ๊ณผ์ ์์ ์์ฑ๋๋ ๋ณ์์ด๋ค.
3. EfficientNet ๊ตฌ์กฐ
์์ ์คํ๋ค์ ํตํด 3๊ฐ์ง scaling factor๋ฅผ ๋์์ ๊ณ ๋ คํ๋ ๊ฒ์ด ์ข๋ค๋ ๊ฒ์ ์ ์ฆํ์๋ค.
์ด์ , ์ต์ ์ ๋น์จ์ ์ฐพ์ ์ค์ ๋ชจ๋ธ์ ์ ์ฉํด ๋ค๋ฅธ ๋ชจ๋ธ๋ค๊ณผ ์ฑ๋ฅ์ ๋น๊ตํ๋ ๊ณผ์ ์ ์ค๋ช ํ๊ฒ ๋ค.
์ด ๋ ผ๋ฌธ์์๋ ๋ชจ๋ธ(F)๋ฅผ ๊ณ ์ ํ๊ณ depth, width, resolution 3๊ฐ์ง๋ฅผ ์กฐ์ ํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋๋ฐ ๊ณ ์ ํ๋ ๋ชจ๋ธ (F)๋ฅผ ์ข์ ๋ชจ๋ธ๋ก ์ ์ ํ๋ ๊ฒ์ด ์์ฃผ ์ค์ํ๋ค. ์๋ฌด๋ฆฌ scaling factor์ ์กฐ์ ํด๋ ์ด๊ธฐ ๋ชจ๋ธ ์์ฒด์ ์ฑ๋ฅ์ด ๋ฎ๋ค๋ฉด ์๊ณ ์ฑ๋ฅ๋ ๋ฎ๊ธฐ ๋๋ฌธ์ด๋ค. ์ด ๋ ผ๋ฌธ์์๋ MnasNet๊ณผ ๊ฑฐ์ ๋์ผํ search spaceํ์์ AutoML์ ํตํด ๋ชจ๋ธ์ ํ์ํ์๊ณ , ์ด ๊ณผ์ ์ ํตํด ์ฐพ์ ์์ ๋ชจ๋ธ์ EfficientNet-B0 ๋ผ๊ณ ํ๋ค.
๋ชจ๋ธ ๊ตฌ์กฐ๋ MnasNet๊ณผ ๊ฑฐ์ ์ ์ฌํ๋ฉฐ ์์ ํ์ ๊ฐ์ ๊ตฌ์กฐ๋ก ๊ตฌ์ฑ๋์ด์๋ค.
EfficientNet์ $\alpha, \beta, \gamma$ ๊ฐ์ ๊ฐ๋จํ grid search๋ก ๊ตฌํด์ง๋ฉฐ, ๋ณธ ๋ ผ๋ฌธ์์๋
$\alpha = 1.2$
$\beta = 1.1$
$\gamma = 1.15$
๋ฅผ ์ฌ์ฉํ๊ณ ์์ผ๋ฉฐ ์ด ์ธ ๊ฐ๋ค์ ๊ณ ์ ํ ๋ค $\phi$ ๊ฐ์ ํค์ฐ๋ฉฐ ๋ชจ๋ธ ์ฌ์ด์ฆ๋ฅผ ํค์ฐ๊ณ ์๋ค.
4. Experiments
๊ธฐ์กด ์ฌ๋์ด ๋์์ธํ ConvNet, AutoML์ ํตํด ์ฐพ์ ConvNet๋ค๊ณผ ๋น๊ตํ ๊ฒฐ๊ณผ๋ ์๋ ํ์ ๋์์๋ค.
๊ธฐ์กด ConvNet๋ค์ ๋นํด ๋น์ทํ ์ ํ๋๋ฅผ ๋ณด์ด๋ฉฐ parameter ์์ FLOPS ์๋ฅผ ๋ง์ด ์ ์ฝํ ์ ์๋ ๊ฒ์ ์ ์ ์๋ค. ๋, ๊ธฐ์กด์ ImageNet ๋ฐ์ดํฐ์ ์์ ๊ฐ์ฅ ๋์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ GPipe๋ณด๋ค ๋ ๋์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.
๊ทธ ์ธ ๋ค์ํ ์คํ ๊ฒฐ๊ณผ๋ค
์์ ์ด๋ฏธ์ง๋ ๋ชจ๋ธ์ด ์ด๋ฏธ์ง๋ฅผ ๋ถ๋ฅํ ๋ ์ด๋ฏธ์ง์ ์ด๋ ์์ญ์ ์ง์คํ๋์ง ํ์ธํ ์ ์๋ Class Activation Map (CAM) ์ ๋ฝ์ ๊ฒฐ๊ณผ์ธ๋ฐ, 3๊ฐ์ scaling factor์ ๊ฐ๊ฐ ๊ณ ๋ คํ ๋ ๋ณด๋ค ๋์ํด ๊ณ ๋ คํ์์ ๋ ๋ ์ ๊ตํ CAM์ ์ป์ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
์์ ํ๋ Fig.7 ์์ ํ์ฉ๋ ์คํ network depth, width, resolution ์กฐ๊ฑด๋ณ FLOPS์ Top-1 accuracy๋ฅผ ๋ํ๋ด๋ ํ์ด๋ค. compound scaling์ ์ ์ฉํ ๊ฒฝ์ฐ๊ฐ ๋น์ทํ FLOPS์์๋ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค์ ์ ์ ์๋ค.
์ด๋ฒ ๋ ผ๋ฌธ์ ๋ฆฌ๋ทฐ ๋์ด ์์ฒญ ๋ง์๋ค.. ๊ฐ๋จํ NasNet ์ ๋นํด์ ๋ฐฐ๋ก ๊ฑธ๋ฆฐ๊ฒ ๊ฐ๋ค. ํ์ง๋ง ๊ทธ๋งํผ ๋ฐฐ์ธ ์ ์ด ๋ง์๊ณ ํนํ NAS๋ฅผ ํจ์จ์ ์ผ๋ก ์ ์ฉํด ํ๋จ๊ณ ์ ๊ทธ๋ ์ด๋ ํ ๊ฒฐ๊ณผ๋ฌผ์ ๋์ถํ๋ค๋ ์ ์์ ๋ง์ด ๋๋ผ์ ๋ค. ๊ทธ๋ฆฌ๊ณ ์ฑ๋ฅ๋ฉด์์๋ ๋งค์ฐ ๋๋๋ค.. ํ๋ผ๋ฏธํฐ ๊ฐ์ ํจ์ฌ ์ ์๋ฐ ํจ์ฌ ์ข์ ์ฑ๋ฅ์ด๋ผ๋.. nas frame์ ์ ์ ์ฉํ๋ฉด ์ด๋ง์ด๋งํ ์ฑ๋ฅ์ด ๋์จ๋ค๋ ๊ฒ์ ์ ์ ์์๋ค. ๐๐๐
์ฐธ๊ณ
[1] https://bellzero.tistory.com/17
[2] https://norman3.github.io/papers/docs/efficient_net.html
๋๊ธ๋จ๊ธฐ๊ธฐ