[๋ ผ๋ฌธ์ ๋ฆฌ๐] Rethinking Model Scaling for Convolutional Neural Networks
Rethinking Model Scaling for Convolutional Neural NetworksPermalink
- EfficientNet -Permalink
๋ ผ๋ฌธ์๋ณธ๐
0. AbstractPermalink
CNN์ ํ์ ๋ ์์์์ ๊ฐ๋ฐ๋์ด์์ผ๋ฉฐ ๋ ๋ง์ ์์์ด ๊ฐ๋ฅํด์ง๋ฉด ๋ ์ข์ ์ฑ๋ฅ์ ์ํด ํฌ๊ธฐ๋ฅผ ํค์๋๊ฐ๋ ๋ฐฉํฅ์ผ๋ก ๋ฐ์ ๋์ด์๋ค.
์ด ๋ ผ๋ฌธ์์๋ model scaling์ ๋ํด ์ด์ผ๊ธฐ ํ๋ฉฐ network์ depth, width, resolution ์ฌ์ด์ ๊ด๊ณ์ ๋ํ ๊ท ํ์ ๋ง์ถฐ์ผ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ธ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
depth, width, resolution์ ์ฐจ์๋ค์ ๊ฐ๋จํ๋ฉด์๋ ๋์ ํจ์จ์ ๋ณด์ด๋ ์๋ก์ด scaling๋ฐฉ๋ฒ์ธ 'compound coefficient'
๋ฅผ ์ ์ํ๋ฉฐ, MobileNet๊ณผ ResNet์ ์ด ๋ฐฉ๋ฒ์ ์ ์ฉํด ํจ์จ์ฑ์ ํ
์คํธํ๋ค.
๋ ๋์๊ฐ, โNeural Architecture Search(NAS)โ๋ฅผ ์ฌ์ฉํด baseline network๋ฅผ ์ค๊ณํ์ผ๋ฉฐ ์ด baseline network๋ฅผ scale up ํด ๊ฐ์กฑ ๋ชจ๋ธ์ธ EfficientNet์ ์ค๊ณํ์๋ค. (NAS๋ ๊ฐํํ์ต์ ๊ธฐ๋ฐ์ผ๋ก ์ต์ ์ network๋ฅผ ์ฐพ๋ ๋ฐฉ๋ฒ์ธ๋ฐ ์ด๊ฒ์ ๋ํ ์์ธํ ์ค๋ช ์ => ์ฌ๊ธฐ)
ํนํ, EfficientNet-B7์ ImageNet dataset์ ๋ํด 84.4%(top-1 acc)/97.1%(top-5 acc)๋ฅผ ์ป์์ ์ ๋๋ก ๋งค์ฐ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ ์ด๋ convNet๋ณด๋ค 8.4๋ฐฐ ์์ผ๋ฉฐ 6.1๋ฐฐ ๋น ๋ฅธ ์ฑ๋ฅ์ ๊ฐ์ง๋ค.
๋ํ, CIFAR-100(91.7%), Flowers(98.8%) ์ ๋ค๋ฅธ 3๊ฐ์ ํ์ต ๋ฐ์ดํฐ์ ์ ์ ์ดํ์ต์ ์์ผ๋ SOTA ์ฑ๋ฅ์ ๋ณด์ธ๋ค.
1. IntroductionPermalink
Scaling up ๋ฐฉ๋ฒ์ ConvNet์ ์ฑ๋ฅํฅ์์ ์์ฃผ ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ์ ๋๋ค. ResNet์ ๊ฒฝ์ฐ์๋ ResNet-18์์ ResNet-200์ผ๋ก layer์๋ฅผ ๋๋ฆผ์ผ์จ ์ฑ๋ฅ์ด ํฅ์๋๊ณ , ์ต๊ทผ์๋ GPipe๊ฐ baseline model์ 4๋ฐฐ scaling up ํ์ฌ ImageNet์ ๋ํด 84.3%(top-1 acc)์ ์ป์๋ค. ํ์ง๋ง ConvNet์ ํจ์จ์ ์ธ scaling up์ ํ๋ ๊ณผ์ ์ ๋ํด์๋ ์ฌ์ ํ ์ ์๋ ค์ง ๋ฐ๊ฐ ์๋ค.
GPipe๐
GPipe ๋?Permalink
GPipe๋ Google Brain์์ ๋ฐํํ ํ์ต๊ธฐ๋ฒ์ผ๋ก ๋ฉ๋ชจ๋ฆฌ๋ฅผ ๋ง์ด ์ฐจ์งํ๋ ํฐ ๋ชจ๋ธ์ ํจ์จ์ ์ผ๋ก ํ์ต์ํค๋๋ฐ ์ ์ฉํ๋ค. Google์ด ๊ณต๊ฐํ ๋ ผ๋ฌธ์ ๋ฒค์น๋งํฌ์ ๋ฐ๋ฅด๋ฉด ๊ธฐ์ค๋ณด๋ค 8๋ฐฐ ๋ง์ ์ฅ์น(TPU)๋ก 25๋ฐฐ ํฐ ๋ชจ๋ธ์ ํ์ต์ํฌ ์ ์๊ณ , ๊ธฐ์ค๋ณด๋ค 4๋ฐฐ ๋ง์ ์ฅ์น์์ 3.5๋ฐฐ ๋นจ๋ฆฌ ํ์ต์ํฌ ์ ์๋ค๊ณ ํ๋ค.
Google์ GPipe๋ฅผ ์ด์ฉํด 5.6์ต๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๋ AmoebaNet-B ๋ชจ๋ธ์ ํ์ต์์ผฐ๋ค. ์ด ๋ชจ๋ธ์ ImageNet์์ 84.3%(top-1 acc)์ ์ป๊ณ 97%(top-5 acc)๋ก SOTA๋ฅผ ๊ธฐ๋กํ๋ค.
Gpipe๋ Pipeline Parallelism๊ณผ Checkpointing, ์ด ๋ ๋ฐฉ๋ฒ์ผ๋ก ๊ฐ๋ฅํ ํฐ ๋ชจ๋ธ์ ํ์ต์ํจ๋ค.
- Pipeline ParallelismPermalink
GPipe๋ ๋ชจ๋ธ์ ์ฌ๋ฌ ํํฐ์ ์ผ๋ก ๋๋ ๊ฐ๊ฐ ์๋ก ๋ค๋ฅธ ์ฅ์น์ ๋ฐฐ์นํด ๋ ๋ง์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ฌ์ฉํ ์ ์๊ฒ ํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ฌ๋ฌ ํํฐ์ ์ด ์ต์ฌํ ๋ณ๋ ฌ์ ์ผ๋ก ์๋ํ ์ ์๋๋ก, ๋ชจ๋ธ์ ์ ๋ ฅ๋๋ ๋ฏธ๋๋ฐฐ์น๋ฅผ ์ฌ๋ฌ ๋ง์ดํฌ๋ก๋ฐฐ์น๋ก ๋๋ ๋ชจ๋ธ์ ํ๋ ค๋ณด๋ธ๋ค.
- CheckpointingPermalink
๊ฐ ํํฐ์ ์ ์ฒดํฌํฌ์ธํธ๋ฅผ ๋ง๋ค์ด ๋ฉ๋ชจ๋ฆฌ ๊ฐ์ฉ๋์ ๊ทน๋ํํ๋ค. ์์ ํ(forward propagation)๋ ํํฐ์ ๊ฒฝ๊ณ์ ์ ์ถ๋ ฅ๋ง ๊ธฐ์ตํ๊ณ ๋ด๋ถ์ hidden layer๋ ํ๋ฐ์ํจ๋ค. ํ๋ฐ๋ hidden layer์ ์ญ์ ํ(back propagation) ๋ ๋ค์ ๊ณ์ฐ๋๋ค.
๊ทธ ๋์์ ConvNet์ scaling ๋ฐฉ๋ฒ์ ๋ํด์๋ depth, width, resolution ์ด ์ ์ค ํ๋์ dimension๋ง์ ์กฐ์ ํ๋ ๋ฐฉ์์ผ๋ก ์ฌ์ฉ๋์ด์๋ค. ์ด ์ค ๋ ๊ฐ์ง ์ด์์ ์กฐ์ ํ๋ ๋ฐฉ๋ฒ๋ ๊ณ ๋ ค๋ ์ ์์ง๋ง, ๋ฏธ์ธํ๊ฒ ์กฐ์ ํด์ค์ผ ํ๋ ์์ ๋ค์ด ๋ง์ด ํ์ํ๋ฉฐ ์ต์ ์ ๊ฒฐ๊ณผ๋ฅผ ์ ๋ํ๋ด์ง ๋ชปํ๋ค.
๋ฐ๋ผ์ ์ด ๋
ผ๋ฌธ์์๋ ๊ฐ๋จํ๋ฉด์ ํจ์จ์ ์ธ 'compound scaling method'
๋ฅผ ์ ์ํ๋ฉฐ ์ด ๋ฐฉ๋ฒ์ ํต์ฌ์ network์ width, depth, resolution ์ฌ์ด์ ๊ท ํ์ ๋ง์ถ๋ ๊ฒ์ ์ฑ๋ฅํฅ์์ ๋งค์ฐ ์ค์
ํ๋ฉฐ ์ด๋ค๊ฐ์ ๊ท ํ์ ๊ฐ๋จํ ์์์ ๋น(constant ratio)๋ก ๊ตฌํด์ง ์ ์๋ค๋ ๊ฒ์ด๋ค.
์๋ฅผ ๋ค์ด ์ฐ๋ฆฌ๊ฐ 2N๋ฐฐ ํฐ ๋ชจ๋ธ์ ๋์์ธํ๊ณ ์ถ๋ค๋ฉด baseline network์ depth๋ฅผ ๋จ์ํ ฮฑN, width๋ฅผ ฮฒN, image size๋ฅผ ฮณNํด์ ์์ grid search๋ฅผ ํตํด ์์ ์กฐ๊ฑด์ ๋ง์กฑํ๋ ฮฑ,ฮฒ,ฮณ๊ฐ์ ์ฐพ๊ฒ ๋๋ค.
์๋ ์ด๋ฏธ์ง์ ๊ฐ์ด ์ ์ parameter์๋ก ์์ฒญ๋ ์ฑ๋ฅ์ ๋ผ ์ ์๋ค. (significantly out-perform other convnets ๋ผ๊ณ ์จ์ ธ์๋ค. ์๋์ ์ธ parameter ์ ์ ์๋ก ์์ฒญ๋ ์ฑ๋ฅ์ ๋ธ๋คโฆ๋ผ๊ณ ๊ฐ์กฐํจ)
๊ทผ๋ฐ ์ง์ง.. ๋๋จํ ์ฑ๋ฅ์ธ ๊ฒ ๊ฐ๋ค.
๋ค์์ 3๊ฐ์ง ๋ฐฉ๋ฒ์ scale up ์ ๋ํ๋ด๋ ๊ทธ๋ฆผ์ด๋ค.
(a)์ baseline network๋ฅผ ํ ๋๋ก (b)~(d) ๋ width, depth, resolution์ scaling up ํ์ ๋์ ๊ตฌ์กฐ๋ฅผ ๋ํ๋ธ๋ค.
๊ฒฐ๊ตญ ๋ง์ง๋ง (e)์ compound scaling ์ ์ ํ๋ ๊ฒ์ด ์ด ๋ ผ๋ฌธ์ ๋ชฉํ์ด๋ค.
๋
ผ๋ฌธ์์๋ MobileNet๊ณผ ResNet์ ์ด์ฉํด ์ด๋ฅผ ํ์ธํ๊ณ ์์ผ๋ฉฐ, Model scaling์ ์ํ ์ฑ๋ฅ ํฅ์์ baseline network์ ๋งค์ฐ ์์กด์ ์ด๊ธฐ ๋๋ฌธ์, baseline network๋ฅผ ์ค์ ํ๋๋ฐ ์์ด์ neural architecture search(NAS)
๋ฅผ ์ฌ์ฉํ๋ค.
2. Compound Model ScalingPermalink
์ด๋ฒ ์ฅ์์๋ scaling problem์ ๋ํ ๋ค๋ฅธ ์ ๊ทผ๋ฒ๋ค์ ์ดํด๋ณด๊ณ ์๋ก์ด scaling method๋ฅผ ์ ์ํ๋ค.
2.1. Problem FormulationPermalink
ํ๋์ ConvNet Layer i๋ Yi=Fi(Xi)๋ก ์ ์ ๋๋ค.
-
Fi๋ ์ฐ์ฐ์, Yi๋ output tensor, Xi๋ input tensor์ ์๋ฏธ
-
Xi์ ํฌ๊ธฐ๋ <Hi,Wi,Ci>์ด๋ฉฐ, ๊ฐ๊ฐ Hi,Wi ๋ ๊ณต๊ฐ์ ์ฐจ์ Ci๋ channel ์ฐจ์์ ์๋ฏธํ๋ค.
ํ๋์ convNetN์ N=FkโจโฆโจF2โจF1(X1) ๋ก ํ์ํ๋ค.
ํ์ง๋ง ์ค์ ๋ก ConvNet layers ๋ ์ฌ๋ฌ stage๋ก ๋๋ ์ง๋ฉฐ ๊ฐ๊ฐ์ stage๋ ๊ฐ์ ๊ตฌ์กฐ๋ฅผ ๊ณต์ ํ๋ค. (์๋ฅผ ๋ค์ด ResNet์ ๊ฒฝ์ฐ 5๊ฐ์ stage๊ฐ ์๊ณ down-sampling์ ์ํํ๋ ๋งจ ์ฒ์ ๋ ์ด์ด๋ฅผ ์ ์ธํ๊ณ ๋ ๊ฐ stage์ ๋ชจ๋ ๋ ์ด์ด๋ค์ ๊ฐ์ convolutional ํ์ ์ ๊ฐ์ง๋ค.)
๋ฐ๋ผ์ ์ฐ๋ฆฌ๋ ConvNet์ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ ์ ์๋ค.
N=โจi=1โฆsFLii(X<Hi,Wi,Ci>)
FLii ๋ Fi ๋ ์ด์ด๊ฐ i stage์์ Li๋ฒ ๋ฐ๋ณต, <Hi,Wi,Ci> ๋ ๋ ์ด์ด i์ input tensor X ๊ฐ์ ๋ํ๋ธ๋ค.
์ฐ๋ฆฌ์ ๋ชฉํ๋ ์ต์ ํ ๋ฌธ์ ๋ก ๊ท๊ฒฐ๋๋ ์ด๋ค ์ ํ๋ ์์์ด ์ฃผ์ด์ ธ๋ ๋ชจ๋ธ ์ ํ๋๋ฅผ ์ต๋ํ ํ๋ ๊ฒ์ด๋ค. ์ด์ ๋ ผ๋ฌธ์ด ์ป๊ณ ์ ํ๋ ์ต์ข ๋ชฉํ๋ฅผ ๊ฐ๋จํ ์์ผ๋ก ์ ๋ฆฌํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
maxd,w,rAccuracy(N(d,w,r))
Memory(N)โคtargetmemory
FLOPS(N)โคtargetflops
w,d,r ์ network ์ width, depth, resolution์ scaling ํ๊ธฐ ์ํ ์์๊ฐ์ด๋ฉฐ, หFi,หLi,หHi,หWi,หCi ๋ baseline network์ ๋ฏธ๋ฆฌ ์ ํด์ ธ ์๋ ํ๋ผ๋ฏธํฐ ๊ฐ์ด๋ค.
์ฆ ,
๋ณ๋๋๋ ์์๊ฐ : w,d,r
๊ณ ์ ๊ฐ : หFi,หLi,หHi,หWi,หCi
2.2. Scaling DimensionPermalink
์ค์ํ ๋ฌธ์ ๋, ์ต์ ์ d,w,r coefficient ๋ค์ ์๋ก ์ฐ๊ด๋์ด์๋ค๋ ๊ฒ๊ณผ ์๋ก ๋ค๋ฅธ ์ ํ์ ์์์ ๋์ฌ์๋ค๋ ๊ฒ์ด๋ค. ๋ฐ๋ผ์ ๋๋ฆฌ ์ฌ์ฉ๋ ConvNet๋ค์ ๋ค์์ dimension ์ค ํ๋๋ง ์ ํํด scaling ํด์๋ค.
-
Depth (d) -> ๊น์ ๋ ์ด์ด
-
Width (w) -> channel์ ์
-
Resolution (r) -> input image size
์๋ ๊ทธ๋ํ๋ baseline model์ width, depth, resolution coefficients ์ ๋ฐ๋ผ scaling up ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค.
๊ฐ๊ฐ ์ฑ๋ฅ์ด ์ข์์ง์ ์ ์ ์์ง๋ง acc๊ฐ ์ฝ 80%๊ฐ ๋๋ ์์ ์์ ๊ธํ๊ฒ saturate ๋๋ ๊ฒ์ ๋ณผ ์ ์๋ค.
๋คํธ์ํฌ์ depth, width, resolution ์ ์ฐจ์ ์ค ํ๊ฐ์ง ๋ง์ scaling up ํ๋ ๊ฒ์ ์ฑ๋ฅ์ ํฅ์์ํค์ง๋ง ๋ ํฐ ๋ชจ๋ธ์ ์์ด์๋ ์ ํ๋๊ฐ ์ค์ด๋ ๋ค.
2.3 Compound ScalingPermalink
์ง๊ด์ ์ผ๋ก ์๊ฐํด๋ณด๋ฉด ๊ฐ ์์๋ค์ ์์กด์
์ด๋ค. ์๊ฐํด ๋ณด์, input image(resolution)๊ฐ ์ปค์ง๋ค๋ฉด network๊ฐ ๋ ๋์ ์์ญ์ ์์ฉํ ์ ์๋ receptive field๋ฅผ ํ๋ณด(depth)ํด์ผ ํ๋ฉฐ, ๋์ฑ ๋ง์ channel(width)์ ํตํด ์ ์ ๋ pattern์ ์ถ์ถํด์ผ ํ ๊ฒ์ด๋ค.
์๋ ๊ทธ๋ํ๋ depth ์ resolution ํฌ๊ธฐ๋ฅผ ๊ณ ์ ํ ์ฑ๋ก width ๊ฐ์ ๋ณํ์ํค๋ฉด์ ํ ์คํธํ ๊ฒฐ๊ณผ์ด๋ค.
๋์ผํ FLOPS์์ width/depth/resolution ์กฐํฉ์ ์ฐพ์๋ด์ผ ํ๋ค.
์ด ๊ฒฐ๊ณผ๋ฅผ ํตํด ConvNet scaling์ ํ๋ ๋์ ๋ ๋์ ์ฑ๋ฅ๊ณผ ํจ์จ์ฑ์ ์ถ๊ตฌํ๊ธฐ ์ํด์๋ network์ ๋ชจ๋ dimensions์ ๊ท ํ์ ์ก๋ ๊ฒ์ด ์ค์ํ๋ค
๋ ๊ฒ์ ์ ์ ์๋ค.
์ด ๋ ผ๋ฌธ์์ ์ ์ํ๋ ์๋ก์ด ๋ฐฉ์์ compound scaling method๋ ๋ค์๊ณผ ๊ฐ๋ค. compound coefficient ์ธ ฯ ๋ก network์ width, depth, resolution์ scaleํ๋ค.
compound scaling ๋ฐฉ๋ฒ์ ์ฌ์ฉ๋๋ notationPermalink
depth: d=ฮฑฯ
width: w=ฮฒฯ
resolution: r=ฮณฯ
s.t.ฮฑโ ฮฒ2โ ฮณ2โ2
ฮฑโฅ1,ฮฒโฅ1,ฮณโฅ1
๊ฐ ฮฑ,ฮฒ,ฮณ๋ small grid search ์ ์ํด ์ ํด์ง ๋ณ์๋ค์ด๋ฉฐ ฯ๋ ์ผ๋ง๋ ๋ง์ resource๋ฅผ ์ฌ์ฉํ ์ง์ ๋ํด ์ฌ์ฉ์๊ฐ ์ ํ coefficient ์ด๋ค.
Convolution operation์ FLOPS๋ d,w2,r2 ๊ฐ๊ฐ์ ๋ํด ๋น๋กํด ์ฆ๊ฐํ๋ ์ฑ์ง์ ๊ฐ๊ณ ์๋ค. ์ฌ๊ธฐ์ width์ resolution์ ์ ๊ณฑ์ด ๋ค์ด๊ฐ ์ด์ ๋ depth๋ 2๋ฐฐ ํค์์ฃผ๋ฉด FLOPS๋ ๋น๋กํด์ 2๋ฐฐ ์ฆ๊ฐํ์ง๋ง width ์ resolution์ ๊ฐ๋ก ์ธ๋ก๊ฐ ๊ฐ๊ฐ ๊ณฑํด์ ธ ์ ๊ณฑ ๋ฐฐ ์ฆ๊ฐํ๊ธฐ ๋๋ฌธ์ด๋ค.
์์ ์์์ ฮฑโ ฮฒ2โ ฮณ2โ2 ์์๋ ์ ์ ์๋ฏ ๊ฐ์ 2๋ก ์ ํ์์ผฐ์ผ๋ฏ๋ก ์ด FLOPS๋ ๋๋ต 2ฯ์ ๋น๋กํด ์ฆ๊ฐํ๋ค.
grid search๐
grid search ๋?Permalink
Grid search(๊ฒฉ์ ํ์)์ ๋ชจ๋ธ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋ฃ์ ์ ์๋ ๊ฐ๋ค์ ์์ฐจ์ ์ผ๋ก ์ ๋ ฅํ๋ค์ ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๋ ํ์ดํผํ๋ผ๋ฏธํฐ๋ค์ ์ฐพ๋ ํ์ ๋ฐฉ๋ฒ์ด๋ค.
์ฆ, ๋ชจ๋ธ์ ํ์ตํ๊ธฐ ์ํ ์ฌ๋ฌ ๋ฐฉ๋ฒ์ด ์๋๋ฐ ์ด ์ค ์ด๋ค ํน์ ๋ฐฉ๋ฒ์ด ์ด ๋ชจ๋ธ์ ์ ํฉํ์ง ํ๋จํ๋ค.
- ํ์ดํผํ๋ผ๋ฏธํฐ(hyper parameter, ์ด๋งค๊ฐ๋ณ์) ๋ชจ๋ธ ์์ฑ์ ์ฌ์ฉ์๊ฐ ์ง์ ์ค์ ํ๋ ๋ณ์๋ก, ๋ง์ฝ ๋๋ค ํฌ๋ ์คํธ ๋ชจ๋ธ์ ๋ง๋ ๋ค๊ณ ํ๋ฉด ํธ๋ฆฌ์ ๊ฐ์๋ฅผ ๋ช๊ฐ๊น์ง ํ ๊ฒ์ธ์ง, ํธ๋ฆฌ์ ๊น์ด, ๋ฅ๋ฌ๋ ๋ชจ๋ธ์์๋ layer์ ๊ฐฏ์, ํ์ตํ์ ๋ฑ์ด ์ด์ ํด๋นํ๋ค. ๋ฐ๋ฉด, ํ๋ผ๋ฏธํฐ(parameter)๋ ํ์ต ๊ณผ์ ์์ ์์ฑ๋๋ ๋ณ์์ด๋ค.
3. EfficientNet ๊ตฌ์กฐPermalink
์์ ์คํ๋ค์ ํตํด 3๊ฐ์ง scaling factor๋ฅผ ๋์์ ๊ณ ๋ คํ๋ ๊ฒ์ด ์ข๋ค๋ ๊ฒ์ ์ ์ฆํ์๋ค.
์ด์ , ์ต์ ์ ๋น์จ์ ์ฐพ์ ์ค์ ๋ชจ๋ธ์ ์ ์ฉํด ๋ค๋ฅธ ๋ชจ๋ธ๋ค๊ณผ ์ฑ๋ฅ์ ๋น๊ตํ๋ ๊ณผ์ ์ ์ค๋ช ํ๊ฒ ๋ค.
์ด ๋ ผ๋ฌธ์์๋ ๋ชจ๋ธ(F)๋ฅผ ๊ณ ์ ํ๊ณ depth, width, resolution 3๊ฐ์ง๋ฅผ ์กฐ์ ํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋๋ฐ ๊ณ ์ ํ๋ ๋ชจ๋ธ (F)๋ฅผ ์ข์ ๋ชจ๋ธ๋ก ์ ์ ํ๋ ๊ฒ์ด ์์ฃผ ์ค์ํ๋ค. ์๋ฌด๋ฆฌ scaling factor์ ์กฐ์ ํด๋ ์ด๊ธฐ ๋ชจ๋ธ ์์ฒด์ ์ฑ๋ฅ์ด ๋ฎ๋ค๋ฉด ์๊ณ ์ฑ๋ฅ๋ ๋ฎ๊ธฐ ๋๋ฌธ์ด๋ค. ์ด ๋ ผ๋ฌธ์์๋ MnasNet๊ณผ ๊ฑฐ์ ๋์ผํ search spaceํ์์ AutoML์ ํตํด ๋ชจ๋ธ์ ํ์ํ์๊ณ , ์ด ๊ณผ์ ์ ํตํด ์ฐพ์ ์์ ๋ชจ๋ธ์ EfficientNet-B0 ๋ผ๊ณ ํ๋ค.
๋ชจ๋ธ ๊ตฌ์กฐ๋ MnasNet๊ณผ ๊ฑฐ์ ์ ์ฌํ๋ฉฐ ์์ ํ์ ๊ฐ์ ๊ตฌ์กฐ๋ก ๊ตฌ์ฑ๋์ด์๋ค.
EfficientNet์ ฮฑ,ฮฒ,ฮณ ๊ฐ์ ๊ฐ๋จํ grid search๋ก ๊ตฌํด์ง๋ฉฐ, ๋ณธ ๋ ผ๋ฌธ์์๋
ฮฑ=1.2
ฮฒ=1.1
ฮณ=1.15
๋ฅผ ์ฌ์ฉํ๊ณ ์์ผ๋ฉฐ ์ด ์ธ ๊ฐ๋ค์ ๊ณ ์ ํ ๋ค ฯ ๊ฐ์ ํค์ฐ๋ฉฐ ๋ชจ๋ธ ์ฌ์ด์ฆ๋ฅผ ํค์ฐ๊ณ ์๋ค.
4. ExperimentsPermalink
๊ธฐ์กด ์ฌ๋์ด ๋์์ธํ ConvNet, AutoML์ ํตํด ์ฐพ์ ConvNet๋ค๊ณผ ๋น๊ตํ ๊ฒฐ๊ณผ๋ ์๋ ํ์ ๋์์๋ค.
๊ธฐ์กด ConvNet๋ค์ ๋นํด ๋น์ทํ ์ ํ๋๋ฅผ ๋ณด์ด๋ฉฐ parameter ์์ FLOPS ์๋ฅผ ๋ง์ด ์ ์ฝํ ์ ์๋ ๊ฒ์ ์ ์ ์๋ค. ๋, ๊ธฐ์กด์ ImageNet ๋ฐ์ดํฐ์ ์์ ๊ฐ์ฅ ๋์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ GPipe๋ณด๋ค ๋ ๋์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ ๊ฒ์ ํ์ธํ ์ ์๋ค.
๊ทธ ์ธ ๋ค์ํ ์คํ ๊ฒฐ๊ณผ๋คPermalink
์์ ์ด๋ฏธ์ง๋ ๋ชจ๋ธ์ด ์ด๋ฏธ์ง๋ฅผ ๋ถ๋ฅํ ๋ ์ด๋ฏธ์ง์ ์ด๋ ์์ญ์ ์ง์คํ๋์ง ํ์ธํ ์ ์๋ Class Activation Map (CAM) ์ ๋ฝ์ ๊ฒฐ๊ณผ์ธ๋ฐ, 3๊ฐ์ scaling factor์ ๊ฐ๊ฐ ๊ณ ๋ คํ ๋ ๋ณด๋ค ๋์ํด ๊ณ ๋ คํ์์ ๋ ๋ ์ ๊ตํ CAM์ ์ป์ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
์์ ํ๋ Fig.7 ์์ ํ์ฉ๋ ์คํ network depth, width, resolution ์กฐ๊ฑด๋ณ FLOPS์ Top-1 accuracy๋ฅผ ๋ํ๋ด๋ ํ์ด๋ค. compound scaling์ ์ ์ฉํ ๊ฒฝ์ฐ๊ฐ ๋น์ทํ FLOPS์์๋ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค์ ์ ์ ์๋ค.
์ด๋ฒ ๋ ผ๋ฌธ์ ๋ฆฌ๋ทฐ ๋์ด ์์ฒญ ๋ง์๋ค.. ๊ฐ๋จํ NasNet ์ ๋นํด์ ๋ฐฐ๋ก ๊ฑธ๋ฆฐ๊ฒ ๊ฐ๋ค. ํ์ง๋ง ๊ทธ๋งํผ ๋ฐฐ์ธ ์ ์ด ๋ง์๊ณ ํนํ NAS๋ฅผ ํจ์จ์ ์ผ๋ก ์ ์ฉํด ํ๋จ๊ณ ์ ๊ทธ๋ ์ด๋ ํ ๊ฒฐ๊ณผ๋ฌผ์ ๋์ถํ๋ค๋ ์ ์์ ๋ง์ด ๋๋ผ์ ๋ค. ๊ทธ๋ฆฌ๊ณ ์ฑ๋ฅ๋ฉด์์๋ ๋งค์ฐ ๋๋๋ค.. ํ๋ผ๋ฏธํฐ ๊ฐ์ ํจ์ฌ ์ ์๋ฐ ํจ์ฌ ์ข์ ์ฑ๋ฅ์ด๋ผ๋.. nas frame์ ์ ์ ์ฉํ๋ฉด ์ด๋ง์ด๋งํ ์ฑ๋ฅ์ด ๋์จ๋ค๋ ๊ฒ์ ์ ์ ์์๋ค. ๐๐๐
์ฐธ๊ณ Permalink
[1] https://bellzero.tistory.com/17
[2] https://norman3.github.io/papers/docs/efficient_net.html
๋๊ธ๋จ๊ธฐ๊ธฐ