[๋ ผ๋ฌธ์ ๋ฆฌ๐] ImageNet Classification with Deep Convolutional Neural Networks
๋ ผ๋ฌธ์๋ณธ๐
2012 ILSVRC์์ ์์ํ neural network โAlexNetโ
AlexNet ์ฝ๋๊ตฌํ ํ์ด์ง. => AlexNet
0. ์์ฝ
ILSVRC-2010 ์ฝํ ์คํธ์์ ImageNet์ 120๋ง ๊ณ ํ์ง ์ด๋ฏธ์ง๋ฅผ ๋ถ๋ฅํ๊ธฐ ์ํด ํฌ๊ณ ๊น์ CNN์ ์ฌ์ฉํด 1000๊ฐ์ ๋ค๋ฅธ ํด๋์ค๋ค์ ๋์ถํ์๋ค.
60million ํ๋ผ๋ฏธํฐ์ 650000 neurons, 5๊ฐ์ convolutional layers, max-pooling layers ๊ทธ๋ฆฌ๊ณ 3๊ฐ์ fully-connected layers
- To train faster โ use non-saturating neurons and ํจ์จ์ ์ธ GPU
- To reduce โ use dropout, which is a recently-developed regularization method
top-5 test error rate of 15.3%๋ฅผ ๊ธฐ๋กํ๋ฉฐ ILSVRC-2012 ๋ํ์์ 1๋ฑ์ ์์ํ์๋ค.
1. ๊ฐ์
์ด์ ์๋ ๋ ์ด๋ธ๋ ์ด๋ฏธ์ง ๋ฐ์ดํฐ์ ์ ๋งค์ฐ ์ ์๋ค. ๋ํ ์ด๋ฐ ๋ฐ์ดํฐ์ ์ ๋จ์์ธ์ ๋ฌธ์ ์์๋ง ์ ์ ์ฉ์ด ๋์๋ค. ํ์ง๋ง ์ง๊ธ์ ์๋ฐฑ๋ง๊ฐ์ ์ด๋ฏธ์ง๋ก ๋ ์ด๋ธ๋ง ๋ ๋ฐ์ดํฐ ์ ์ ์์ง ๊ฐ๋ฅํ๋ค.
ํ์ง๋ง,
์์ฒญ ๋ณต์กํ ์ฌ๋ฌผ ์ธ์ ๋ฌธ์ ๋ ImageNet๋งํผ ํฐ ๋ฐ์ดํฐ์ ์๋ ๋ถ๊ตฌํ๊ณ ๊ตฌ์ฒดํ ๋์ง ์๋๋ค.
๋ฐ๋ผ์ ๋ชจ๋ธ์ ๋ง์ ์ฌ์ ์ง์๊ณผ ์์ง ๊ฐ์ง๊ณ ์์ง ์์ ๋ชจ๋ ๋ฐ์ดํฐ(ํ์ต๋์ง ์์ ๋ฐ์ดํฐ)๋ฅผ ์ดํดํด์ผ ํ๋ค.
CNN์ ๊น์ด์ ๋์ด๋ฅผ ๋ค์ํ๊ฒ ์ปจํธ๋กคํ ์ ์๊ณ ๊ฐํ๊ฒ๋ ๋ง๋ค ์ ์๋ค. ๋ํ, ์์ฐ์ ์ด๋ฏธ์ง์ ๋ํด์ ๊ฑฐ์ ๋๋ถ๋ถ ๋ง๋ ์์ธก์ ํ๋ค. ๋ฐ๋ผ์ ๊ธฐ์กด์ feed-forward neural networks์ ๋น๊ตํ์ ๋ CNN์ ๋ ์ ์ ์ฐ๊ฒฐ๊ณผ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๊ณ ์์ด ์ฝ๊ฒ ํ์ตํ ์ ์์ผ๋ฉฐ ๋์์ ์ด๋ก ์ ์ผ๋ก ์์ฃผ ๋ฏธ๋ฏธํ๊ฒ ๋์๋ฉฐ ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ธ๋ค
1) CNN์ ์ง๊ณผ 2)์ง์ญ์ ๊ตฌ์กฐ์ ์๋์ ํจ์จ์๋ ๋ถ๊ตฌํ๊ณ ํฐ ์ค์ผ์ผ์์ ๊ณ ํ์ง์ ์ ์ฉํ๊ธฐ์๋ ์ฌ์ ํ ๋น์ฉ์ด ๊ฝค ๋ ๋ค. ๋คํํ ํ์ฌ GPU(highly-optimized implementation of 2D convolution์ผ๋ก ์์ ์ด๋ฃจ๋ GPU)๋ก ์ฑ๋ฅ์ ๋ผ ์ ์๋ค.
์ฐ๋ฆฌ๋ ์ด ๋ชจ๋ธ์ ํตํด์ ์ฑ๋ฅ์ ๋์ด๊ณ ํ์ต ์๊ฐ์ ์ค์๋ค. ์ฐ๋ฆฌ์ ์คํ์ ์ฑ๋ฅ์ด ๋ ์ข์ GPU๊ฐ ๋ฐ๋ช ๋จ์ผ๋ก์จ ๋ ํฅ์๋ ์ ์๋ค.
2. Dataset
ImageNet์ ์ฌ์ฉ, ์ด ์์คํ ์์๋ ์ผ์ ํ ์ ๋ ฅ dimension๊ฐ์ด ํ์ํ๋ฏ๋ก ๊ฐ๋ณํด์๋ ์ด๋ฏธ์ง๋ก ๊ตฌ์ฑ๋ ImageNet ๋ฐ์ดํฐ๋ค์ 256์ ํด์๋๋ก ๋ค์ด ์ํ๋งํ์๋ค. ๋, ์ง์ฌ๊ฐํ ์ด๋ฏธ์ง๊ฐ ์ ๋ ฅ์ผ๋ก ๋ค์ด์ฌ ๊ฒฝ์ฐ ๊ธธ์ด๊ฐ ์งง์ ์ชฝ์ rescale์ ์งํํด ๊ฐ์ด๋ฐ๋ก ๋ง์ถ๊ณ ์งํํ์๋ค. ๊ฐ ํฝ์ ์์ ํ๋ จ set์ ๋ํ ํ๊ท ์ ๋นผ๋ ๋ฐฉ๋ฒ์ผ๋ก๋ง ์ด๋ฏธ์ง๋ฅผ ์ฌ์ ์ฒ๋ฆฌํ์๋ค. ๋ฐ๋ผ์ ์ด ๋ชจ๋ธ์์๋ raw RGB ๊ฐ์ ํฝ์ ๋ก ํ์ต์ ์งํํ์๋ค.
3. The Architecture
์ด 8๊ฐ์ layer๋ก, 5๊ฐ์ convolutional layer, 3๊ฐ์ fully-connected layer๋ก ๊ตฌ์ฑ๋์ด์๋ค.
3.1 ReLU nonlinearity
๊ฐ๋ ์ ๋ฆฌ ๋จผ์ !
- saturating linearity : ์ด๋ค ์
๋ ฅ x๊ฐ ๋ฌดํ๋๋ก ๊ฐ ๋ ํจ์ ๊ฐ์ด ๋ฌดํ๋๋ก ๊ฐ๋ ๊ฒ
ex) ReLu
- non-saturating linearity : ์ด๋ค ์
๋ ฅ x๊ฐ ๋ฌดํ๋๋ก ๊ฐ ๋ ํจ์ ๊ฐ์ด ์ด๋ค ๋ฒ์ ๋ด์์๋ง ์์ง์ด๋ ๊ฒ
ex) Sigmoid, hyper tahn
์์ ํ๋ฅผ ๋ณด๋ฉด, ์ค์ ์ธ ReLu ํจ์๊ฐ ์ ์ tanh ํจ์๋ณดํ ์ฝ 6๋ฐฐ ๋น ๋ฅด๊ฒ ํ์ตํ ์ ์๋ค๋ ๊ฒ์ ๋ณผ ์ ์๋ค. ์ด๊ฒ์, ์ ํต๋ชจ๋ธ์ ์ฌ์ฉํ๋๋ผ๋ฉด ์ด ์์ ์ ๋ํด ํฐ neural net ์คํ์ด ๋ถ๊ฐ๋ฅํ์์ ๋ณด์ฌ์ค๋ค.
๋น ๋ฅธ ํ์ต์ ํฐ ๊ท๋ชจ์ ๋ฐ์ดํฐ์ ์ผ๋ก ์ด๋ฃจ์ด์ง ํฐ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ข์ ์ํฅ์ ๋ฏธ์น๋ค.
3.2 Training on Multiple GPUs
120๋ง์ ํ์ต ์์ ๋ ํ๋์ GPU๋ก๋ ๋๋ฌด ํฌ๋ค. ๋ฐ๋ผ์ ๋๊ฐ์ GPU๋ฅผ ํผ์ณ์ ๋ง(net)์ ์๊ฐ๋ฆฌ๊ฒ ํ์๋ค.
์์ ์ด๋ฏธ์ง์ ๊ฐ์ด kernel 2๊ฐ๋ฅผ ๋์์ ์ฌ์ฉ(GPU 2๊ฐ๋ก ๋ถํ ํด์) ๋ ์ด๊ฒ์ crossํ๊ฒ ํ์ตํ๊ฒ ๋ ํ์๋ค.
- ์ต๊ทผ์ GPU๋ค์ ๊ต์ฐจ ๋ณ๋ ฌ์ฒ๋ฆฌ๊ฐ ์ ๋์ด์์ด ํธ์คํธ ๋จธ์ ๋ฉ๋ชจ๋ฆฌ์ ์ง์ ๊ฐ์ง ์๊ณ ๋ ์๋ก์ ๋ฉ๋ชจ๋ฆฌ๋ฅผ R/W ํ ์ ์๋ค.
- ๊ฐ ์ปค๋์ ๋ฐ๋ก ์ ๋จ layer์์ ๋ง ์ ๋ ฅ์ ๋ฐ๋๋ค.
- ์ฐ๊ฒฐ์ ํจํด์ ๊ณ ๋ฅด๋ ๊ฒ์ cross-validation์ ๋ฌธ์ ์ด์ง๋ง ์ด๊ฒ ๋๋ถ์ ํ์ฉ ๊ฐ๋ฅํ ๊ณ์ฐ ๊ฐ์ ๋ถ์๊ฐ ๋์ฌ ๋๊น์ง ๋ฏธ์ธ ์กฐ์ ์ด ๊ฐ๋ฅํ๋ค.
3.3 Local Response Normalization
tahn ์ด๋ sigmoid ํจ์๋ฅผ ์ฌ์ฉํ๋ฉด saturating์ ํด์ผํด์ overfitting์ ๋ฐฉ์งํ๊ธฐ ์ํด ์ ๋ ฅํ ๋ ๋ถํฐ normalization์ ๋ค์ด๊ฐ๋ค. ํ์ง๋ง ReLu๋ ์์ ์ ๋ ฅ๊ฐ์ ๊ทธ๋๋ก ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ convolution ์ด๋ pooling์ ๋งค์ฐ ๋์ ํ๋์ ํฝ์ ๊ฐ์ด ์ฃผ๋ณ์ ํฝ์ ์ ์ํฅ์ ๋ฏธ์น๊ฒ ๋๋ค. ์ด๊ฒ์ ๋ฐฉ์งํ๊ธฐ ์ํด ๋ค๋ฅธ activation map(kernel)์ ๊ฐ์ ์์น์ ์๋ ํฝ์ ๋ผ๋ฆฌ normalization์ ํด์ฃผ๋๋ฐ ์ด๊ฒ์ด Local Response Normalization์ด๋ค.
- ์ด ์ ๊ทํ๋ top-1, top-5 ์๋ฌ๋น์จ์ 1.4%์ 1.2% ๋ก ์ค์๋ค.
- 1,2 layer์ ์ฌ์ฉํ๋ฉฐ ReLU ํจ์ ์ ์ฉ ํ์ ์ฌ์ฉํ๋ค.
3.4 Overlapping Pooling
pooling์ ํน์ฑ๋งต(feature map)์ ์ค์ด๊ธฐ ์ํด ์ฌ์ฉํ๋ ๊ฒ. ์ฌ๊ธฐ์๋ overlapping, max pooling ์ ์ฌ์ฉํ๋ค. โ ๊ฒฐ๊ณผ๋ก overfit์ด ์ ๋์ค์ง ์๋ ๊ฒ์ ๋ฐ๊ฒฌ
- Non-overlapping๊ณผ ๋น๊ตํ์ ๋ top-1, top-5 ์๋ฌ๋น์จ์ 0.4%์ 0.3% ๊น์ง ์ค์๋ค.
๋ํ์ ์ผ๋ก Lenet-5๋ non-overlapping, average pooling์ ์ฌ์ฉํ์๋ค.
3.5 Overall Archtecture
AlexNet์ ์ด 8๊ฐ์ layer๋ก, 5๊ฐ์ convolutional layer, 3๊ฐ์ fully-connected layer๋ก ๊ตฌ์ฑ๋์ด์๋ค. 2,3,5 ๋ฒ์งธ convolution layer์ ์ ๋จ๊ณ์ ๊ฐ์ ์ฑ๋ ์ ํน์ฑ๋งต๋ค๊ณผ ์ฐ๊ฒฐ๋์ด์๋ ๋ฐ๋ฉด, 3๋ฒ์งธ convolution layer์ ์ ๋จ๊ณ์ ๋ ์ฑ๋์ ํน์ฑ ๋งต๋ค๊ณผ ๋ชจ๋ ์ฐ๊ฒฐ๋์ด ์๋ค. ๋ชจ๋ layer๋ ReLUํจ์๋ฅผ ์ฌ์ฉํ๊ณ ๋ง์ง๋ง output์๋ง softmaxํจ์๋ฅผ ์ ์ฉํ๋ค.
์ด์ ๊ฐ ๋ ์ด์ด๋ง๋ค ์ด๋ค ์์ ์ด ์ํ๋๋์ง ์ดํด๋ณด์. ์ฐ์ AlexNet์ ์ ๋ ฅ ๋๋ ๊ฒ์ 227 x 227 x 3 ์ด๋ฏธ์ง๋ค. (227 x 227 ์ฌ์ด์ฆ์ RGB ์ปฌ๋ฌ ์ด๋ฏธ์ง)
1) ์ฒซ๋ฒ์งธ ๋ ์ด์ด(์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด):ย 96๊ฐ์ย 11 x 11 x 3 ์ฌ์ด์ฆย ์ปค๋๋ก ์ ๋ ฅ ์์์ ์ปจ๋ณผ๋ฃจ์ ํด์ค๋ค. ์ปจ๋ณผ๋ฃจ์ ๋ณดํญ(stride)๋ฅผ 4๋ก ์ค์ ํ๊ณ , zero-padding์ ์ฌ์ฉํ์ง ์์๋ค. zero-padding์ ์ปจ๋ณผ๋ฃจ์ ์ผ๋ก ์ธํด ํน์ฑ๋งต์ ์ฌ์ด์ฆ๊ฐ ์ถ์๋๋ ๊ฒ์ ๋ฐฉ์งํ๊ธฐ ์ํด, ๋๋ ์ถ์๋๋ ์ ๋๋ฅผ ์ค์ด๊ธฐ ์ํด ์์์ ๊ฐ์ฅ์๋ฆฌ ๋ถ๋ถ์ 0์ ์ถ๊ฐํ๋ ๊ฒ์ด๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก 55 x 55 x 96ย ํน์ฑ๋งต(96์ฅ์ 55 x 55 ์ฌ์ด์ฆ ํน์ฑ๋งต๋ค)์ด ์ฐ์ถ๋๋ค. ๊ทธ ๋ค์์ ReLU ํจ์๋ก ํ์ฑํํด์ค๋ค.ย ์ด์ด์ 3 x 3 overlapping max pooling์ด stride 2๋ก ์ํ๋๋ค. ๊ทธ ๊ฒฐ๊ณผ 27 x 27ย x 96 ํน์ฑ๋งต์ ๊ฐ๊ฒ ๋๋ค. ๊ทธ ๋ค์์๋ ์๋ ด ์๋๋ฅผ ๋์ด๊ธฐ ์ํด local response normalization์ด ์ํ๋๋ค. local response normalization์ ํน์ฑ๋งต์ ์ฐจ์์ ๋ณํ์ํค์ง ์์ผ๋ฏ๋ก, ํน์ฑ๋งต์ ํฌ๊ธฐ๋ 27 x 27 x 96์ผ๋ก ์ ์ง๋๋ค.
2) ๋๋ฒ์งธ ๋ ์ด์ด(์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด):ย 256๊ฐ์ 5 x 5 x 48ย ์ปค๋์ ์ฌ์ฉํ์ฌ ์ ๋จ๊ณ์ ํน์ฑ๋งต์ ์ปจ๋ณผ๋ฃจ์ ํด์ค๋ค. stride๋ 1๋ก, zero-padding์ 2๋ก ์ค์ ํ๋ค. ๋ฐ๋ผ์ 27 x 27 x 256 ํน์ฑ๋งต(256์ฅ์ 27 x 27 ์ฌ์ด์ฆ ํน์ฑ๋งต๋ค)์ ์ป๊ฒ ๋๋ค. ์ญ์ ReLU ํจ์๋ก ํ์ฑํํ๋ค. ๊ทธ ๋ค์์ 3 x 3 overlapping max pooling์ stride 2๋ก ์ํํ๋ค. ๊ทธ ๊ฒฐ๊ณผ 13 x 13 x 256 ํน์ฑ๋งต์ ์ป๊ฒ ๋๋ค. ๊ทธ ํ local response normalization์ด ์ํ๋๊ณ , ํน์ฑ๋งต์ ํฌ๊ธฐ๋ 13 x 13 x 256์ผ๋ก ๊ทธ๋๋ก ์ ์ง๋๋ค.
3) ์ธ๋ฒ์งธ ๋ ์ด์ด(์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด):ย 384๊ฐ์ 3 x 3 x 256 ์ปค๋์ ์ฌ์ฉํ์ฌย ์ ๋จ๊ณ์ ํน์ฑ๋งต์ย ์ปจ๋ณผ๋ฃจ์ ํด์ค๋ค. stride์ zero-padding ๋ชจ๋ 1๋ก ์ค์ ํ๋ค. ๋ฐ๋ผ์ 13 x 13 x 384 ํน์ฑ๋งต(384์ฅ์ 13 x 13 ์ฌ์ด์ฆ ํน์ฑ๋งต๋ค)์ ์ป๊ฒ ๋๋ค.ย
4) ๋ค๋ฒ์งธ ๋ ์ด์ด(์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด):ย 384๊ฐ์ 3 x 3 x 192 ์ปค๋์ ์ฌ์ฉํด์ย ์ ๋จ๊ณ์ ํน์ฑ๋งต์ย ์ปจ๋ณผ๋ฃจ์ ํด์ค๋ค. stride์ zero-padding ๋ชจ๋ 1๋ก ์ค์ ํ๋ค. ๋ฐ๋ผ์ 13 x 13 x 384 ํน์ฑ๋งต(384์ฅ์ 13 x 13 ์ฌ์ด์ฆ ํน์ฑ๋งต๋ค)์ ์ป๊ฒ ๋๋ค.ย
5) ๋ค์ฏ๋ฒ์งธ ๋ ์ด์ด(์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด):ย 256๊ฐ์ 3 x 3 x 192 ์ปค๋์ ์ฌ์ฉํด์ย ์ ๋จ๊ณ์ ํน์ฑ๋งต์ย ์ปจ๋ณผ๋ฃจ์ ํด์ค๋ค. stride์ zero-padding ๋ชจ๋ 1๋ก ์ค์ ํ๋ค. ๋ฐ๋ผ์ 13 x 13 x 256 ํน์ฑ๋งต(256์ฅ์ 13 x 13 ์ฌ์ด์ฆ ํน์ฑ๋งต๋ค)์ ์ป๊ฒ ๋๋ค.ย ReLU๋ก ํ์ฑํ ํ 3 x 3 overlapping max pooling์ stride 2๋ก ์ํํ๋ค. ๊ทธ ๊ฒฐ๊ณผ 6 x 6 x 256 ํน์ฑ๋งต์ ์ป๊ฒ ๋๋ค.
6) ์ฌ์ฏ๋ฒ์งธ ๋ ์ด์ด(Fully connected layer):ย 6 x 6 x 256 ํน์ฑ๋งต์ flattenํด์ค์ 6 x 6 x 256 = 9216์ฐจ์์ ๋ฒกํฐ๋ก ๋ง๋ค์ด์ค๋ค. ๊ทธ๊ฒ์ ์ฌ์ฏ๋ฒ์งธ ๋ ์ด์ด์ 4096๊ฐ์ ๋ด๋ฐ๊ณผ fully connected ํด์ค๋ค. ๊ทธ ๊ฒฐ๊ณผ๋ฅผย ReLU ํจ์๋ก ํ์ฑํํ๋ค.
7) ์ผ๊ณฑ๋ฒ์งธ ๋ ์ด์ด(Fully connected layer):ย 4096๊ฐ์ ๋ด๋ฐ์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ์ ๋จ๊ณ์ 4096๊ฐ ๋ด๋ฐ๊ณผ fully connected๋์ด ์๋ค.
8) ์ฌ๋๋ฒ์งธ ๋ ์ด์ด(Fully connected layer):ย 1000๊ฐ์ ๋ด๋ฐ์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ์ ๋จ๊ณ์ 4096๊ฐ ๋ด๋ฐ๊ณผ fully connected๋์ด ์๋ค. 1000๊ฐ ๋ด๋ฐ์ ์ถ๋ ฅ๊ฐ์ย softmax ํจ์๋ฅผ ์ ์ฉํด 1000๊ฐ ํด๋์ค ๊ฐ๊ฐ์ ์ํ ํ๋ฅ ์ ๋ํ๋ธ๋ค.
4. Reducing Overfitting
์ด NN์ ๊ตฌ์กฐ๋ 6000๋ง๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ๊ณ ์๋ค. 1000๊ฐ ILSVRC ํด๋์ค๋ค๋ก ์ธํด ๊ฐ ํ์ต ์์ ๊ฐ ์ด๋ฏธ์ง๋ถํฐ ๋ ์ด๋ธ๊น์ง ๋งคํํ ๋ 10bit๋ก ์ ์ด๋ฅผ ํด๋ overfitting์ ๋ํ ๊ณ ๋ ค ์์ด ์์ฃผ ๋ง์ ํ๋ผ๋ฏธํฐ๋ฅผ ํ์ต์ํค๊ธฐ์๋ ๋ถ์ถฉ๋ถํ ๊ฒ์ผ๋ก ๋ฐํ์ก๋ค. ๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ ๋ค์๊ณผ ๊ฐ๋ค.
4.1 Data Augmentation
overfitting์ ๋ฐฉ์งํ๊ธฐ ์ํ ์์ฃผ ๊ธฐ๋ณธ์ ์ธ ๋ฐฉ๋ฒ์ ๋ ์ด๋ธ์ ๋ณด์กดํ๋ฉด์ ๋ณํ์ํค๋ ๋ฐฉ๋ฒ์ผ๋ก ๋ฐ์ดํฐ์ ์ ์ธ๊ณต์ ์ผ๋ก ๋๋ฆฌ๋ ๊ฒ์ด๋ค.
1) ์ด๋ฏธ์ง ๋ฒ์ญ๊ณผ ์ํ ๋ฐ์
2) RGB ํฝ์ ๊ฐ์ ์งํฉ์ PCA ์ ์ฉ
4.2 Dropout
์์ธก์ ์กฐํฉํ๋ ๊ฒ์ ์ข์ ๋ฐฉ๋ฒ์ด๋ ์ค๋ ์๊ฐ์ด ๊ฑธ๋ฆฌ๊ณ ์์ฃผ ํฐ NN์ ๋์ ๋น์ฉ์ด ๋ฐ์ํ๋ค. ๋ฐ๋ผ์ dropout์ผ๋ก ๋ด๋ฐ๋ค๊ฐ์ ๋ณต์กํ ์ํธ ์์กด๋๋ฅผ ๋ฎ์ถ์ด์ overfitting์ ๋ง์ ์ ์๋ค.
- โdropoutโ์ด๋ผ๋ ๊ฒ์ forward pass์ ๊ด์ฌํ์ง ์๊ณ back propagation์๋ ์ฐธ์ฌํ์ง ์๋๊ฒ์ด๋ค. ๋จ, trainingํ ๋๋ง ์ฐธ์ฌํ์ง ์๊ณ testํ ๋๋ ์ฐธ์ฌํด์ผ ํ๋ค.
5. Details of learning
๊ทธ๋ฅ ๋ ผ๋ฌธ ์ฐธ๊ณ ํด๋ณด๊ธฐ..
6. Results
table2์์ ๋ณด๋ ๋ฐ์ ๊ฐ์ด ๊ฒฝํ์ 0.1%์ด์ ์ฐจ์ด๊ฐ ๋์ง ์์์. ๋ณธ ๋ ผ๋ฌธ์์ ์ค๋ช ๋ CNN์ top-5 error rate์ผ๋ก 18.2%๋ฅผ ๋ฌ์ฑํ๋ค. 5๊ฐ์ ์ ์ฌํ CNN์ ์์ธก์ ํ๊ท ํ๋ฉด 16.4%์ ์ค๋ฅ์จ์ด ์ ๊ณต๋๋ค. ์ ์ฒด 1,500๋ง ์ด๋ฏธ์ง, 22K ์นดํ ๊ณ ๋ฆฌ๋ฅผ ๊ฐ์ง ImageNet Fall 2011 ๋ฆด๋ฆฌ์ฆ์ ์ ๋ถ๋ฅํ๊ธฐ ์ํด ๋ง์ง๋ง ํ๋ง ๊ณ์ธต์๋ค๊ฐ 6๋ฒ์งธ ์ปจ๋ณผ๋ฃจ์ ๋ ์ด์ด๋ฅผ ์ถ๊ฐํ CNN ๋ชจ๋ธ์ ํ์ต์ํจ๋ค์ ILSVRC-2012์์ fine-tuningํ๋ฉด error rate์ด 16.6%๊ฐ ๋๋ค. ์ ์ฒด 2011๋ ๊ฐ์ ๋ฆด๋ฆฌ์ฆ ์ ์์ ์์ ์ธ๊ธํ 5๊ฐ์ CNN์ผ๋ก pre-trained ๋ 2๊ฐ์ CNN์ ์์ธก์ ํ๊ท ํ๋ฉด 15.3%์ ์ค๋ฅ์จ์ด ์ ๊ณต๋๋ค.
AlexNet์ ์ฝ๋๋ก ๊ตฌํํ๊ฒ์ ์ ๋ฆฌํ ํ์ด์ง์ด๋ค. => AlexNet
๋๊ธ๋จ๊ธฐ๊ธฐ