[๋…ผ๋ฌธ์ •๋ฆฌ๐Ÿ“ƒ] Gradient-Based Learning Applied to Document Recognition

๋…ผ๋ฌธ์›๋ณธ๐Ÿ˜™

์ฝ”๋“œ๋กœ ๊ตฌํ˜„ ํŽ˜์ด์ง€ => LeNet-5

Abstract :

์—ญ์ „ํŒŒ ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ํ›ˆ๋ จ๋œ ๋‹ค์ธต์‹ ๊ฒฝ๋ง์€ Gradient ๊ธฐ๋ฐ˜ ๊ธฐ์ˆ ์— ์žˆ์–ด ์ตœ๊ณ ์˜ ์„ฑ๊ณต์‚ฌ๋ก€์ด๋‹ค. ํŠนํžˆ ๊ณ ์ฐจ์› ํŒจํ„ด์„ ๊ฐ€์ง„ ์†๊ธ€์”จ ๊ฐ™์€ ๋ฐ์ดํ„ฐ๋ฅผ ์ ์€ ์ „์ฒ˜๋ฆฌ๋งŒ์œผ๋กœ ์ข‹์€ ์„ฑ๋Šฅ์œผ๋กœ ๋ถ„๋ฅ˜ํ•œ๋‹ค. ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ์†๊ธ€์”จ๋ฅผ ์ธ์‹ํ•จ์— ์žˆ์–ด ๊ธฐ์กด์˜ ์ธ์‹๋ฐฉ๋ฒ•๊ณผ ๋น„๊ตํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ฆฌ๋ทฐํ•œ๋‹ค. CNN์€ ํŠนํžˆ 2์ฐจ์› ํ˜•ํƒœ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃจ๋Š”๋ฐ ๋‹ค๋ฅธ ๊ธฐ๋ฒ•๋“ค๋ณด๋‹ค ์›”๋“ฑํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ค€๋‹ค.

์‹ค์ œ ๋ฌธ์„œ์ธ์‹ ์‹œ์Šคํ…œ์—์„œ๋Š” ์—ฌ๋Ÿฌ ๋ชจ๋“ˆ๋“ค๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋Š”๋ฐ ์ƒˆ๋กœ์šด ํ•™์Šต ํŒจ๋Ÿฌ๋‹ค์ž„์ธ GTN์— ๋Œ€ํ•ด์„œ ์–˜๊ธฐํ•œ๋‹ค. ์ „์ฒด์ ์ธ ์„ฑ๋Šฅ์ธก์ •์„ ์ตœ์†Œํ™”ํ•˜๊ธฐ์œ„ํ•ด Gradient ๊ธฐ๋ฐ˜ํ•™์Šต์„ ํ•œ๋‹ค. ์˜จ๋ผ์ธ ์†๊ธ€์”จ ์ธ์‹๊ณผ ์€ํ–‰ ์ˆ˜ํ‘œ๋ฅผ ์ฝ๋Š” ๊ฒƒ์— ๋Œ€ํ•œ ๋‘๊ฐ€์ง€ ์‹œ์Šคํ…œ, ํŠนํžˆ ์€ํ–‰ ์ˆ˜ํ‘œ์ธ์‹์˜ ๊ฒฝ์šฐ CNN์„ ์‚ฌ์šฉํ•˜๋ฉฐ ๋น„์ฆˆ๋‹ˆ์Šค/๊ฐœ์ธ ์ˆ˜ํ‘œ๋ฅผ ์ฝ๋Š”๋ฐ ๊ธฐ๋ก ์ •ํ™•๋„๋ฅผ ๋†’์ด๋ฉฐ ์‹ค์ œ ์ƒ์—…์ ์œผ๋กœ ์ ์šฉ์ด ๋˜์–ด ํ•˜๋ฃจ์— ๋ช‡ ๋ฐฑ๋งŒ์˜ ์ˆ˜ํ‘œ๋ฅผ ์ธ์‹ํ•˜๊ณ  ์žˆ๋‹ค.

1. introduction

์ตœ๊ทผ ๋ช‡ ๋…„ ๋™์•ˆ ๋จธ์‹ ๋Ÿฌ๋‹ ๊ธฐ๋ฒ•์ด ํŠนํžˆ neural networks์— ์ ์šฉ๋˜๋Š” ๊ฒƒ์€ ํŒจํ„ด์ธ์‹ ์‹œ์Šคํ…œ์—์„œ ์ค‘์š”ํ•œ ์—ญํ• ๋กœ ํ™œ์šฉ๋˜์—ˆ๋‹ค. ์‹ค์ œ๋กœ ํ•™์Šต๊ธฐ๋ฒ•์˜ ์œ ํšจ์„ฑ์€ ์Œ์„ฑ์ธ์‹๊ณผ ์†๊ธ€์”จ ์ธ์‹๊ณผ ๊ฐ™์€ ํŒจํ„ด์ธ์‹ ์–ดํ”Œ๋ฆฌ์ผ€์ด์…˜ ์„ฑ๊ณต์— ์ค‘์š”ํ•œ ์š”์ธ์ด๋‹ค.

์ด ๋…ผ๋ฌธ์˜ ์ฃผ ๋ฉ”์‹œ์ง€ โ€ํŒจํ„ด์ธ์‹ ์‹œ์Šคํ…œ์€ hand-designed heuristics๋ฅผ ์ค„์ด๊ณ  ์ž๋™ํ™” ํ•™์Šต์— ์ฃผ๋ ฅํ•ด์„œ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๊ฐ€์ง„๋‹คโ€

๋ณดํ†ต ํŒจํ„ด์ธ์‹ ์‹œ์Šคํ…œ์€ ์ž๋™ ํ•™์Šต ํ…Œํฌ๋‹‰๊ณผ hand-craft ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์กฐํ•ฉ์œผ๋กœ ๋งŒ๋“ค์–ด์ง„๋‹ค. ๊ฐœ๋ณ„ ํŒจํ„ด์„ ์ธ์‹ํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ๋Š” ๋‘ ๋ฉ”์ธ ๋ชจ๋“ˆ์ด ์žˆ๋‹ค.

(1) feature extractor: ์ž…๋ ฅํŒจํ„ด์„ ๋ฐ›์•„ ๋‚ฎ์€ ์ฐจ์›์˜ ํŠน์ง• ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์—ญํ• ์„ ํ•œ๋‹ค. ๋‚ฎ์€ ์ฐจ์›์œผ๋กœ์˜ ๋ณ€ํ™˜ ์ด์œ ๋Š” (1-a) ํ›„์— ์žˆ์„ ๋ถ„๋ฅ˜ ๋ชจ๋“ˆ์—์„œ ๋น„๊ต๋ฅผ ์‰ฝ๊ฒŒ ํ•˜๊ธฐ์œ„ํ•ด, (1-b) ์ด ํŠน์ง• ๋ฒกํ„ฐ๋Š” ์ž…๋ ฅํŒจํ„ด์˜ ๋ณ€ํ™”๋‚˜ ์™œ๊ณก์—๋„ ๋ณ€ํ•˜์ง€ ์•Š๋Š” ํŠน์ง•์„ ๊ฐ–๋„๋ก ์„ค๊ณ„๋œ๋‹ค. ์ด๋Ÿฐ ์ด์œ ๋กœ ์‚ฌ๋žŒ์— ์˜ํ•ด ์ธ์œ„์ ์œผ๋กœ ๋งŒ๋“ค์–ด์ง„(hand crafted) ํŠน์ง• ์ถ”์ถœ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์ตœ๋Œ€ํ•œ ์‚ฌ์ „ ์ง€์‹์„ ํ™œ์šฉํ•˜๊ณ  ๊ทธ ๋ชฉ์ ์— ๋งž๊ฒŒ ๋งŒ ๋“ค์–ด์ง€๊ณค ํ•œ๋‹ค.

(2) classifier: general purpose and trainable! ์ด ๋ฐฉ๋ฒ•์˜ ์ธ์‹ ์ •ํ™•๋„๋Š” ๋””์ž์ด๋„ˆ๊ฐ€ ์ ์ ˆํ•œ feature set์„ ๋งŒ๋“œ๋Š” ๋Šฅ๋ ฅ์— ํฌ๊ฒŒ ์ขŒ์šฐ๋œ๋‹ค. ๋ฌธ์ œ์ ์œผ๋กœ๋Š” ํ•ด๊ฒฐํ•ด์•ผ ํ•  ๋ฌธ์ œ๋ฅผ ์ƒˆ๋กœ ํ•˜๋ฉด feature๋„ ๋‹ค์‹œ ์„ค๊ณ„ํ•ด์•ผ ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

๊ทธ ๋™์•ˆ ์ ์ ˆํ•œ ํŠน์ง•์ถ”์ถœ์˜ ํ•„์š”์„ฑ์€ ๋ถ„๋ฅ˜๊ธฐ์— ์‚ฌ์šฉ๋œ ํ•™์Šต๊ธฐ๋ฒ•์ด ๋‚˜๋ˆ„์–ด์ง€๊ธฐ ์‰ฌ์šด ํด๋ž˜์Šค์˜ ์ €์ฐจ์› ๊ณต๊ฐ„์—์„œ๋Š” ์ œํ•œ๋˜๊ธฐ ๋•Œ๋ฌธ์ด์—ˆ๋‹ค. ํ•˜์ง€๋งŒ ์„ธ๊ฐ€์ง€ ์š”์†Œ์˜ combination์ด ์ด ์ธ์‹์„ ๋ฐ”๊พธ๊ฒŒ ํ–ˆ๋‹ค.

(1) ์ €๋ ดํ•ด์ง„ ์ปดํ“จํ„ฐ ๊ฐ€๊ฒฉ๊ณผ ์„ฑ๋Šฅ ๋˜ํ•œ ์˜ฌ๋ผ์„œ brutal-force์ ์ธ ํ’€์ด๋ฒ•์ด ๊ฐ€๋Šฅ

(2) ๊ฑฐ๋Œ€ ๋ฐ์ดํ„ฐ ๋ฒ ์ด์Šค๊ฐ€ ์ƒ๊ฒจ ์† ๊ธ€์”จ ๊ฐ™์€ ์‹ค์ œ์— ๊ฐ€๊นŒ์šด ๋ฐ์ดํ„ฐ ์…‹์„ ์–ป์„ ์ˆ˜ ์žˆ์Œ

(3) ๋†’์€ ์ฐจ์›์„ ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ๋Š” ๊ฐ•๋ ฅํ•œ ๊ธฐ๊ณ„ ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ๋‚˜์™€ ๋ณต์žกํ•œ ๊ฒฐ์ •์„ ๋‚ด๋ฆด ์ˆ˜ ์žˆ์Œ

์ด๋Ÿฌํ•œ ๋ณ€ํ™”๋กœ ๊ธฐ์กด์˜ ์ธ์œ„์ ์ธ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ†ตํ•ด ํŠน์ง• ๋ฒกํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ• ๋Œ€์‹  ํ”ฝ์…€ ์ด๋ฏธ์ง€๋ฅผ ์ง์ ‘ ์ด์šฉํ•˜๋Š” ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ด์•ผ๊ธฐํ•œ๋‹ค.

A. learning from Data

Neural network์—์„œ ๊ฐ€์žฅ ์œ ๋ช…ํ•œ ์ ‘๊ทผ๋ฐฉ๋ฒ•์œผ๋กœ gradient-based learning์ด ์žˆ๋‹ค.

image => ํ•™์Šต๊ธฐ๊ณ„๋Š” ์ด ์‹์„ ๊ณ„์‚ฐํ•˜๋Š” ๊ฒƒ

image
p๋ฒˆ์งธ ์ž…๋ ฅํŒจํ„ด , W: ํŒŒ๋ผ๋ฏธํ„ฐ, ๊ฐ€์ค‘์น˜, : p๋ฒˆ์งธ ์ถœ๋ ฅ ๊ฐ’

image => loss function, ์—๋Ÿฌํ•จ์ˆ˜ E

image : ์‹ค์ œ ์ •๋‹ต ๊ฐ’

์ฆ‰ ์ด loss function์€ ์ž…๋ ฅ ๊ฐ’์ด ๊ฐ€์ ธ์•ผํ•˜๋Š” ์ถœ๋ ฅ ๊ฐ’(์ •๋‹ต) image ๊ณผ ์‹ค์ œ ํ•จ์ˆ˜๋กœ๋ถ€ํ„ฐ ๋‚˜์˜จ ๊ฐ’ image ์‚ฌ์ด์˜ ์˜ค์ฐจ๋ฅผ ๊ณ„์‚ฐํ•œ๋‹ค.

โ‡’ ์—๋Ÿฌ ํ•จ์ˆ˜๋ฅผ ์ตœ์†Œ๋กœ ํ•˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ(weight)๋ฅผ ์ฐพ๋Š” ๊ณผ์ •

B. Gradient-Based Learning

Loss function์˜ ๊ฐ’์„ ์ตœ์†Œํ™”ํ•˜๊ธฐ ์œ„ํ•ด ๊ธฐ์šธ๊ธฐ โˆ‡ฮธ ๋ฅผ ์ด์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•

image

stochastic gradient algorithm (on-line update / SGD)

Regular gradient ๋ณด๋‹ค๋Š” ๋น ๋ฅด๊ฒŒ ์ˆ˜๋ ดํ•œ๋‹ค.

image

C. Gradient Back-Propagation

(1) Boltzmann machine๊ณผ ๊ฐ™์€ ๋น„์„ ํ˜• ๋ฐฉ๋ฒ•์„ ์ด์šฉํ•˜๋ฉด local minima๋Š” ํฐ ๋ฌธ์ œ๊ฐ€ ์•„๋‹˜

(2) ์—ฌ๋Ÿฌ ์ธต์œผ๋กœ ๊ตฌ์„ฑ๋œ ํšจ๊ณผ์ ์ธ Back-propagation๋ฐฉ๋ฒ• ์ œ์•ˆ

(3) ์—ญ์ „ํŒŒ ๋ฐฉ๋ฒ•์ด ์ ์šฉ๋œ ๋‹ค์ธต ์‹ ๊ฒฝ๋ง์ด ๋ณต์žกํ•œ ๋ฌธ์ œ๋ฅผ ํ’€ ์ˆ˜ ์žˆ์Œ

์œ„์˜ ์„ธ ์‚ฌ์‹ค์ด ๋ฐํ˜€์ง„ ํ›„๋กœ ๋„๋ฆฌ ์“ฐ์ด๊ธฐ ์‹œ์ž‘ํ–ˆ๋‹ค.

D. Learning in Real Handwriting Recognition Systems

๊ธ€์ž๋กœ ๋ถ„๋ฆฌ๋œ ์† ๊ธ€์”จ๋ฅผ ์ธ์‹ํ•˜๋Š” ๋ฌธ์ œ๋Š” ์˜ค๋ž˜์ „๋ถ€ํ„ฐ ์—ฐ๊ตฌ๋˜์–ด์™”์œผ๋ฉฐ ์‹ ๊ฒฝ๋ง์œผ๋กœ ์ž˜ ํ’€์—ˆ๋˜ ๋ฌธ์ œ์ด๋‹ค. ๋…ผ๋ฌธ์—์„œ๋Š” ๋ถ„๋ฆฌ๋œ ๊ธ€์ž๊ฐ€ ์•„๋‹Œ ๋ฌธ์ž์—ด์—์„œ ๋ฌธ์ž๋ฅผ ๋ถ„๋ฆฌํ•ด ์ธ์‹ํ•˜๋Š” ๋ฌธ์ œ ๋˜ํ•œ ์–ด๋–ป๊ฒŒ ํ•ด๊ฒฐํ• ์ง€ ์ œ ์•ˆํ•œ๋‹ค.

E. Globally Trainable System

์ด์ „๊นŒ์ง€์˜ ํŒจํ„ด์ธ์‹ ์‹œ์Šคํ…œ์€ ์—ฌ๋Ÿฌ ๋ชจ๋“ˆ๋กœ ๊ตฌ์„ฑ ๋˜์–ด์žˆ์—ˆ๋‹ค. ๋ฌธ์„œ ์ธ์‹์‹œ์Šคํ…œ์„ ์˜ˆ๋กœ ๋“ค์ž๋ฉด ์ž…๋ ฅ์œผ๋กœ ๋“ค์–ด์˜จ ๊ทธ๋ฆผ ์ค‘ ๊ธ€์ž๊ฐ€ ๋“ค์–ด์žˆ์„ ๊ฒƒ ๊ฐ™์€ ๊ด€์‹ฌ์˜์—ญ์„ ์ถ”์ถœํ•˜๋Š” ๋ชจ๋“ˆ, ์ถ”์ถœํ•œ ๊ด€์‹ฌ์˜์—ญ์„ ๋‹ค์‹œ ๊ฐ ๊ธ€์ž๋กœ ๋‚˜๋ˆ„๋Š” ๋ชจ๋“ˆ, ๊ฐ ๊ธ€์ž๊ฐ€ ๋ฌด์Šจ ๊ธ€์ž์ธ์ง€ ์ธ์‹ํ•˜๋Š” ๋ชจ๋“ˆ, ์ธ์‹๋œ ๊ธ€์ž๋ฅผ ํ† ๋Œ€๋กœ ๋ฌธ๋งฅ์„ ํŒŒ์•…ํ•˜๋Š” ๋ชจ๋“ˆ, ๊ทธ ํ›„ ๋ฌธ๋ฒ•์„ ๊ฒ€์‚ฌํ•˜๋Š” ๋ชจ๋“ˆ ๋“ฑ์˜ ํ˜•์‹์œผ๋กœ ๋ง์ด๋‹ค. ๋”ฐ๋ผ์„œ ๊ฐ ๋ชจ๋“ˆ์€ ๋ณ„๋„๋กœ ์ตœ์ ํ™” ๋˜์–ด์žˆ๊ณ  ํ›ˆ๋ จ๋˜์–ด ์žˆ์œผ๋ฉฐ ์ „์ฒด ๋งฅ๋ฝ์—์„œ ๋ฒ—์–ด๋‚˜ ์žˆ์„ ์ˆ˜๋ฐ–์— ์—†๋‹ค.

๋” ๋‚˜์€ ๋ฐฉ๋ฒ•์„ ๊ฐ•๊ตฌ -> โ€œ์ „์ฒด ์‹œ์Šคํ…œ์„ ํ•œ ๋ฒˆ์— ํ›ˆ๋ จ์‹œ์ผœ ์ตœ์ ํ™” ์‹œํ‚ค๋Š” ๋ฐฉ๋ฒ•โ€

์ด ๋•Œ์—๋Š” ๋ฌธ์„œ ์ฐจ์›์—์„œ์˜ ์ž˜๋ชป๋œ ์ธ์‹์„ ์—๋Ÿฌ ํ•จ์ˆ˜๋กœ ์‚ฌ์šฉํ•ด ๋ชจ๋“  ๋ชจ๋“ˆ์— ํ•ด๋‹นํ•˜๋Š” ์ตœ์  ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค์„ ์ฐพ์•„์•ผ ํ•œ๋‹ค. ์ด ์—๋Ÿฌํ•จ์ˆ˜ E๊ฐ€ ์‹œ์Šคํ…œ ํŒŒ๋ผ๋ฏธํ„ฐ W์— ๋Œ€ํ•ด ๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•˜๋‹ค๋ฉด ์ด ๋˜ํ•œ Gradient based learning์œผ๋กœ ํ•ด๊ฒฐ์ด ๊ฐ€๋Šฅํ•˜๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

์—๋Ÿฌ ํ•จ์ˆ˜๋ฅผ ๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•˜๋„๋ก ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด ์ „์ฒด ์‹œ์Šคํ…œ์„ ๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•œ feed-forward network๋ฅผ ์ด์šฉํ•ด ๊ตฌ์„ฑํ•œ๋‹ค. ์ด๋•Œ ๊ฐ ๋ชจ๋“ˆ์—์„œ ์‚ฌ์šฉ๋˜๋Š” ํ•จ์ˆ˜๋“ค์€ ์ž…๋ ฅ์œผ๋กœ ๋“ค์–ด์˜ฌ ์ˆ˜ ์žˆ๋Š” ๊ฐ’๊ณผ ํŒŒ๋ผ๋ฏธํ„ฐ์— ๋Œ€ํ•ด ์—ฐ์†์ด์–ด์•ผ ํ•˜๊ณ  ๋ฏธ๋ถ„๊ฐ€๋Šฅํ•ด์•ผ ํ•œ๋‹ค. ๋˜ํ•œ ์—๋Ÿฌํ•จ์ˆ˜์˜ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ณ„์‚ฐํ•˜๊ธฐ ์œ„ํ•ด ์—ญ์ „ํŒŒ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ ์šฉํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ˜•ํƒœ์ด๋‹ค

image

์ฒซ๋ฒˆ์งธ ์‹์€ ์—๋Ÿฌํ•จ์ˆ˜์˜ ๊ธฐ์šธ๊ธฐ, ๋‘๋ฒˆ์งธ๋Š” ์—ญ์ „ํŒŒ์˜ backward recurrence๊ฐ’์œผ๋กœ ์‚ฌ์šฉ๋œ๋‹ค

2. Convolutional Neural Networks for Isolated character recognition

ํŒจํ„ด์ธ์‹์˜ ์ „ํ†ต๋ชจ๋ธ์ธ hand-designed ํŠน์ง•์ถ”์ถœ์€ ์ž…๋ ฅ์œผ๋กœ๋ถ€ํ„ฐ ๊ด€๋ จ์žˆ๋Š” ์ •๋ณด๋ฅผ ๋ชจ์œผ๊ณ  ๊ด€๋ จ์—†๋Š” ์š”์†Œ๋“ค์€ ์ œ๊ฑฐํ•œ๋‹ค. Trainable classifier์€ ๊ฒฐ๊ณผ ํŠน์ง•๋ฒกํ„ฐ๋ฅผ ํด๋ž˜์Šค๋“ค๋กœ ๋ฌถ๋Š”๋‹ค. ๊ธฐ์กด์˜ fully-connected ๋‹ค์ค‘ ๋ ˆ์ด์–ด ๋„คํŠธ์›Œํฌ๋Š” ๋ถ„๋ฅ˜๊ธฐ๋กœ ์‚ฌ์šฉํ–ˆ๋‹ค. ํŠน์ง• ์ถ”์ถœ ์ž์ฒด๋กœ ํ•™์Šตํ•˜๋Š” ๊ฒƒ ํŠนํžˆ ๋ฌธ์ž ์ธ์‹์—์„œ ๋„คํŠธ์›Œํฌ๋Š” ๊ฑฐ์˜ ๋‚ ๊ฒƒ์˜ ์ž…๋ ฅ์„ ์ œ๊ณตํ•œ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒƒ๋“ค์€ fully connected-feed-forward ๋„คํŠธ์›Œํฌ๋กœ ๋˜๋Š”๋ฐ ๋ช‡ ๊ฐ€์ง€ ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค.

๋ฌธ์ œ1. 2D ์ด๋ฏธ์ง€ ์ •๋ณด๊ฐ€ ์‹ค์ œ๋กœ๋Š” ๋งŽ์€ pixel๋กœ ๊ตฌ์„ฑ ๋˜์–ด ์žˆ์–ด ์ด๊ฒƒ์„ ย fully-connected๋กœ๋งŒ ํ•™์Šต์‹œํ‚ค๋ฉด ๋„ˆ๋ฌด ๋งŽ์€ ํ•™์Šต๋Ÿ‰, ํ•™์Šต์‹œ๊ฐ„, ๋งŽ์€ weight๋ฅผ ์ €์žฅํ•ด์•ผ ํ•  hardware์ ์ธ ์š”์†Œ ํ•„์š”

๋ฌธ์ œ2. Fully-connected layer์— ์ด๋ฏธ์ง€๋ฅผ ๋„ฃ์œผ๋ฉด 3์ฐจ์›์˜ ๋ฐ์ดํ„ฐ๋ฅผ 1์ฐจ์›์œผ๋กœ ๋ณ€๊ฒฝํ•ด์•ผ ํ•œ๋‹ค. ์ด๋•Œ ๋ฐ์ดํ„ฐ์˜ ํ˜•์ƒ์ด ๋ฌด์‹œ๋œ๋‹ค. ์•„๋ž˜ ์ด๋ฏธ์ง€์ฒ˜๋Ÿผ 1์ฐจ์›์˜ flat ๋ฐ์ดํ„ฐ๋กœ ํŽผ์ณ์ค˜์•ผ ํ–ˆ๋‹ค.

image

โญ๏ธ ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋กœ CNN์„ ์‚ฌ์šฉํ•˜์—ฌ์•ผ ํ•œ๋‹ค.

A. Convolutional Networks

CNN์˜ ๊ฐ ์ธต๋“ค์€ local receptive field, shared weight, sub-sampling ์ด ์„ธ๊ฐ€์ง€๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋‹ค.

local receptive field: CNN์˜ ํ•œ ์œ ๋‹›์€ ์™„์ „ ์—ฐ๊ฒฐ ๊ตฌ์กฐ์ฒ˜๋Ÿผ ์ด์ „ ์ธต์˜ ๋ชจ๋“  ์˜์—ญ์—์„œ ์ž…๋ ฅ์„ ๋ฐ›๋Š” ๊ตฌ์กฐ๊ฐ€ ์•„๋‹Œ ์ด์ „ ์ธต์—์„œ์˜ ์ง€์—ญ์ ์œผ๋กœ ์ด์›ƒํ•˜๋Š” ์ผ๋ถ€ ์œ ๋‹›๋“ค์—๊ฒŒ์„œ๋งŒ ์ž…๋ ฅ์„ ๋ฐ›๋Š”๋‹ค. ์ด ๋ฐฉ๋ฒ•์œผ๋กœ ์ด๋ฏธ์ง€์˜ ์—ฃ์ง€๋‚˜ ์„ ์˜ ๋ชจ์„œ๋ฆฌ, ์ฝ”๋„ˆ ๋“ฑ 2์ฐจ์›์ ์ธ ํŠน์ง•์„ ์ž˜ ๋ฐ˜์˜ํ•œ๋‹ค. ์ „์ฒด ์ด๋ฏธ์ง€์—์„œ ์™œ๊ณก์ด๋‚˜ ์›€์ง์ž„์ด ๋ฐœ์ƒํ•ด๋„ ๊ฒฐ๊ตญ ๊ฐ ํด๋ž˜์Šค๋ฅผ ๊ตฌ๋ถ„์ง“๋Š” ํŒจํ„ด ํŠน์ง•์ด local receptive field์—์„œ ๋งŒ๋‚˜๊ธฐ ๋•Œ๋ฌธ์— ํ•ด๋‹น ํŠน์ง•์„ ๋ฐ˜์˜ํ•œ feature map์„ ๋งŒ๋“ค์–ด๋‚ผ ์ˆ˜ ์žˆ๋‹ค.

shared weight: local receptive field์— ๋”ฐ๋ผ CNN์€ 2์ฐจ์›์ ์ธ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง€๊ฒŒ ๋˜๋Š”๋ฐ ์ด๋ ‡๊ฒŒ ์ƒ์„ฑ๋œ 2์ฐจ์› ๊ตฌ์กฐ์˜ ์œ ๋‹›๋“ค์˜ ์ง‘ํ•ฉ์„ feature map(ํŠน์ง•๋งต)์ด๋ผ๊ณ  ํ•˜์ž. Feature map์—์„œ ๋‹ค์Œ ์ธต์˜ feature map์œผ๋กœ ์ž…๋ ฅ์ด ์ด๋ฃจ์–ด์งˆ ๋•Œ ์‚ฌ์šฉ๋˜๋Š” ๊ฐ€์ค‘์น˜๋“ค์€ ์ž…๋ ฅ ์œ ๋‹›๊ณผ ๋Œ€์ƒ ์œ ๋‹›์˜ ์œ„์น˜๋งŒ ๋‹ฌ๋ผ์งˆ ๋ฟ local receptive fields๋‚ด์—์„œ์˜ ๊ฐ€์ค‘์น˜๋“ค์€ ๊ฐ™์€ ๊ฐ’์„ ์‚ฌ์šฉํ•˜๋„๋ก ํ•œ๋‹ค. ๋”ฐ๋ผ์„œ ํ•œ feature map์—์„œ ๊ฐ ์œ ๋‹›์˜ ๊ณ„์‚ฐ์€ ์œ„์น˜๋งŒ ๋‹ค๋ฅผ ๋ฟ ๊ฐ™์€ ๊ณ„์‚ฐ์‹์„ ๊ฐ–๊ฒŒ ๋˜๋Š” ๊ฒƒ์ด๊ณ  ์ด๋Š” ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ์—์„œ์˜ convolution๊ณผ ์ •ํ™•ํžˆ ๊ฐ™์€ ๊ณ„์‚ฐ์ด๋‹ค. ์ด๋Ÿฌํ•œ ๊ณ„์‚ฐ์˜ ํŠน์ง•์œผ๋กœ์„œ ์ž…๋ ฅ ๊ธ€์ž์˜ ์œ„์น˜๊ฐ€ ๋ณ€ํ•˜๋”๋ผ๋„ feature map์˜ ๊ณ„์‚ฐ ๊ฒฐ๊ณผ ๋˜ํ•œ ๊ทธ ๊ฐ’์ด ๋ณ€ํ•˜์ง€ ์•Š๊ณ  ๋‹ค๋ฅธ ์œ„์น˜์— ๊ทธ๋Œ€๋กœ ๋‚˜ํƒ€๋‚˜๊ฒŒ ๋œ๋‹ค. ์ด๋Ÿฌํ•œ ๊ธฐ๋ฒ•์œผ๋กœ ๊ณ„์‚ฐ์„ ์ˆ˜ํ–‰ํ•  local machine์—๊ฒŒ ์š”๊ตฌ๋˜์–ด์ง€๋Š” ์ด ๊ณ„์‚ฐ capacity๋ฅผ ์ค„์—ฌ์ฃผ๊ณ , ํ•™์Šตํ• ย parameter์˜ ์ˆ˜๋ฅผ ์ค„์—ฌ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒย Overfitting์„ ๋ฐฉ์ง€ํ•˜๊ฒŒ ๋˜์–ด test error์™€ training error ์‚ฌ์ด์˜ gap๋„ ์ค„์—ฌ์ค€๋‹ค.

sub-sampling: pooling์˜ ๊ฐœ๋…๊ณผ ๊ฐ™๋‹ค. Lenet-5์—์„œ๋Š” Average Pooling์„ ์‚ฌ์šฉํ•œ๋‹ค. local feature๋กœ๋ถ€ํ„ฐ ์ž…๋ ฅ๋œ ๋ฐ์ดํ„ฐ์˜ย translation, distortion์— ๊ด€๊ณ„์—†์ด ์œ„์ƒ์— ์˜ํ–ฅ์„ ๋ฐ›์ง€ ์•Š๋Š” global feature๋ฅผ ์ถ”์ถœํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉํ•œ๋‹ค. ์œ„์น˜ ๋ณ€ํ™”์— ๋”ฐ๋ผ ํŠน์ง• ๊ฐ’์€ ๋ณ€ํ•˜์ง€ ์•Š๋„๋ก ๊ณ ๋ คํ•˜์˜€์œผ๋‚˜ ๊ทธ ์œ„์น˜ ์ •๋ณด ๋˜ํ•œ ์—ฌ์ „ํžˆ ๋ฏผ๊ฐํ•˜๊ฒŒ ์ž‘์šฉํ•˜๋Š” ๋ถ€๋ถ„์ด๋‹ค. ๊ธ€์ž์—์„œ ์ฝ”๋„ˆ๋‚˜ ์„  ๋ ๋ถ€๋ถ„์€ ์–ด๋–ค ๊ธ€์ž์ธ์ง€ ํŒ๋‹จํ•˜๋Š”๋ฐ ์•„์ฃผ ์ค‘์š”ํ•œ ํŠน์ง•์ด๋‹ค. ๋˜, ์ด๋ฏธ์ง€์˜ ๋…ธ์ด์ฆˆ๋‚˜ ์™œ๊ณก๋„ ๊ณ ๋ ค๋˜์–ด์•ผ ํ•œ๋‹ค. ๋”ฐ๋ผ์„œ feature map์˜ ํ•ด์ƒ๋„๋ฅผ ์ค„์ด๋Š” ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•œ๋‹ค.

CNN์—์„œ ์‚ฌ์šฉ๋˜๋Š” ์ธต์€ ๊ทธ feature map์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐฉ๋ฒ•์— ๋”ฐ๋ผ Convolutional layer, Subsampling layer๋กœ ํฌ๊ฒŒ 2๊ฐ€์ง€๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๋‹ค.

Convolutional layer๋Š” local receptive fields์™€ shared weight์˜ ์กฐํ•ฉ์œผ๋กœ Convolution ๊ณ„์‚ฐ์„ ํ•˜๋Š” ์ธต์ด๋‹ค. ์ด ์ธต์€ ์ด์ „ ์ธต์„ ํ† ๋Œ€๋กœ feature map์„ ์ƒ์„ฑํ•˜๊ฒŒ ๋˜๋Š”๋ฐ, ํ•˜๋‚˜๊ฐ€ ์•„๋‹Œ ์—ฌ๋Ÿฌ ๊ฐœ์˜ feature map์„ ์ƒ์„ฑํ•˜์—ฌ ๊ตฌ์„ฑ๋œ๋‹ค. ๋˜ํ•œ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›๋Š” ์ด์ „ ์ธต์˜ ์œ ๋‹›์— ๋Œ€ํ•ด์„œ๋„ ํ•˜๋‚˜ ์ด์ƒ์˜ feature map์—๊ฒŒ ์—ฐ๊ฒฐ๋œ๋‹ค. ๋‹ค์‹œ ์ด์•ผ๊ธฐํ•˜์ž๋ฉด, ํ•œ ์ธต์€ ์—ฌ๋Ÿฌ ๊ฐœ์˜ feature map์œผ๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ ๊ฐ feature map์€ ์ด์ „ ์ธต์˜ 1๊ฐœ ์ด์ƒ์˜ feature map์œผ๋กœ๋ถ€ํ„ฐ ์˜ํ–ฅ์„ ๋ฐ›๊ณ  ์ž์‹  ๋˜ํ•œ ๋‹ค์Œ ์ธต์˜ ์—ฌ๋Ÿฌ feature map์— ์˜ํ–ฅ์„ ์ค€๋‹ค. Shared weight์— ์˜ํ•˜์—ฌ, ๊ฐ feature map ๋‚ด์—์„œ๋Š” ๊ฐ™์€ ๊ฐ€์ค‘์น˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ Convolution์„ ํ•œ ๋‹ค์Œ bias ๊ฐ’์„ ๋”ํ•˜์—ฌ ํ™œ์„ฑํ•จ์ˆ˜๋ฅผ ํ†ต๊ณผ์‹œ์ผœ ์ถœ๋ ฅํ•œ๋‹ค.

Subsampling layer๋Š” Convolutional layer์™€ ๋‹ฌ๋ฆฌ ์ด์ „ ์ธต์˜ ํ•œ feature map์—๊ฒŒ์„œ๋งŒ ์˜ํ–ฅ์„ ๋ฐ›๋Š”๋‹ค. ๋”ฐ๋ผ์„œ ์ด์ „ ์ธต๊ณผ ๊ฐ™์€ ์ˆ˜์˜ feature map์„ ๊ฐ–๊ฒŒ ๋œ๋‹ค. ์ด์ „ ์ธต์˜ ์ผ์ • ์˜์—ญ์„ ํ‰๊ท ํ•œ ๊ฐ€์ค‘์น˜๋ฅผ ๊ณฑํ•˜๊ณ  bias ๊ฐ’์„ ๋”ํ•œ๋‹ค. ์ด ๋•Œ, Convolutional layer์™€๋Š” ๋‹ค๋ฅด๊ฒŒ ๊ณ„์‚ฐ์— ์‚ฌ์šฉํ•˜๋Š” ์˜์—ญ์€ ์„œ๋กœ ๊ฒน์น˜์ง€ ์•Š๋„๋ก ๋ฐฐ์น˜ํ•˜๋ฏ€๋กœ ์˜์—ญ์˜ ํฌ๊ธฐ์— ๋ฐ˜๋น„๋ก€ํ•˜๊ฒŒ feature map์˜ ํฌ๊ธฐ๊ฐ€ ์ž‘์•„์ง€๊ฒŒ ๋œ๋‹ค.

์ด๋ ‡๊ฒŒ ๊ตฌ์„ฑ๋œ ๊ฐ ์ธต์˜ feature map์€ back propagation์„ ํ†ตํ•˜์—ฌ ์„œ๋กœ ๋‹ค๋ฅธ ๊ฐ€์ค‘์น˜๋ฅผ ๊ฐ–๋„๋ก ํ•™์Šต๋˜๋ฏ€๋กœ, ์ด๋“ค์€ ๊ฐ์ž๊ฐ€ ์„œ๋กœ ๋‹ค๋ฅธ ํŠน์ง•์„ ์ถ”์ถœํ•˜๊ฒŒ๋” ํ•˜๋Š” ํŠน์ง• ์ถ”์ถœ๊ธฐ๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

B. LeNet-5

LeNET-5๋Š” ๊ธ€์ž ์ธ์‹์„ ์œ„ํ•œ ์‹ ๊ฒฝ๋ง์œผ๋กœ ์ด 7๊ฐœ์˜ ์ธต์œผ๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ์œผ๋ฉฐ, ๊ฐ ์ธต์€ Convolutional layer์™€ Subsampling layer์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋‹ค.

image

๋จผ์ € ์ž…๋ ฅ ๊ธ€์ž ์ด๋ฏธ์ง€๋Š” ํฌ๊ธฐ๋ฅผ 32*32๋กœ ๋ชจ๋‘ ๊ฐ™๋„๋ก ํ•˜๊ณ , ๊ธ€์ž๊ฐ€ ๊ฐ€์šด๋ฐ ์œ„์น˜ํ•˜๋„๋ก ์ •๋ ฌ๋œ ์ƒํƒœ๋กœ ๋ฏธ๋ฆฌ ์ฒ˜๋ฆฌํ•ด ๋†“๋Š”๋‹ค. ๊ฐ ํ”ฝ์…€์˜ ๊ฐ’์€, ํฐ์ƒ‰(๋ฐฐ๊ฒฝ)์€ -1.0์œผ๋กœ, ๊ฒ€์€์ƒ‰(๊ธ€์ž)์€ 1.175๋กœ ์ •๊ทœํ™” ํ•œ๋‹ค.

1) ์ด๋ ‡๊ฒŒ ๋งŒ๋“  ์ž…๋ ฅ์€ ์ฒซ๋ฒˆ์งธ C1 ์ธต๊ณผ ์—ฐ๊ฒฐ๋œ๋‹ค. C1 ์ธต์€ convolutional layer์ด๋ฉฐ, 6๊ฐœ์˜ feature map์œผ๋กœ ๊ตฌ์„ฑ๋œ๋‹ค. ์ž…๋ ฅ ์ด๋ฏธ์ง€์˜ 5 x 5 ์˜์—ญ์ด ๊ฐ feature map์˜ ํ•œ ์œ ๋‹›์œผ๋กœ ์—ฐ๊ฒฐ๋˜๋„๋ก ํ•œ๋‹ค. Convolution ๊ณ„์‚ฐ ์‹œ ๊ฒฝ๊ณ„๋ฅผ ๊ณ ๋ คํ•˜์—ฌ ๊ฐ feature map์€ (์ƒํ•˜์ขŒ์šฐ ๊ฒฝ๊ณ„์— 32 - 5 x 6 = 2๋ฅผ ๋นผ์ค€๋‹ค, ์ฆ‰ 32-4 x 32-4 ) 28 x 28 ํฌ๊ธฐ๋ฅผ ๊ฐ–๋Š”๋‹ค.

> Trainable parameter: (๊ฐ€์ค‘์น˜x์ž…๋ ฅ๋งต๊ฐœ์ˆ˜ + ๋ฐ”์ด์–ด์Šค)xํŠน์„ฑ๋งต๊ฐœ์ˆ˜ = (5 x 5 x 1 + 1 )x 6 = 156 (๊ฐ€์ค‘์น˜๊ฐ€ ๊ณง mask ์ด๋ฏ€๋กœ 5x5๊ฐ€ ๊ฐ€์ค‘์น˜๊ฐ€ ๋œ๋‹ค.)

โ‡’ ์•„๋งˆ ๊ธ€์ž๋Š” ๊ฐ€์šด๋ฐ ์ •๋ ฌ์ด๋ฏ€๋กœ ๊ฒฝ๊ณ„๋Š” ๋นผ์ค˜๋„ ์ƒ๊ด€ ์—†๋‚˜๋ณด๋‹ค.. ๋‚ด ์ƒ๊ฐ์ž„

2) ๋‘๋ฒˆ์งธ ์ธต์€ S2๋กœ subsampling layer์ด๋‹ค. C1 ์ธต์˜ ๊ฐ feature map ์ƒ 2x2 ์˜์—ญ์„ ์ž…๋ ฅ์œผ๋กœ ํ•˜์—ฌ Subsampling ๊ณผ์ •์„ ๊ฑฐ์น˜๋ฉด 14x14๋กœ ํฌ๊ธฐ๊ฐ€ ์ค„์–ด๋“  6๊ฐœ์˜ feature map์„ ์ƒ์„ฑ๋œ๋‹ค. (= ๊ธฐ์–ตํ•˜์ž subsampling์€ ๋ฐ˜๋น„๋ก€ํ•˜๊ฒŒ ์ž‘์•„์ง€๊ฒŒ ๋œ๋‹ค๋Š” ๊ฒƒ!)

> Trainable parameter: (๊ฐ€์ค‘์น˜ + ๋ฐ”์ด์–ด์Šค)xํŠน์„ฑ๋งต๊ฐœ์ˆ˜ = (1 + 1)x6 = 12

โ‡’ ๊ฐ€์ค‘์น˜๊ฐ€ 1์ธ ์ด์œ ๋Š” subsampling์€ average pooling๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•œ๋‹ค. Average pooling์€ ํ‰๊ท ์„ ๋‚ธ ํ›„ ํ•œ ๊ฐœ์˜ ํ›ˆ๋ จ๊ฐ€๋Šฅํ•œ ๊ฐ€์ค‘์น˜๋ฅผ ๊ณฑํ•ด์ฃผ๊ณ  ๋˜ ํ•œ ๊ฐœ์˜ ํ›ˆ๋ จ๊ฐ€๋Šฅํ•œ ๋ฐ”์ด์–ด์Šค๋ฅผ ๋”ํ•ด์ฃผ๊ธฐ ๋•Œ๋ฌธ. ์ด ๊ฐ’์ด ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜๋ฅผ ํ†ตํ•ด ํ™œ์„ฑํ™”๋˜๊ณ  ์ด ๊ฐ€์ค‘์น˜์™€ ๋ฐ”์ด์–ด์Šค๋Š” ์‹œ๊ทธ๋ชจ์ด๋“œ์˜ ๋น„ํ™œ์„ฑ๋„๋ฅผ ์กฐ์ ˆํ•ด์ค€๋‹ค.

3) ๋‹ค์Œ C3 ์ธต์€ ๋‹ค์‹œ convolutional layer์„ ์‚ฌ์šฉํ•˜๋‚˜ ์•ž์˜ C1๊ณผ๋Š” ๋‹ค๋ฅด๊ฒŒ S2์˜ ์—ฌ๋Ÿฌ feature map๋“ค์„ ํ•œ๊บผ๋ฒˆ์— ์ฐธ์กฐํ•˜์—ฌ C3์˜ ํ•œ ์œ ๋‹›์œผ๋กœ ์—ฐ๊ฒฐ๋œ๋‹ค. ๋‹ค์‹œ ๋งํ•˜๋ฉด ๋งˆ์น˜ 3์ฐจ์› convolution์„ ํ•˜๋Š” ๊ฒƒ๊ณผ ๊ฐ™์€ ๊ณ„์‚ฐ์ด๋‹ค. ์ฐธ์กฐํ•˜๋Š” feature map์€ ๋ฏธ๋ฆฌ ์ •ํ•ด ๋†“์€ ๊ทœ์น™์— ๋”ฐ๋ผ S2์ธต์˜ 3~5 ๊ฐœ feature map๋“ค์—์„œ 5 x 5 ์˜์—ญ์„ ์ด์šฉํ•œ๋‹ค. ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๊ฒฝ๊ณ„๋ฅผ ๊ณ ๋ คํ•˜์—ฌ C3 ์ธต์˜ ํฌ๊ธฐ๋Š” 10 x 10์œผ๋กœ ์ค„์–ด๋“ค๊ฒŒ ๋œ๋‹ค.

image

> Trainable parameter: 456 + 606 + 303 + 151 = 1516

(๊ฐ€์ค‘์น˜์ž…๋ ฅ๋งต ๊ฐœ์ˆ˜ + ๋ฐ”์ด์–ด์Šค)ํŠน์„ฑ๋งต ๊ฐœ์ˆ˜

์ฒซ๋ฒˆ์งธ => (553+1)6 = 456 (์—ฐ์†ํ•œ 3์žฅ์”ฉ 55*3 ํ•„ํ„ฐ์™€ ์ปจ๋ณผ๋ฃจ์…˜)

๋‘๋ฒˆ์งธ => (554+1)6 = 606 (์—ฐ์†ํ•œ 4 ์žฅ์”ฉ 55*4 ํ•„ํ„ฐ์™€ ์ปจ๋ณผ๋ฃจ์…˜)

์„ธ๋ฒˆ์งธ => (554+1)3 = 303 (๋ถˆ์—ฐ์†ํ•œ 4์žฅ์”ฉ 55*4 ์‚ฌ์ด์ฆˆ์˜ ํ•„ํ„ฐ์™€ ์ปจ๋ณผ๋ฃจ์…˜)

๋„ค๋ฒˆ์งธ- => (556+1)1 = 151 (6์žฅ์˜ 1414 ํŠน์„ฑ๋งต ๋ชจ๋‘๋ฅผ ๊ฐ€์ง€๊ณ  ํ•„ํ„ฐ์™€ ์ปจ๋ณผ๋ฃจ์…˜)

๋”ฐ๋ผ์„œ 16์žฅ์˜ 10*10 ํŠน์„ฑ๋งต์ด ์‚ฐ์ถœ๋œ๋‹ค.

4) ์ด์–ด์„œ S2 ์ธต๊ณผ ๊ฐ™์€ ๋ฐฉ๋ฒ•์œผ๋กœ S4์ธต์„ ์ƒ์„ฑํ•œ๋‹ค. 5*5 ํฌ๊ธฐ์˜ 16๊ฐœ feature map์„ ๊ฐ–๋Š”๋‹ค.

> Trainable parameter = (1 + 1) x 16 = 32

5) ๋‹ค์Œ C5 ์ธต์€ convolutional layer๋กœ 120๊ฐœ์˜ feature map์œผ๋กœ ๊ตฌ์„ฑ๋˜๋Š”๋ฐ, 55 ์˜์—ญ์„ ์‚ฌ์šฉํ•˜๋ฏ€๋กœ ์ด์ „ ์ธต์˜ ํฌ๊ธฐ๋ฅผ ์ƒ๊ฐํ•˜๋ฉด ๊ฐ feature map์€ 11 ํฌ๊ธฐ๋ฅผ ๊ฐ–๊ฒŒ ๋œ๋‹ค. ๊ฐ ์œ ๋‹›๋“ค์€ S4์ธต์˜ ๋ชจ๋“  feature map์—์„œ ์ž…๋ ฅ ๋ฐ›๋„๋ก ๊ตฌ์„ฑํ•˜์—ฌ fully connected graph ํ˜•ํƒœ๋ฅผ ๊ฐ–๋„๋ก ํ•œ๋‹ค.

> Trainable parameter = (5 x 5 x 16 +1) x 120 = 48120

6) F6 ์ธต์€ C5 ์ธต๊ณผ ์™„์ „ํžˆ ์—ฐ๊ฒฐ๋œ(fully connected) 84๊ฐœ์˜ ์œ ๋‹›์œผ๋กœ, ๋งˆ์ง€๋ง‰์œผ๋กœ 10๊ฐœ์˜ ์œ ๋‹›๋“ค์ด F6 ์ธต๊ณผ ์™„์ „ํžˆ ์—ฐ๊ฒฐ๋œ ์ถœ๋ ฅ ์ธต์„ ๋งŒ๋“ค์–ด ์‹ ๊ฒฝ๋ง ๊ตฌ์„ฑ์„ ๋งˆ๋ฌด๋ฆฌํ•œ๋‹ค.

> Trainable parameter = (120 + 1) x 84 = 10164

F6 ๊นŒ์ง€๋Š” ๊ธฐ์กด์˜ ์‹ ๊ฒฝ๋ง๊ณผ ๊ฐ™์ด ๊ฐ€์ค‘์น˜ ํ•ฉ์— bias๋ฅผ ๋”ํ•œ ๋’ค ์ด๋ฅผ ํ™œ์„ฑํ•จ์ˆ˜์— ํ†ต๊ณผ์‹œ์ผœ ์ถœ๋ ฅ ๊ฐ’์œผ๋กœ ์‚ฌ์šฉํ•œ๋‹ค. ์ด ๋•Œ, ์‚ฌ์šฉ๋œ ํ•จ์ˆ˜๋Š” ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

image

์ด ๋•Œ, A๋Š” 1.7159, a๋Š” ๊ฐ€์ค‘์น˜ ํ•ฉ์— bias๋ฅผ ๋”ํ•œ ์ž…๋ ฅ ๊ฐ’์ด๊ณ , S๋Š” ์›์ ์—์„œ์˜ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ์ด๋‹ค.

7) ๋งˆ์ง€๋ง‰ ์ถœ๋ ฅ ์ธต์€ Radial Basis Function (RBF)์„ ์ ์šฉํ•˜์—ฌ ํ•œ ์œ ๋‹›๋“ค๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ ์ตœ์ข…์ ์œผ๋กœ ์ด๋ฏธ์ง€๊ฐ€ ์†ํ•œ ํด๋ž˜์Šค๋ฅผ ์•Œ๋ ค์ฃผ๋ฉฐ,

image

์œ„์™€ ๊ฐ™์ด ๊ณ„์‚ฐ๋œ๋‹ค. ์ด ๋•Œ ์‚ฌ์šฉ๋˜๋Š” ๊ฐ€์ค‘์น˜ ๋ฒกํ„ฐ w๋Š” ๋…ผ๋ฌธ์— ๋‚˜์™€์žˆ๋Š” 7*12 ํฌ๊ธฐ์˜ ASCII ๋น„ํŠธ๋งต ์ด๋ฏธ์ง€๋ฅผ ์ฐธ๊ณ ํ•˜์—ฌ -1, +1 ๋กœ ๊ตฌ์„ฑํ•œ๋‹ค.

( RBF๋Š” ๋ฐฉ์‚ฌํ˜• ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ณธ์œผ๋กœ ํ•˜๋Š” ๋„คํŠธ์›Œํฌ๋กœ์„œ 1๊ฐœ์˜ ์€๋‹‰์ธต์— ํ™•๋ฅ  ๊ฐ€์šฐ์‹œ์•ˆ์ด ์ ์šฉ๋œ๋‹ค. )

LeNet-5๋ฅผ ์ œ๋Œ€๋กœ ๊ฐ€๋™ํ•˜๊ธฐ ์œ„ํ•ด ํ›ˆ๋ จํ•ด์•ผ ํ•  ํŒŒ๋ผ๋ฏธํ„ฐ๋Š”

์ด 156 + 12 + 1516 + 32 + 48120 + 10164 = 60000๊ฐœ

C. Loss Function

๊ฐ€์žฅ ๋‹จ์ˆœํ•œ ํ•จ์ˆ˜๋กœ ์•„๋ž˜์™€ ๊ฐ™์ด ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•˜๋‹ค.

image

๋Š” ํ•œ ์ž…๋ ฅ ์ƒ˜ํ”Œ p๊ฐ€ ์†ํ•˜๋Š” ํด๋ž˜์Šค์ธ ์˜ RBF ์œ ๋‹›์ด๋‹ค. ์•ž์˜ RBF์œ ๋‹›์˜ ์‹์„ ์‚ดํŽด๋ณด๋ฉด ๊ฐ€์žฅ ์ด์ƒ์ ์ธ ๊ฒฝ์šฐ ์ด ๊ฐ’์€ 0์ด ๋˜๋ฏ€๋กœ E(W)๊ฐ€ ์ž‘์„์ˆ˜๋ก ์ž˜ ํ›ˆ๋ จ๋œ ์ƒํƒœ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ์—ฌ๊ธฐ์— ๋ณ€๋ณ„๋ ฅ์„ ๋†’์ด๊ธฐ ์œ„ํ•ด 0์ด ๋‚˜์˜ค๋ฉด ์•ˆ๋˜๋Š” ๋‹ค๋ฅธ RBF์œ ๋‹›๋“ค์— ๋Œ€ํ•œ ํŽ˜๋„ํ‹ฐ ํ•ญ์„ ๋„ฃ์œผ๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

image

J๋Š” ์ƒ์ˆ˜๋กœ LOG์˜ ๊ฐ’์ด ๋„ˆ๋ฌด ์ž‘์•„์ง€๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ํ•œ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ ํŽ˜๋„ํ‹ฐ๋Š” image์™€ ย  imageย ์‚ฌ์ด์˜ ๋น„์œจ๋กœ ๊ฒฐ์ •๋œ๋‹ค.

Loss function์„ ์‚ฌ์šฉํ•ด ๋ชจ๋“  ์ธต์˜ ๊ฐ€์ค‘์น˜๋“ค์„ back-propagation์œผ๋กœ ํ›ˆ๋ จ์‹œํ‚จ๋‹ค. ๊ฐ feature map ๋งˆ๋‹ค ๊ฐ€์ค‘์น˜๋ฅผ ๊ณต์œ ํ•ด ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์•ฝ๊ฐ„์˜ ํŠธ๋ฆญ์„ ์ด์šฉํ•ด ๊ณ„์‚ฐ์„ ํšจ์œจ์ ์œผ๋กœ ํ•  ์ˆ˜ ์žˆ๋‹ค.

3. Results and Comparison with other methods

ํ˜„์กดํ•˜๋Š” ๋งŽ์€ ๋ฐฉ๋ฒ•๋“ค์ด hand-crafted ํŠน์ง• ์ถ”์ถœ๊ณผ ํ•™์Šต๊ฐ€๋Šฅํ•œ ๋ถ„๋ฅ˜๊ธฐ๋ฅผ ์กฐํ•ฉํ•˜์ง€๋งŒ ์ด ๋…ผ๋ฌธ์€ ํฌ๊ธฐ๊ฐ€ ์ •๊ทœํ™”๋œ ์ด๋ฏธ์ง€๋“ค์„ ์ง์ ‘ ๋‹ค๋ฃจ๋Š” ์ ์šฉ๊ฐ€๋Šฅํ•œ ๋ฐฉ๋ฒ•์— ์ดˆ์ฒจ์„ ๋งž์ถ˜๋‹ค.

  1. Database: the Modified NIST set

MNIST ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค๋Š” 60,000๊ฐœ์˜ ํŠธ๋ ˆ์ด๋‹ ์ด๋ฏธ์ง€์™€ 10,000๊ฐœ์˜ ํ…Œ์ŠคํŠธ ์ด๋ฏธ์ง€๋ฅผ ํฌํ•จํ•œ๋‹ค.ย ํŠธ๋ ˆ์ด๋‹ ์„ธํŠธ์˜ ์ ˆ๋ฐ˜๊ณผ ํ…Œ์ŠคํŠธ ์„ธํŠธ์˜ ์ ˆ๋ฐ˜์€ NIST์˜ ํŠธ๋ ˆ์ด๋‹ ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ทจํ•ฉํ•˜์˜€์œผ๋ฉฐ, ๊ทธ ๋ฐ–์˜ ํŠธ๋ ˆ์ด๋‹ ์„ธํŠธ์˜ ์ ˆ๋ฐ˜๊ณผ ํ…Œ์ŠคํŠธ ์„ธํŠธ์˜ ์ ˆ๋ฐ˜์€ NIST์˜ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ๋ถ€ํ„ฐ ์ทจํ•ฉ๋˜์—ˆ๋‹ค (์œ„ํ‚คํ”ผ๋””์•„)

  1. Results

์—ฌ๋Ÿฌ ๋ฒ„์ „์˜ LeNet-5๊ฐ€ regular MNIST ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค๋กœ ํ›ˆ๋ จ๋˜์—ˆ๋‹ค.

image image

ํ›ˆ๋ จ ์…‹์ด ํด์ˆ˜๋ก LeNet-5์˜ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค.

LeNet-5 ๊ตฌ์กฐ

LENET_1 LENET_2 LENET_3 LENET_4

์ด ์‹ ๊ฒฝ๋ง์„ ์ฝ”๋“œ๋กœ ๊ตฌํ˜„ํ•œ๊ฒƒ์„ ์ •๋ฆฌํ•œ ํŽ˜์ด์ง€์ด๋‹ค. => LeNet-5

์ฐธ๊ณ 

[1] http://www.navisphere.net/1831/gradient-based-learning-applied-to-document-recognition/

[2] https://bskyvision.com/418

[3] https://ctkim.tistory.com/119

ํƒœ๊ทธ: ,

์นดํ…Œ๊ณ ๋ฆฌ:

์—…๋ฐ์ดํŠธ:

๋Œ“๊ธ€๋‚จ๊ธฐ๊ธฐ