[๋…ผ๋ฌธ์ •๋ฆฌ๐Ÿ“ƒ] Generative Adversarial Nets

Generative Adversarial Nets

- GAN -

๋…ผ๋ฌธ์›๋ณธ๐Ÿ˜™

์ด๋ฒˆ ๋…ผ๋ฌธ์€ GAN ์˜ ์‹œ์ดˆ๊ฐ€ ๋˜๋Š” ์ด์•ˆ ๊ตฟํŽ ๋กœ์˜ ๋…ผ๋ฌธ์„ ๋ฆฌ๋ทฐํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค~.

Generative Adversarial Nets ๋ฅผ ์ง์—ญํ•ด ๋ณด๋ฉด ์ƒ์„ฑ์ ์ธ ๊ฒฝ์Ÿ ๋„คํŠธ์›Œํฌ ์ด๋‹ค. ๋…ผ๋ฌธ์„ ์ฝ์–ด๋ณด๋ฉด ์ดํ•ด๊ฐ€ ๊ฐ€๊ฒ ์ง€๋งŒ ์ •๋ง GAN ์„ ์ •ํ™•ํžˆ ํ‘œํ˜„ํ•˜๋Š” ๋‹จ์–ด๊ฐ™๋‹ค.


๐ŸŒŸ Abstract

์ด ๋…ผ๋ฌธ์—์„œ๋Š” ๊ฒฝ์Ÿ ํ”„๋กœ์„ธ์Šค๋ฅผ ํ†ตํ•œ ์ƒ์„ฑ๋ชจ๋ธ์„ ์˜ˆ์ธกํ•˜๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ๊ฒฝ์Ÿ ํ”„๋กœ์„ธ์Šค๋Š” ์ƒ์„ฑ๋ชจ๋ธ G(Generator)๋Š” ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๋ฅผ ํฌ์ฐฉํ•˜๊ณ , ๊ตฌ๋ถ„ ๋ชจ๋ธ D(Discriminator)๋Š” ์ƒ˜ํ”Œ์ด G(์ƒ์„ฑ๋œ ๋ชจ๋ธ) ๋ณด๋‹ค ํ•™์Šต ๋ฐ์ดํ„ฐ์—์„œ ์ƒ์„ฑ๋œ๊ฑด์ง€์˜ ํ™•๋ฅ ๊ฐ’์„ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์„ ๋งํ•ฉ๋‹ˆ๋‹ค. G์˜ ๋ชฉํ‘œ๋Š” D์˜ ์‹ค์ˆ˜ํ•  ํ™•๋ฅ ์„ ์ตœ๋Œ€ํ™” ์‹œํ‚ค๋Š” ๊ฒƒ์ด๋‹ค. (ํ•œ๋งˆ๋””๋กœ ๊ตฌ๋ถ„์ž D๊ฐ€ G๊ฐ€ ๋งŒ๋“ค์–ด๋‚ธ ๋ชจ๋ธ์ธ์ง€ ์‹ค์ œ ๋ชจ๋ธ์ธ์ง€ ์ž˜ ๋ชป ๋งž์ถ”๊ฒŒ ํ•ด์•ผํ•œ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.)

์ž„์˜์˜ ํ•จ์ˆ˜ G์™€ D์˜ ๊ณต๊ฐ„์—์„œ๋Š” ํ•œ ๊ฐœ์˜ ์†”๋ฃจ์…˜์ด ๋‚˜์˜ค๋Š”๋ฐ, G๋Š” ํ•™์Šต๋ฐ์ดํ„ฐ ๋ถ„ํฌ๋ชจ์–‘์œผ๋กœ ํšŒ๋ณต๋˜๋ฉฐ, D๋Š” ์–ด๋””๋“  1/2 ๊ฐ’์„ ๊ฐ–๋Š” ๊ฒƒ์ด๋‹ค.

แ„†แ…ฎแ„Œแ…ฆ

์œ„์˜ ๊ทธ๋ฆผ์ฒ˜๋Ÿผ ํ•™์Šตํ•  ์ˆ˜๋ก ์ ์  generator์€ ์›๋ž˜ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ ์–‘์ƒ์ฒ˜๋Ÿผ ๋ณ€ํ•˜๊ณ , discriminator ๋ชจ๋ธ์€ ๋ชจ๋“  $x$๊ตฌ๊ฐ„์— ๋Œ€ํ•ด 1/2 ๊ฐ’์„ ๊ฐ–๋Š” ์ง์„ ์˜ ํ˜•ํƒœ๋กœ ์กด์žฌํ•œ๋‹ค. ์ด ๊ทธ๋ž˜ํ”„๊ฐ€ ๋ฌด์—‡์„ ๋œปํ•˜๋Š”์ง€ 3. Adversary nets์— ๋‚˜์™€์žˆ๋‹ค.

์ด ๋ง ์ค‘์š”ํ•˜๋‹ˆ๊นŒ ์ž˜ ์•Œ์•„๋‘์ž!โญ๏ธโญ๏ธ

G์™€ D๋Š” ๋‹ค์ธต ํผ์…‰ํŠธ๋ก ์œผ๋กœ ์ •์˜๋˜์–ด์žˆ์–ด์„œ ์—ญ์ „ํŒŒ๋กœ ์ „์ฒด ์‹œ์Šคํ…œ์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋‹ค. ๋” ์ด์ƒ ํ•™์Šต์„ ํ•˜๊ฑฐ๋‚˜ ์ƒ˜ํ”Œ์„ ์ƒ์„ฑํ•  ๋•Œ ๋งˆ๋ฅด์ฝ”ํ”„ ์ฒด์ธ์ด๋‚˜ unrolled approximate inference(๊ทผ์‚ฌ ์ถ”๋ก ) ๋„คํŠธ์›Œํฌ๋Š” ํ•„์š”์—†๋‹ค. ์‹คํ—˜์€ ์ƒ์„ฑ๋œ ์ƒ˜ํ”Œ๋“ค์˜ ์งˆ์ ์ด๊ณ  ์–‘์ ์ธ ํ‰๊ฐ€๋ฅผ ํ†ตํ•œ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ์ž ์žฌ์„ฑ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค.


๋งˆ๋ฅด์ฝ”ํ”„ ์ฒด์ธ๊ณผ approximate inference๐Ÿ“š

๋งˆ๋ฅด์ฝ”ํ”„ ์ฒด์ธ(Markov chain)์ด๋ž€?

๋งˆ๋ฅด์ฝ”ํ”„ ์ฒด์ธ์˜ ์ •์˜๋ž€ ๋งˆ๋ฅด์ฝ”ํ”„ ์„ฑ์งˆ์„ ๊ฐ€์ง„ ์ด์‚ฐ ํ™•๋ฅ ๊ณผ์ •์„ ๋œปํ•œ๋‹ค. ๋งˆ๋ฅด์ฝ”ํ”„ ์„ฑ์งˆ์€ โ€˜ํŠน์ • ์ƒํƒœ์˜ ํ™•๋ฅ ์€ ์˜ค์ง ๊ณผ๊ฑฐ์˜ ์ƒํƒœ์— ์˜์กดํ•œ๋‹คโ€™๋ผ๋Š” ๊ฒƒ์ด๋‹ค. ๋Œ€ํ‘œ์ ์ธ ๋ฌธ์ œ๋กœ๋Š” ์–ด์ œ์™€ ์˜ค๋Š˜์˜ ๋‚ ์”จ๋กœ ๋‚ด์ผ์˜ ๋‚ ์”จ์— ๋Œ€ํ•ด ํ™•๋ฅ ์ ์œผ๋กœ ํ‘œํ˜„ํ•˜๋Š” ๊ฒƒ์ด ๊ทธ ์˜ˆ์ด๋‹ค. ์ด๋Ÿฌํ•œ ์—ฐ์†์ ์ธ ํ˜„์ƒ์„ ๋‹จ์ˆœํžˆ ํ‘œํ˜„ํ•  ๋•Œ๋Š” ๋งˆ๋ฅด์ฝ”ํ”„ ์ฒด์ธ์„ ๊ฐ€์ •ํ•˜๊ณ  ์“ธ ์ˆ˜ ์žˆ๊ณ , ์ข…์ข… ๋‹จ์ˆœํ•œ ๋ชจ๋ธ์ด ๊ฐ•๋ ฅํ•œ ํšจ๊ณผ๋ฅผ ๋ฐœํœ˜ํ•  ๋•Œ๋„ ์žˆ๋‹ค.


๊ทผ์‚ฌ ์ถ”๋ก (approximate inference)์ด๋ž€?

์—ฌ๊ธฐ์„œ ๋งํ•˜๋Š” inference๋Š” ์–ด๋–ค ํ˜„์ƒ์„ ์„ค๋ช…ํ•˜๊ธฐ ์œ„ํ•œ Model์ด ์™„์„ฑ๋œ ์ดํ›„ ์ด Model์„ ๊ทผ๊ฑฐ๋กœ ๋‹ค๋ฅธ ์งˆ๋ฌธ์„ ๋˜์ง„๋‹ค๋Š” ๋œป์ด๋‹ค. Inference๋Š” ์šฐ๋ฆฌ๊ฐ€ ๋งŒ๋“  Model๋กœ๋ถ€ํ„ฐ ์ง์ ‘์ ์ธ ๋‹ต(ํ™•๋ฅ ๊ฐ’)์„ ๋„์ถœํ•˜๋Š” ๊ฒฝ์šฐ์— ์‚ฌ์šฉ๋œ๋‹ค.

** ์—ฌ๊ธฐ์„œ ๋งํ•˜๊ณ ์ž ํ•˜๋Š” ๊ฒƒ์€ ์ƒ์„ฑ๋œ ๋ชจ๋ธ์—์„œ ํ™•๋ฅ ๊ฐ’์„ ๋ฐ”๋กœ ๋„์ถœํ•˜๋Š” ํ”„๋กœ์„ธ์Šค๊ฐ€ ํ•„์š” ์—†๋‹ค๋Š” ๊ฒƒ ๊ฐ™๋‹ค. GAN ๊ตฌ์กฐ์—์„œ๋Š” ํ™•๋ฅ ๊ฐ’์„ ๋ฐ”๋กœ ๋„์ถœํ•˜๋Š”๊ฒƒ์ด ์•„๋‹ˆ๋ผ ๋‘ ๋„คํŠธ์›Œํฌ๋ฅผ ๊ฐ€์ง€๊ณ  ๊ฒฝ์Ÿ์„ ์‹œ์ผœ ํ™•๋ฅ ๊ฐ’์„ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์ด๋ผ๊ณ  ํ•ด์„ํ•ด ๋ณด์•˜๋‹ค.๐Ÿ˜ฒ



1. Introduction

๋”ฅ๋Ÿฌ๋‹์˜ ๊ฐ€๋Šฅ์„ฑ์€ ์ž์—ฐ์  ์ด๋ฏธ์ง€, ์Šคํ”ผ์น˜๋ฅผ ํฌํ•จํ•œ ์˜ค๋””์˜ค ํŒŒํ˜•, ์ž์—ฐ์–ธ์–ด ๋ง๋ญ‰์น˜์˜ ์ƒ์ง•๊ณผ ๊ฐ™์€ AI applications์ด ๋งˆ์ฃผํ•˜๋Š” ๋ฐ์ดํ„ฐ ์ข…๋ฅ˜์˜ ํ™•๋ฅ ๋ถ„ํฌ๋ฅผ ๋Œ€ํ‘œํ•˜๋Š” ํ’๋ถ€ํ•˜๊ณ  ๊ณ„์ธต์ ์ธ ๋ชจ๋ธ์„ ๋ฐœ๊ฒฌํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๋” ๋‚˜์•„๊ฐ€ ๋”ฅ๋Ÿฌ๋‹์— ์žˆ์–ด์„œ ๊ฐ€์žฅ ํฐ ์„ฑ๊ณต์— ๊ณ ์ฐจ์›์˜ ํ’๋ถ€ํ•œ sensory input์„ ํด๋ž˜์Šค ๋ผ๋ฒจ์— ๋งคํ•‘ํ•˜๋Š” discriminative model์ด ํฌํ•จ๋˜์–ด ์žˆ๋‹ค. ์ด ํฐ ์„ฑ๊ณต์€ ํŠน์ • ๋ถ€๋ถ„์— ์ž˜ ์ ์šฉ๋˜๋Š” ๊ธฐ์šธ๊ธฐ(gradient)๋ฅผ ๊ฐ€์ง€๋Š” piecewise linear units๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์—ญ์ „ํŒŒ์™€ ๋“œ๋กญ์•„์›ƒ ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ๊ธฐ๋ฐ˜๋˜์–ด ์žˆ๋‹ค.

deep generative ๋ชจ๋ธ์€ ์ตœ๋Œ€๊ฐ€๋Šฅ๋„ํ•จ์ˆ˜(maximum likelihood) ์˜ˆ์ธก๊ณผ ๊ด€๋ จ ์ „๋žต์œผ๋กœ ์ธํ•ด ์ผ์–ด๋‚˜๋Š” ๋งŽ์€ interactiveํ•œ ํ™•๋ฅ ์  ๊ณ„์‚ฐ๋“ค์„ ์ถ”๋ก ํ•˜๋Š” ๋ฐ์— ์–ด๋ ค์›€์ด ์žˆ์–ด ๊ทธ ์˜ํ–ฅ์ด ์ž‘์•˜๋‹ค. ๋˜, ์ƒ์„ฑ์  ๋ฌธ๋งฅ(generative context)์—์„œ piecewise linear unit์˜ ์ด์ต์„ ๋†’์ด๋Š” ๊ฒƒ์˜ ์–ด๋ ค์›€ ๋•Œ๋ฌธ์ด๋ผ๋Š” ์ด์œ ๋„ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ์•ž์˜ ์–ด๋ ค์›€๋“ค์„ ํšŒํ”ผํ•˜๋Š” ์ƒˆ๋กœ์šด ์ƒ์„ฑ๋ชจ๋ธ ์˜ˆ์ธก ํ”„๋กœ์‹œ์ €๋ฅผ ์ œ์•ˆํ•˜๊ณ  ์žˆ๋‹ค.

์ œ์•ˆํ•˜๋Š” adversarial net(๊ฒฝ์Ÿ ๋„คํŠธ์›Œํฌ) framework์—์„œ๋Š” ์ƒ์„ฑ ๋ชจ๋ธ์ด ์ ๋Œ€ ๊ด€๊ณ„์˜ ์ ๊ณผ ๊ฒฝ์Ÿํ•œ๋‹ค : ์‹๋ณ„์ž/๊ตฌ๋ถ„์ž(D)๋Š” ์ƒ˜ํ”Œ์ด ๋ชจ๋ธ ๋ถ„ํฌ(์ƒ์„ฑ๋œ ๊ฐ€์งœ)์—์„œ ๋‚˜์™”๋Š”์ง€ ์•„๋‹ˆ๋ฉด ๋ฐ์ดํ„ฐ ๋ถ„ํฌ(์›๋ณธ)์—์„œ ๋‚˜์™”๋Š”์ง€๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ๊ฒƒ์„ ํ•™์Šตํ•œ๋‹ค. ๋น„์œ ๋ฅผ ํ•ด๋ณด์ž๋ฉด, ์ƒ์„ฑ ๋ชจ๋ธ์€ ์ง€ํ ์œ„์กฐ์ž์— ๋น„์œ ๋˜๋ฉฐ ํƒ์ง€์—†์ด ์œ„์กฐ์ง€ํ๋ฅผ ์ƒ์„ฑํ•œ๋‹ค(์˜ค๋กœ์ง€ ์ƒ์„ฑ๋งŒ ํ•˜๋Š” ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง). ๊ฒฝ์ฐฐ์— ๋น„์œ ๋˜๋Š” ์‹๋ณ„๋ชจ๋ธ์€ ์ƒ์„ฑ์ž๊ฐ€ ์œ„์กฐ์ง€ํ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋™์•ˆ ์œ„์กฐ์ง€ํ๋ฅผ ํƒ์ง€ํ•œ๋‹ค. ์ด ๊ฒŒ์ž„์—์„œ์˜ ๊ฒฝ์Ÿ์€ ์œ„์กฐ์ง€ํ์™€ ์‹ค์ œ ์ง€ํ๊ฐ€ ๊ตฌ๋ถ„์ด ๋˜์ง€ ์•Š์„ ๋•Œ ๊นŒ์ง€ ์ง„ํ–‰๋˜์–ด ๋‘ ํŒ€์œผ๋กœ ํ•˜์—ฌ๊ธˆ ๊ฐ๊ฐ์˜ ๋ฐฉ๋ฒ•์„ ํ–ฅ์ƒ์‹œํ‚ค๊ฒŒ ํ•œ๋‹ค. (๊ฒฝ์Ÿํ•˜๋ฉด์„œ ๋‘ ๋„คํŠธ์›Œํฌ์˜ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋จ)

์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๋งŽ์€ ์ข…๋ฅ˜์˜ ๋ชจ๋ธ๊ณผ ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ๋Œ€ํ•œ ํŠน์ • ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค. ๋ณธ ๋…ผ๋ฌธ์—์„œ ์ƒ์„ฑ ๋ชจ๋ธ์ด ๋‹ค์ธตํผ์…‰ํŠธ๋ก ์„ ํ†ตํ•ด ๋žœ๋ค ๋…ธ์ด์ฆˆ๋ฅผ ํ†ต๊ณผํ•˜๋ฉฐ ์ƒ˜ํ”Œ์„ ์ƒ์„ฑํ•˜๋Š” ํŠน๋ณ„ํ•œ ๊ฒฝ์šฐ๋ฅผ ํƒํ—˜ํ•˜๋ฉฐ ์‹๋ณ„์ž ๋ชจ๋ธ ๋˜ํ•œ ๋‹ค์ธตํผ์…‰ํŠธ๋ก  ๊ตฌ์กฐ์ด๋‹ค. ์ด ํŠน๋ณ„ํ•œ ๊ฒฝ์šฐ๋ฅผ adversary nets๋ผ๊ณ  ํ•œ๋‹ค. ์ด ๊ฒฝ์šฐ์— ์žˆ์–ด์„œ ๋‘ ๋ชจ๋ธ์„ ์„ฑ๊ณต์ ์ธ ์—ญ์ „ํŒŒ์™€ ๋“œ๋กญ์•„์›ƒ ์•Œ๊ณ ๋ฆฌ์ฆ˜๋งŒ ์‚ฌ์šฉํ•ด ํ•™์Šตํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ ์ƒ์„ฑ ๋ชจ๋ธ์—์„œ ๋‚˜์˜จ ์ƒ˜ํ”Œ์€ forward propagation ๋งŒ ์‚ฌ์šฉํ•˜๊ฒŒ ๋œ๋‹ค. ๊ทผ์‚ฌ ์ถ”๋ก ์ด๋‚˜ ๋งˆ๋ฅด์ฝ”ํ”„ ์ฒด์ธ์€ ๋”์ด์ƒ ํ•„์š”ํ•˜์ง€ ์•Š๋‹ค. => ๋‹ค๋ฅธ ๋ณต์žกํ•œ ๋„คํŠธ์›Œํฌ ํ•„์š” ์—†์ด ์˜ค์ง forward propagation/ back propagation / dropout algorithm์œผ๋กœ ํ•™์Šต ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ๊ฒƒ์„ ๊ฐ•์กฐํ•˜๊ณ  ์žˆ๋‹ค. ๊ตฌ์กฐ๊ฐ€ ๋” ์‹ฌํ”Œํ•ด์กŒ๋‹ค. ๊ทธ๋Ÿผ ์‹œ๊ฐ„ ์„ฑ๋Šฅ๋„ ์˜ฌ๋ž์„ ๋“ฏ

๐Ÿ‘‰ GAN์˜ ํ•ต์‹ฌ์€ ๊ฐ๊ฐ์˜ ์—ญํ• ์„ ๊ฐ€์ง„ ๋‘ ๋ชจ๋ธ์„ ํ†ตํ•ด ์ ๋Œ€์  ํ•™์Šต์„ ํ•˜๋ฉด์„œ โ€˜์ง„์งœ ๊ฐ™์€ ๊ฐ€์งœโ€™๋ฅผ ์ƒ์„ฑํ•ด๋‚ด๋Š” ๋Šฅ๋ ฅ์„ ๋†’์ด๋Š” ๊ฒƒ์ด๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๊ฒ ๋„ค์š”


2. Relative works

โ€“ ์ƒ๋žต โ€“


3. Adversarial nets

adversarial modeling framework๋Š” ๋ชจ๋ธ๋“ค์ด ๋ชจ๋‘ ๋‹ค์ธตํผ์…‰ํŠธ๋ก  ๊ตฌ์กฐ์ด๋ฉด ์ ์šฉํ•˜๊ธฐ๊ฐ€ ์•„์ฃผ ๊ฐ„๋‹จํ•˜๋‹ค. ์ƒ์„ฑ์ž์˜ ๋ถ„ํฌ์ธ $p_g$์— ์žˆ๋Š” ๋ฐ์ดํ„ฐ $x$๋ฅผ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด, generator์˜ input์œผ๋กœ ๋“ค์–ด๊ฐˆ noise variables $p_z(z)$์— ๋Œ€ํ•œ prior๋ฅผ ์ •์˜ํ•œ๋‹ค

๊ทธ๋ฆฌ๊ณ  $G$๋Š” $\theta_g$๋ฅผ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๋‹ค์ธตํผ์…‰ํŠธ๋ก ์— ์˜ํ•ด ๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•œ ํ•จ์ˆ˜๋ผ๊ณ  ํ–ˆ์„ ๋•Œ, ๋ฐ์ดํ„ฐ ๊ณต๊ฐ„์„ $G(z;\theta_g)$๋กœ ๋งคํ•‘ํ•ด ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค.

ํ•œํŽธ, ๋‘๋ฒˆ์งธ ๋‹ค์ธต ํผ์…‰ํŠธ๋ก ์ธ Discriminator์€ $D(x;\theta_d)$๋กœ ๋‚˜ํƒ€๋‚ด๋ฉฐ output์€ single scalar(์Šค์นผ๋ผ) ๊ฐ’์ด ๋‚˜์˜จ๋‹ค(ํ™•๋ฅ ๊ฐ’). $D(x)$๋Š” $x$๊ฐ€ $p_g$(์ƒ์„ฑ๋ฐ์ดํ„ฐ๋ถ„ํฌ-๊ฐ€์งœ)๊ฐ€ ์•„๋‹Œ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ๋กœ๋ถ€ํ„ฐ ๋‚˜์˜ฌ ํ™•๋ฅ ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค.

๋”ฐ๋ผ์„œ, ์ด๋ฅผ ์ˆ˜์‹์œผ๋กœ ์ •๋ฆฌํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์€ value function $V(G,D)$์— ๋Œ€ํ•œ minimax problem์„ ํ‘ธ๋Š” ๊ฒƒ๊ณผ ๊ฐ™์•„์ง„๋‹ค. (real data๋ผ๊ณ  ํŒ๋‹จํ•˜๋ฉด 1 ๋ฐ˜ํ™˜, fake data๋กœ ํŒ๋‹จํ•˜๋ฉด 0 ๋ฐ˜ํ™˜)


$\displaystyle \min_{G} \max_{D}V(D,G)=E_{x\sim P_{data}(x)}[logD(x)]+ E_{x\sim p_{z}(z)}[log(1-D(G(z)))]]$


$E_{x\sim P_{data}(x)}[logD(x)]$ : ์›๋ณธ(real)data $x$๋ฅผ discriminator ์— ๋„ฃ์—ˆ์„ ๋•Œ ๋‚˜์˜ค๋Š” ๊ฒฐ๊ณผ๋ฅผ log๋กœ ์ทจํ–ˆ์„ ๋•Œ ์–ป๋Š” ๊ธฐ๋Œ“๊ฐ’

$E_{x\sim p_{z}(z)}[log(1-D(G(z)))]]$ : ์ƒ์„ฑ๋œ(fake)data $z$๋ฅผ generator์— ๋„ฃ์—ˆ์„ ๋•Œ ๋‚˜์˜ค๋Š” ๊ฒฐ๊ณผ๋ฅผ discriminator์— ๋„ฃ์—ˆ์„ ๋•Œ ๊ทธ ๊ฒฐ๊ณผ๋ฅผ $log(1-$๊ฒฐ๊ณผ$)$ํ–ˆ์„ ๋•Œ ์–ป๋Š” ๊ธฐ๋Œ“๊ฐ’


๐Ÿ“š D ์™€ G ์— ๋Œ€ํ•ด์„œ ๊ฐ๊ฐ ์‚ดํŽด๋ณด์ž!

๋จผ์ € D๊ฐ€ ์•„์ฃผ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๊ฐ€์ ธ ๊ฐ€์งœ๋ฅผ ์ž˜ ํŒ๋ณ„ํ•œ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๊ณ  value function์ธ $V(D,G)$์œผ๋กœ ์‚ดํŽด๋ณด์ž!

๋จผ์ € D๊ฐ€ ํŒ๋ณ„ํ•˜๋ ค๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ์›๋ณธ(real)data ์—์„œ ์˜จ ์ƒ˜ํ”Œ์ผ ๊ฒฝ์šฐ, $D(x)$๊ฐ€ 1์ด ๋˜์–ด $logD(x)$์€ 0์ด ๋˜์–ด ์‚ฌ๋ผ์ง€๊ณ  $G(z)$๊ฐ€ ์ƒ์„ฑํ•œ ๊ฐ€์งœ ์ด๋ฏธ์ง€๋ฅผ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ $D(G(z)) = 0$ ์ด ๋˜์–ด $log(1-D(G(z)))$๋Š” $log(1-0)=log1=0$์ด ๋˜์–ด ์ „์ฒด ์‹ $V(D,G) = 0$์ด ๋œ๋‹ค.

๋”ฐ๋ผ์„œ D๊ฐ€ ์œ ๋„ํ•  ์ˆ˜ ์žˆ๋Š” ์ตœ๋Œ“๊ฐ’์€ 0 ์ž„์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.


์ด๋ฒˆ์—๋Š” ๋ฐ˜๋Œ€๋กœ G๊ฐ€ D๋ฅผ ์†์ผ๋งŒํผ ์‹ค์ œ๊ฐ™์€ ๊ฐ€์งœ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•œ๋‹ค๊ณ  ์ƒ๊ฐํ•ด๋ณด์ž. ๊ทธ๋ ‡๋‹ค๋ฉด $E_{x\sim P_{data}(x)}[logD(x)]$ ๋Š” D์˜ ์‹์ด๋ฏ€๋กœ G์„ฑ๋Šฅ๊ณผ๋Š” ์ƒ๊ด€์ด ์—†์œผ๋ฏ€๋กœ ๋ณด์ง€ ์•Š์•„๋„ ๋œ๋‹ค.

๋Œ€์‹  $E_{x\sim p_{z}(z)}[log(1-D(G(z)))]]$ ์—์„œ G๊ฐ€ ์ƒ์„ฑํ•œ ์ด๋ฏธ์ง€๋Š” D๊ฐ€ ์ง„์งœ๋ผ๊ณ  ํŒ๋‹จํ•ด์•ผ ํ•˜๋ฏ€๋กœ 1์„ ๋ฐ˜ํ™˜ํ•œ๋‹ค.

๊ทธ๋Ÿฌ๋ฏ€๋กœ $D(G(z)) =1$ ๊ฐ€ ๋˜๊ณ , $log(1-1)=log0= -\infty$ ์œผ๋กœ ๋งˆ์ด๋„ˆ์Šค ๋ฌดํ•œ๋Œ€๊ฐ€ ๋‚˜์˜จ๋‹ค.

์ •๋ฆฌํ•˜์ž๋ฉด, D๋Š” V(D,G) ํ™•๋ฅ ์„ ์ตœ๋Œ€ํ™”์‹œํ‚ค๊ธฐ ์œ„ํ•ด ํ•™์Šตํ•˜๊ณ , G๋Š” V(D,G)๋ฅผ ์ตœ์†Œํ™”์‹œํ‚ค๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šต๋œ๋‹ค.


ํ•˜์ง€๋งŒ ์‹ค์ œ๋ก , ์œ„์˜ minmax ๋ฐฉ์ •์‹์ด G๊ฐ€ ํ•™์Šตํ•˜๊ธฐ ์ข‹์€ ์ถฉ๋ถ„ํžˆ ํฐ ๊ธฐ์šธ๊ธฐ๋ฅผ ์ œ๊ณตํ•ด์ฃผ์ง„ ์•Š๋Š”๋‹ค. ํ•™์Šต ์ดˆ๋ฐ˜์—” G์˜ ์„ฑ๋Šฅ์ด ์ €์กฐํ•ด G๊ฐ€ ๋งŒ๋“  ์ƒ˜ํ”Œ์ด ์‹ค์ œ์™€ ๋„ˆ๋ฌด ๋‹ฌ๋ผ D๊ฐ€ ์ƒ˜ํ”Œ์„ ๋„ˆ๋ฌด ์ž˜ ๊ตฌ๋ถ„ํ•ด๋ฒ„๋ฆฐ๋‹ค. ์ด๋Ÿฐ ๊ฒฝ์šฐ์—๋Š” $log(1-D(G(z)))$์ด ์ผ์ • ์ด์ƒ ์ฆ๊ฐ€ํ•˜์ง€ ๋ชปํ•˜๊ณ  ๋นจ๋ฆฌ ์ˆ˜๋ ดํ•ด๋ฒ„๋ฆฌ๋Š” saturate ํ˜„์ƒ์ด ๋ฐœ์ƒํ•œ๋‹ค.

์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ $log(1-D(G(z)))$ ๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ์‹์œผ๋กœ G๋ฅผ ํ•™์Šตํ•˜๊ธฐ ๋ณด๋‹ค๋Š” $log(D(G(z)))$ ๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ์‹์œผ๋กœ G๋ฅผ ํ•™์Šตํ•œ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์ดˆ๊ธฐ ํ•™์Šต์— ํ›จ์”ฌ ๋” ๊ฐ•๋ ฅํ•œ ๊ธฐ์šธ๊ธฐ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.

์ด๊ฒŒ ๋ฌด์Šจ ๋œป์ด๋ƒ๋ฉด.. logํ•จ์ˆ˜ ํŠน์„ฑ์ƒ $log(1-\alpha)$์˜ ๋ฏธ๋ถ„๊ฐ’์ด ์œ ์˜๋ฏธํ•œ ๊ฐ’์ด ๋  ์ˆ˜ ์—†๋‹ค. ๋”ฐ๋ผ์„œ $log(1-\alpha)$์˜ ๋ฐ˜๋Œ€์ธ $log(\alpha)$์˜ max ๊ฐ’์„ ์ฐพ๋Š” ์‹์„ ์œ ๋„ํ•œ ๊ฒƒ์ด๋‹ค. ์•„๋ž˜ ๊ทธ๋ฆผ์œผ๋กœ ์ฐธ๊ณ ํ•ด๋ณด์ž!


์•„๋ž˜ Fig.1์„ ๋ณด๋ฉด

ํŒŒ๋ž€์ƒ‰ ์ ์„  : discriminative ๋ถ„ํฌ

๊ฒ€์€์ƒ‰ ์ ์„  : real ๋ฐ์ดํ„ฐ ๋ถ„ํฌ (์ง„์งœ)

์ดˆ๋ก์ƒ‰ ์‹ค์„  : generative ๋ถ„ํฌ (๊ฐ€์งœ)

แ„†แ…ฎแ„Œแ…ฆ

GAN์˜ ํ•™์Šต๊ณผ์ •์„ ์ด ๊ทธ๋ฆผ์„ ํ†ตํ•ด ํ™•์ธํ•ด๋ณด๋ฉด,

(a): ํ•™์Šต์ดˆ๊ธฐ์—๋Š” real๊ณผ fake์˜ ๋ถ„ํฌ๊ฐ€ ์ „ํ˜€ ๋‹ค๋ฅด๋ฉฐ D์˜ ์„ฑ๋Šฅ๋„ ๋˜ํ•œ ์ €์กฐ

(b): D๊ฐ€ (a)๋ณด๋‹ค๋Š” ์•ˆ์ •์ ์œผ๋กœ real๊ณผ fake๋ฅผ ํŒ๋ณ„ํ•ด๋‚ด๊ณ  ์žˆ์Œ์„ ํ™•์ธ. ์ฆ‰, D์˜ ์„ฑ๋Šฅ์ด ์˜ฌ๋ผ๊ฐ

(c): D์˜ ํ•™์Šต์ด ์–ด๋Š์ •๋„ ์ด๋ฃจ์–ด์ง€๋ฉด, G๋Š” ์‹ค์ œ ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๋ฅผ ๋ชจ์‚ฌํ•˜๋ฉฐ D๊ฐ€ ๊ตฌ๋ณ„ํ•˜๊ธฐ ํž˜๋“  ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šต

(d): ์ด ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•˜๋ฉด real๊ณผ fake์˜ ๋ถ„ํฌ๊ฐ€ ๊ฑฐ์˜ ๋น„์Šทํ•ด์ ธ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์—†์„ ๋งŒํผ G๊ฐ€ ํ•™์Šต๋˜๊ณ , ๋งˆ์นจ๋‚ด D๊ฐ€ ์ด ๋‘˜์„ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์—†๊ฒŒ ๋˜์–ด 1/2์˜ ํ™•๋ฅ ๋กœ ๊ณ„์‚ฐ

์ด ๊ณผ์ •์„ ํ†ตํ•ด ์ง„์งœ์™€ ๊ฐ€์งœ ์ด๋ฏธ์ง€๋ฅผ ๊ตฌ๋ณ„ํ•  ์ˆ˜ ์—†์„ ๋งŒํ•œ ๋ฐ์ดํ„ฐ๋ฅผ G๊ฐ€ ์ƒ์„ฑํ•ด๋‚ด๊ณ  ์ด๊ฒƒ์ด GAN์˜ ์ตœ์ข… ๊ฒฐ๊ณผ๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค.


4. Theoretical Results

G๋Š” $z \sim p_z$์ผ๋•Œ ์–ป์–ด์ง€๋Š” ์ƒ˜ํ”Œ๋“ค์˜ ํ™•๋ฅ ๋ถ„ํฌ $G(z)$๋กœ์จ $p_g$ ๋ฅผ ์•”๋ฌต์ ์œผ๋กœ ์ •์˜ํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋ฏ€๋กœ ์•„๋ž˜์—์„œ ์‚ดํŽด๋ณด๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด $p_{data}$์— ๋Œ€ํ•œ ์ข‹์€ estimator(์ถ”์ •๋Ÿ‰)๋กœ ์ˆ˜๋ ด๋˜๋„๋ก ํ•˜๋Š” ๊ฒƒ์ด ๋…ผ๋ฌธ์˜ ๋ชฉํ‘œ์ด๋‹ค.

ํ•ด๋‹น value function์„ ์ตœ์ ํ™”ํ•ด์ฃผ๋Š” ๋ฐฉ์‹์€, ์•„๋ž˜์™€ ๊ฐ™์ด Discriminator์— ๋Œ€ํ•œ weight๋ฅผ ๋จผ์ € ์—…๋ฐ์ดํŠธ ํ•ด์ฃผ๊ณ , Generator์— ๋Œ€ํ•ด์„œ๋„ weight update๋ฅผ ๋ฒˆ๊ฐˆ์•„๊ฐ€๋ฉฐ ํ•ด์ค€๋‹ค. G์˜ ๊ฒฝ์šฐ $logD(x^{(i)})$์—” ๊ด€์—ฌํ•˜์ง€ ์•Š์œผ๋ฏ€๋กœ ์‹์—์„œ ์ œ์™ธ๋˜์—ˆ๋‹ค.

image

1 epoch๋งˆ๋‹ค ์•„๋ž˜์˜ ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•œ๋‹ค.

์•„๋ž˜๋ฅผ k๋ฒˆ ๋ฐ˜๋ณต (๋…ผ๋ฌธ์—์„œ k = 1๋กœ ์‹คํ—˜)

  1. m๊ฐœ์˜ ๋…ธ์ด์ฆˆ ์ƒ˜ํ”Œ์„ $p_g(z)$๋กœ๋ถ€ํ„ฐ ์ƒ˜ํ”Œ๋ง
  2. m๊ฐœ์˜ ์‹ค์ œ ๋ฐ์ดํ„ฐ์ƒ˜ํ”Œ์„ $p_{data}(x)$๋กœ๋ถ€ํ„ฐ ์ƒ˜ํ”Œ๋ง
  3. ๊ฒฝ์‚ฌ์ƒ์Šน๋ฒ•์„ ์ด์šฉํ•ด $V(G,D)$์‹ ์ „์ฒด๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋„๋ก discriminator ํŒŒ๋ผ๋ฏธํ„ฐ ์—…๋ฐ์ดํŠธ!

๊ทธ ๋‹ค์Œ์—”,

  1. m๊ฐœ์˜ ๋…ธ์ด์ฆˆ ์ƒ˜ํ”Œ์„ $p_g(z)$๋กœ๋ถ€ํ„ฐ ์ƒ˜ํ”Œ๋ง
  2. $V(G, D)$์—์„œ $log(1-D(G(z)))$๋ฅผ ์ตœ์†Œํ™”ํ•˜๋„๋ก ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์„ ์ด์šฉํ•ด generator ํŒŒ๋ผ๋ฏธํ„ฐ ์—…๋ฐ์ดํŠธ!


๋…ผ๋ฌธ์—์„œ ๋ชฉํ‘œํ•˜๋Š” ๊ฒƒ์€, Generator๋ฅผ ํ†ตํ•ด ๋‚˜์˜ค๋Š” $G(z)$ ๊ฐ’์ด $P_{data}$ ์˜ ์ข‹์€ estimator๊ฐ€ ๋˜๊ธฐ๋ฅผ ๊ธฐ๋Œ€ํ•˜๋ฉฐ, ํ•ด๋‹น ์กฐ๊ฑด์ด ์ถฉ์กฑํ•˜๋ฉด์„œ ์ˆ˜๋ ดํ•˜๋Š”์ง€ ํ™•์ธํ•ด์•ผ ํ•œ๋‹ค. ์ด์— ๋Œ€ํ•œ optimality๋ฅผ ์ด์–ด์„œ ํ™•์ธํ•ด ๋ด…์‹œ๋‹ค!


4.1 Global Optimality of $p_g = p_{data}$

๋ชจ๋“  ๊ฐ€๋Šฅํ•œ G์— ๋Œ€ํ•ด ์ตœ์ ์˜ discriminator D๋ฅผ ๊ตฌํ•ด๋ณด์ž.

image

(G๊ฐ€ ์ง„์งœ ๊ฐ™์€ ๊ฐ€์งœ๋ฅผ ์ž˜ ์ƒ์„ฑํ–ˆ๋‹ค๋ฉด $p_g(x) = p_{data}(x)$๊ฐ€ ๋  ๊ฒƒ์ด๋ฏ€๋กœ $1 \over 2$์ผ ๋•Œ G๊ฐ€ ์ข‹์€ ๋ชจ๋ธ์ด๋‹ค.

์ฆ๋ช…์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค. ๋ชจ๋“  ๊ฐ€๋Šฅํ•œ G์— ๋Œ€ํ•ด D๋ฅผ ์œ„ํ•œ ํ•™์Šต๊ธฐ์ค€์€ $V(G, D)$๋ฅผ ์ตœ๋Œ€ํ™” ์‹œํ‚ค๋Š” ๊ฒƒ์ด๋‹ค. ๋”ฐ๋ผ์„œ ์•„๋ž˜์˜ ์‹์„ $D(x)$์— ๋Œ€ํ•ด ํŽธ๋ฏธ๋ถ„ํ•˜๊ณ  ๊ฒฐ๊ณผ๊ฐ’์„ 0์ด๋ผ๊ณ  ๋‘๋ฉด optimalํ•œ D๋Š” ์œ„์˜ Proposition 1. ์™€ ๊ฐ™์ด ์œ ๋„๋œ๋‹ค.

image

์ฆ๋ช… ์œ ๋„์‹์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

KakaoTalk_Photo_2021-10-09-13-40-58


์ด๋ ‡๊ฒŒ ์–ป์€ optimal D๋ฅผ ์›๋ž˜์˜ ๋ชฉ์ ํ•จ์ˆ˜ ์‹์— ๋Œ€์ž…ํ•˜์—ฌ G์— ๋Œ€ํ•œ Virtual Training Criterion C(G)๋ฅผ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์œ ๋„ํ•  ์ˆ˜ ์žˆ๋‹ค.

image

์œ„์˜ C(G)๋Š” generator๊ฐ€ ์ตœ์†Œํ™”ํ•˜๊ณ ์ž ํ•˜๋Š” ๊ธฐ์ค€์ด ๋˜๋ฉฐ, ์ด๊ฒƒ์˜ global minimum์€ ์˜ค์ง $p_g(x) = p_{data}(x)$์ผ๋•Œ ๋‹ฌ์„ฑ๋œ๋‹ค. ๊ทธ ์ ์—์„œ์˜ C(G)๊ฐ’์€ $log{1 \over 2} + log{1 \over 2} = -log4$๊ฐ€ ๋œ๋‹ค

์œ„์˜ ์ˆ˜์‹์„ ์ฒœ์ฒœํžˆ ํ’€์–ด์„œ ์ฆ๋ช…ํ•ด๋ณธ ์‹์€ ์•„๋ž˜๋ฅผ ์ฐธ๊ณ ํ•˜๋ฉด ๋œ๋‹ค. ์—ญ์‹œ ์ง์ ‘ ํ’€์–ด๋ณด๋Š”๊ฒŒ ์ดํ•ด์— ๋น ๋ฅธ ๊ฒƒ ๊ฐ™๋‹ค.

IMG_8E3C2FDB30B1-1

=> ์ด ๊ณผ์ •์—์„œ ๋‚˜์˜จ kl-divergence ๋‚˜ js-divergence์— ๋Œ€ํ•œ ์ž์„ธํ•œ ๋‚ด์šฉ์€ KL-divergence & JS-divergence & Maximum Likelihood Estimation์™€ ๊ฐœ๋…์ •๋ฆฌ ์ด๊ณณ์—์„œ ๋‹ค๋ฃจ์—ˆ์œผ๋‹ˆ ์ฐธ๊ณ !โœŒ๏ธโœŒ๏ธ


4.2 Convergence of Algorithm 1

G์™€ D๊ฐ€ ์ถฉ๋ถ„ํ•œ capacity๋ฅผ ๊ฐ€์ง€๋ฉฐ, algorithm 1์˜ ๊ฐ ์Šคํ…์—์„œ discriminator๊ฐ€ ์ฃผ์–ด์ง„ G์— ๋Œ€ํ•ด ์ตœ์ ์ ์— ๋„๋‹ฌํ•˜๋Š”๊ฒŒ ๊ฐ€๋Šฅํ•จ๊ณผ ๋™์‹œ์— $p_g$ ๊ฐ€ ์œ„์—์„œ ์ œ์‹œํ•œ criterion์„ ํ–ฅ์ƒ์‹œํ‚ค๋„๋ก ์—…๋ฐ์ดํŠธ ๋˜๋Š” ํ•œ, $p_g$๋Š” $p_{data}$ ์— ์ˆ˜๋ ดํ•œ๋‹ค.

ํ•˜์ง€๋งŒ, adversarial nets๋Š” ํ•จ์ˆ˜ $G(z;\theta)$๋ฅผ ํ†ตํ•ด ๋ถ„ํฌ $p_g$์˜ ์ œํ•œ๋œ family๋งŒ์„ ๋‚˜ํƒ€๋‚ด๊ฒŒ ๋˜๋ฉฐ, ๋…ผ๋ฌธ์—์„œ ์ˆ˜ํ–‰ํ•˜๋Š” ์ตœ์ ํ™”๋Š” ์‚ฌ์‹ค $p_g$๋ฅผ ์ง์ ‘ ์ตœ์ ํ™” ํ•˜๋Š”๊ฒŒ ์•„๋‹Œ $\theta_g$๋ฅผ ์ตœ์ ํ™”ํ•˜๋Š” ๊ฒƒ์ด๋‹ค. ๊ทธ๋ž˜์„œ ์•ž์„œ ํ•œ ์ฆ๋ช…์ด ์ ์šฉ๋˜์ง€ ์•Š์œผ๋ฉฐ ์ตœ์ ์˜ ๋ชจ๋ธ๋กœ์˜ ์ˆ˜๋ ด์ด ๋ณด์žฅ๋˜์ง€ ์•Š๋Š”๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ์‹ค๋ฌด์—์„œ MLP๊ฐ€ ๋ณด์—ฌ์ฃผ๋Š” ํ›Œ๋ฅญํ•œ ํผํฌ๋จผ์Šค๋Š” ์œ„์™€ ๊ฐ™์€ ์ด๋ก ์  gurantee ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ํ•ฉ๋ฆฌ์ ์ธ ๋ชจ๋ธ์ด๋ผ๋Š” ์‚ฌ์‹ค์„ ๋งํ•ด์ค€๋‹ค.


5. Experiments

MNIST, TFD(Toronto Face Database), CIFAR-10์— ๋Œ€ํ•ด ํ›ˆ๋ จ.

generator์—์„œ๋Š” ReLU, sigmoid activation์„ ์„ž์–ด ์‚ฌ์šฉ.

discriminator์—์„œ๋Š” maxout activation๋งŒ์„ ์‚ฌ์šฉ.

discriminator ํ›ˆ๋ จ์‹œ ๋“œ๋ž์•„์›ƒ ์‚ฌ์šฉ.

(์ €์ž๋“ค์ด ์ œ์•ˆํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋Š” generator์˜ ์ค‘๊ฐ„ ๋ ˆ์ด์–ด๋“ค์— dropout๊ณผ noise ์ถ”๊ฐ€๋ฅผ ์ด๋ก ์ ์œผ๋กœ ํ—ˆ์šฉํ•˜์ง€๋งŒ, ์˜ค์ง generator์˜ ์ตœํ•˜๋‹จ ๋ ˆ์ด์–ด์—๋งŒ ๋…ธ์ด์ฆˆ๋ฅผ ์ถ”๊ฐ€ํ–ˆ๋‹ค๊ณ  ํ•จ)

Gaussian Parzen window๋ฅผ G์— ์˜ํ•ด ์ƒ์„ฑ๋œ ์ƒ˜ํ”Œ๋“ค์— fittingํ•˜๊ณ  ์ด๋ ‡๊ฒŒ ์ถ”์ •๋œ ๋ถ„ํฌ ํ•˜์— ์–ป์–ด์ง„ log-likelihood๋ฅผ ํ™•์ธํ•จ์œผ๋กœ์จ $p_g$ ํ•˜์—์„œ test set ๋ฐ์ดํ„ฐ์˜ ํ™•๋ฅ ์„ ์ถ”์ •ํ•˜์˜€๋‹ค. ์ด๋•Œ ์ •๊ทœ๋ถ„ํฌ์˜ ๋ถ„์‚ฐ ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ๊ต์ฐจ๊ฒ€์ฆ์„ ํ†ตํ•ด ์–ป์—ˆ๋‹ค๊ณ  ํ•œ๋‹ค. ์‚ฌ์‹ค ์ด๋Ÿฌํ•œ ๋ฐฉ์‹์œผ๋กœ likelihood๋ฅผ ์ถ”์ •ํ•˜๋Š” ๊ฒƒ์€ ๋‹ค์†Œ ๋ถ„์‚ฐ์ด ํฌ๋ฉฐ ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ ๊ณต๊ฐ„์ƒ์—์„œ ํ’ˆ์งˆ์ด ์ข‹์ง€ ๋ชปํ•˜์ง€๋งŒ ์ตœ์„ ์˜ method์—ฌ์„œ ์ด์šฉํ–ˆ๋‹ค๊ณ  ํ•œ๋‹ค.

์•„๋ž˜๋Š” ์œ„์˜ ๋ฐฉ๋ฒ•์œผ๋กœ ํ‰๊ฐ€๋ฅผ ์ง„ํ–‰ํ–ˆ์„ ๋•Œ, GAN์˜ ์šฐ์ˆ˜ํ•จ์„ ๋ณด์—ฌ์ฃผ๋Š” ํ‘œ์ด๋‹ค.

แ„†แ…ฎแ„Œแ…ฆ 2

ํ•™์Šต ํ›„ generator์— ์˜ํ•ด ์ƒ์„ฑ๋œ ์ด๋ฏธ์ง€๋“ค์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

แ„†แ…ฎแ„Œแ…ฆ

Advantages and disadvantages

disadvantages

  • $p_g(x)$์— ๋Œ€ํ•œ ๋ช…์‹œ์ ์ธ ํ‘œํ˜„์ด ์—†๋‹ค.
  • ํ›ˆ๋ จ๋™์•ˆ D์™€ G์˜ ๊ท ํ˜•์„ ์ž˜ ๋งž์ถฐ์„œ ํ•™์Šตํ•ด์•ผ ํ•œ๋‹ค.
  • ์ตœ์ ํ•ด ์ˆ˜๋ ด์— ์žˆ์–ด ์ด๋ก ์  ๋ณด์žฅ์ด ๋ถ€์กฑํ•˜๋‹ค.

advantages

  • Markov chain ๊ณผ inference ์˜ ๋ถˆํ•„์š”
  • ๋ชจ๋ธ์— ๋‹ค์–‘ํ•œ ํ•จ์ˆ˜๋“ค์ด ํ†ตํ•ฉ๋  ์ˆ˜ ์žˆ์Œ
  • generator network๊ฐ€ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์ง์ ‘์ ์œผ๋กœ ์—…๋ฐ์ดํŠธ ๋˜์ง€ ์•Š๊ณ  ์˜ค์ง discriminator ๋กœ ๋ถ€ํ„ฐ ํ˜๋Ÿฌ๋“ค์–ด์˜ค๋Š” gradient๋งŒ์„ ์ด์šฉํ•ด ํ•™์Šต๋  ์ˆ˜ ์žˆ๋‹ค.


์ฐธ๊ณ 


[1] ๋งˆ๋ฅด์ฝ”ํ”„์ฒด์ธ

[2] approximate inference

[3] https://tobigs.gitbook.io/tobigs/deep-learning/computer-vision/gan-generative-adversarial-network

[4] https://velog.io/@changdaeoh/Generative-Adversarial-Nets-GAN

[5] https://techy8855.tistory.com/m/13

[6] ์ตœ์ ํ•ด ์œ ๋„์‹

๋Œ“๊ธ€๋‚จ๊ธฐ๊ธฐ