[๋…ผ๋ฌธ์ •๋ฆฌ๐Ÿ“ƒ] Pseudo-Labeling and Confirmation Bias in DeepSemi-Supervised Learning

Pseudo-Labeling and Confirmation Bias in Deep Semi-Supervised Learning

- Pseudo label -

๋…ผ๋ฌธ์›๋ณธ๐Ÿ˜™

์ด ๋…ผ๋ฌธ์€ semi supervised learning(SSL)์˜ ์ธก๋ฉด์—์„œ pseudo label์„ ํ•˜๋Š” ์ด์œ ์™€ pseudo label๋ฅผ ์–ด๋–ป๊ฒŒ ๊ตฌ์„ฑํ•˜์—ฌ ์„ฑ๋Šฅ์„ ์˜ฌ๋ฆด ์ˆ˜ ์žˆ์—ˆ๋Š”์ง€์— ๋Œ€ํ•ด ์„ค๋ช…ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์ €๋Š” ์ด ๋…ผ๋ฌธ์— ๋Œ€ํ•ด์„œ๋Š” ์ž์„ธํžˆ๋ณด๋‹ค๋Š” pseudo label์ด ์–ด๋–ป๊ฒŒ ์ด๋ฃจ์–ด ์ง€๋Š”์ง€๋ฅผ loss function๊ณผ ๊ตฌ์กฐ์  ์ธก๋ฉด์—์„œ ํ™•์ธํ•ด ๋ณด๋ฉฐ ์–ด๋–ค์‹์œผ๋กœ ์„ฑ๋Šฅํ–ฅ์ƒ์— ๋„์›€์ด ๋˜๋Š”์ง€์— ๋Œ€ํ•ด์„œ๋งŒ ์ •๋ฆฌํ•˜๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค!โญ๏ธ


๋จผ์ €, ๊ฐ„๋žตํ•˜๊ฒŒ pseudo label ์„ ํ•˜๋Š” ์ด์œ ์— ๋Œ€ํ•ด ์ ์–ด๋ณด์ž๋ฉด,

image classification ๋ถ„์•ผ์— ์žˆ์–ด์„œ ๋งŽ์€ ๋ฐ์ดํ„ฐ์…‹์ด ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚ด๋Š” ๊ฒƒ์„ ๋ณด๊ณ , ๊ฐœ๋ฐœ์ž๋“ค์€ ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํ•™์Šต์‹œํ‚ค๊ณ ์ž ํ•˜์˜€์Šต๋‹ˆ๋‹ค.

๊ทธ๋ž˜์„œ ๋‚˜์˜จ ๋ฐฉ๋ฒ•์ด, label์ด ๋˜์ง€ ์•Š์€ ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ์…‹์„ ๋Œ์–ด์™€์„œ ์ž„์˜๋กœ labeling์„ ํ•ด์ค€ ํ›„ ํ•™์Šต์— ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ด ๋ฐฉ์‹์€ ์ง€๋„ํ•™์Šต๊ณผ ๋น„์ง€๋„ ํ•™์Šต์„ ์„ž์€ ํ˜•์‹์ด๋ฏ€๋กœ semi-supervised learning(SSL)์ด๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

์—ฌ๊ธฐ์„œ ์ž„์˜๋กœ labeling ํ•˜๋Š” ๊ฒƒ์€, ๋จผ์ € ๋ชจ๋ธ์„ imagenet ๋“ฑ์˜ ๋ ˆ์ด๋ธ”์ด ์žˆ๋Š” ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํ•œ๋ฒˆ ํ•™์Šต์„ ์‹œ์ผœ์ค€ ํ›„, ๊ทธ ๋ชจ๋ธ๋กœ label์ด ์—†๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์ž„์˜๋กœ labeling์„ ์ง„ํ–‰ํ•ฉ๋‹ˆ๋‹ค. ์ด๋•Œ ์ƒ๊ธด ์ž„์˜์˜ label์„ pseudo label ์ด๋ผ๊ณ  ๋ช…๋ช…ํ•ฉ๋‹ˆ๋‹ค.

pseudo label๋กœ ์ด๋ฃจ์–ด์ง„ ๋ฐ์ดํ„ฐ๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ํ•™์Šตํ•œ ๊ฒฐ๊ณผ๋„ ์ข‹์€ SOTA์„ฑ๋Šฅ์„ ๋ณด์ธ๋‹ค๋Š”๋ฐ!! ์—ฌ๊ธฐ์„œ ๋“  ์˜๋ฌธ์€ ๊ทธ๋Ÿผ pseudo label์—์„œ ์ž˜๋ชป๋œ label์ด ์ƒ์„ฑ๋˜์–ด ํ•™์Šต๋  ๊ฒฝ์šฐ ๋” ์•ˆ ์ข‹์€ ๊ฒฐ๊ณผ๋ฅผ ๋‚ผ ํ…๋ฐ.. ์–ด๋–ค๋ฐฉ์‹์œผ๋กœ labeling ํ•™์Šต์„ ํ–ˆ๋Š”์ง€๊ฐ€ ๊ถ๊ธˆ๐Ÿ˜ฒ๐Ÿ˜ฒํ•˜์—ฌ ์ด ๋…ผ๋ฌธ์„ ์ฝ๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

์ด์ œ ์–ด๋–ป๊ฒŒ labeling ์„ ์ž˜ ํ•˜๋„๋ก ํ•™์Šต์‹œ์ผฐ๋Š”์ง€ ์•Œ์•„๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.


Pseudo label ์ข…๋ฅ˜

๐ŸŒŸ hard-pseudo-label

๋„คํŠธ์›Œํฌ์˜ ์˜ˆ์ธก๊ฐ’์„ ๋ผ๋ฒจ๋กœ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ one-hot vector์„ ์ƒ๊ฐํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์–ด๋–ค ์ด๋ฏธ์ง€์— ๋Œ€ํ•œ ๋ ˆ์ด๋ธ” ๊ฐ’์ด ๊ณ ์–‘์ด! ์ด๋ ‡๊ฒŒ ๋‚˜์˜ค๋ฉด ๊ทธ ์ด๋ฏธ์ง€๋Š” ๊ทธ๋Œ€๋กœ ๊ณ ์–‘์ด๋กœ ๋ ˆ์ด๋ธ” ๋ฉ๋‹ˆ๋‹ค.

๐ŸŒŸ soft-pseudo-label

๋ฐ˜๋ฉด soft-label ๋ฐฉ์‹์€ softmax prediction๊ฐ’์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, continuous distribution ํ•œ label ์„ ๋œปํ•˜๋ฉฐ ๊ฐ ํด๋ž˜์Šค๋กœ ์˜ˆ์ธก๋  ํ™•๋ฅ  ๊ฐ’์ด ๋“ค์–ด๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์–ด๋–ค ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด์„œ ๊ณ ์–‘์ด์ผ ํ™•๋ฅ  70% ํ˜ธ๋ž‘์ด์ผ ํ™•๋ฅ  20% ๊ฐ•์•„์ง€์ผ ํ™•๋ฅ  10% ์ด๋Ÿฐ์‹์œผ๋กœ ๋‚˜์˜ค๊ฒŒ ๋˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ด ๋…ผ๋ฌธ์—์„œ๋Š” soft ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜๋ฉฐ ์ด ์ „์— ๋ฆฌ๋ทฐํ–ˆ๋˜ noisy student ๋ชจ๋ธ์—์„œ๋„ softํ•œ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.


Pseudo label์˜ ์†์‹คํ•จ์ˆ˜(loss function)

CNN ํŒŒ๋ผ๋ฏธํ„ฐ $\theta$๋Š” categorical cross-entropy ๊ณต์‹์œผ๋กœ optimize ๋ฉ๋‹ˆ๋‹ค. ๊ทธ ์ˆ˜์‹์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

$l^*(\theta) = -\sum_{i=1}^N \tilde{y}^T_ilog(h_\theta(x_i))$

$h_\theta(x)$๋Š” softmax ํ•จ์ˆ˜๋ฅผ ๊ฑฐ์ณ ๋‚˜์˜จ ํ™•๋ฅ  ๊ฐ’์„ ์˜๋ฏธํ•˜๋ฉฐ ์—ฌ๊ธฐ์— $log$๋ฅผ ์ทจํ•˜๋Š” ๊ฒƒ์€ element-wise ํ•˜๊ธฐ ์œ„ํ•จ์ž…๋‹ˆ๋‹ค.

๋‹ค์‹œ ์ž์„ธํžˆ ๋œฏ์–ด ๋ณด์ž๋ฉด

  • unlabel๋œ sample : $N_u$

  • unlabel set : $D_u = \lbrace x_i \rbrace^{N_u}_{i=1}$

  • labeled set : $D_l = \lbrace ( x_i,y_i ) \rbrace^{N_l}_{i=1}$

๊ทธ๋ฆฌ๊ณ , one-hot encoding์„ ์œ„ํ•ด $y_i$๋Š” $C$ ํด๋ž˜์Šค๋“ค์„ ๋ชจ๋“  ๋ฐ์ดํ„ฐ ($N = N_l + N_u$)์— ์›ํ•ซ ์ธ์ฝ”๋”ฉ ํ•ด์ฃผ๋ฉฐ, ๊ทธ ์ˆ˜์‹์€ $y_i={\lbrace 0,1 \rbrace}^C$, ์ด๋ ‡๊ฒŒ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋˜, pseudo label ๋œ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ํ‘œํ˜„ํ•˜๋ฉฐ,

$\tilde{D} = \lbrace ( x_i, \tilde{y_i} ) \rbrace^N_{i=1}$

์ด๊ฒƒ์„ ๊ฐ€์ง€๊ณ  ๋ ˆ์ด๋ธ”๋œ ์ƒ˜ํ”Œ๋“ค์ธ $N_l$์— ์žˆ์–ด์„œ $\tilde{y}=y$ ๊ฐ€ ๋  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์—ฌ๊ธฐ์„œ ํ•ต์‹ฌ์€ ์–ด๋–ป๊ฒŒ ๋ ˆ์ด๋ธ” ๋˜์ง€ ์•Š์€ ์ƒ˜ํ”Œ๋“ค ($N_u$) ๋กœ๋ถ€ํ„ฐ pseudo-labels ($\tilde{y}$)๋ฅผ ๋งŒ๋“ค์–ด ๋‚ด๋Š” ๊ฒƒ์ธ๋ฐ์š”..!

์ด์ „ ์—ฐ๊ตฌ๋Š” one-hot encoding์„ ์‚ฌ์šฉํ•˜๋Š” hard ๋ฐฉ์‹์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ softmax๋ฅผ ์‚ฌ์šฉํ•˜๋Š” soft ๋ฐฉ์‹์ด ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚ด๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ•˜์˜€๊ณ , ์ด์ „ ๋ฐฉ์‹์— soft-pseudo labeling ํ•˜๋Š” ๋ฐฉ์‹์„ ์ ์šฉํ•˜์—ฌ ์‚ฌ์šฉํ•˜์˜€๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋‘ ๊ฐ€์ง€ ์ •๊ทœํ™”๋ฅผ ์ถ”๊ฐ€์ ์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ pseudo label์ด ๋” ์ž˜ ๋˜๋„๋ก ๋งŒ๋“ค์—ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

๋‘ ๊ฐ€์ง€ ์ •๊ทœํ™”๋ฅผ ์ ์šฉํ•˜์—ฌ ๋‚˜์˜จ ์ตœ์ข… loss ์ˆ˜์‹์€ ์ผ๋‹จ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ํ•˜๋‚˜ํ•˜๋‚˜ ๋”ฐ์ ธ๋ณด๊ธฐ ์ „์— ์ „์ฒด์ ์ธ ๊ทธ๋ฆผ์„ ๋ณด๊ณ ์ž ํ•จ์ž…๋‹ˆ๋‹ค.

$l=l^*+\lambda_AR_A+\lambda_HR_H$


๊ทธ๋Ÿผ ๋‘ ์ •๊ทœํ™”๋ฅผ ์‚ดํŽด๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

๐Ÿ“š ์ฒซ ๋ฒˆ์งธ ์ •๊ทœํ™”

pseudo label์„ ์ƒ์„ฑํ•˜๊ธฐ ์‹œ์ž‘ํ•˜๋Š” ํ•™์Šต ์ดˆ๊ธฐ์—๋Š” ๊ฑฐ์˜ ๋ถ€์ •ํ™•ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋‚ธ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ์ด์œ ๋Š” CNN์€ loss๋ฅผ ์ค„์ด๊ธฐ ์œ„ํ•ด ๊ฐ™์€ ํด๋ž˜์Šค๋กœ ์˜ˆ์ธกํ•ด๋ฒ„๋ฆฌ๋Š” ๊ฒฝํ–ฅ์ด ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ๋ชจ๋“  ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ ์ œ๊ฐ๊ฐ์ธ ํด๋ž˜์Šค๋กœ ๋ถ„๋ฅ˜ํ•˜๊ธฐ ๋ณด๋‹ค๋Š” ๊ฐ™์€ ํด๋ž˜์Šค๋กœ ์ฃผ๋Š” ๊ฒƒ์ด loss๊ฐ€ ๋” ์ ๊ฒŒ ๋‚˜์˜ค๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์‹œํ—˜์„ ๋ณผ ๋•Œ ๋žœ๋คํ•˜๊ฒŒ ์ฐ๋Š” ๊ฒƒ ๋ณด๋‹จ, ๊ฐ™์€ ๋‹ต์œผ๋กœ ์ค„์„ ์„ธ์›Œ ์ฐ์œผ๋ฉด ๋” ์ž˜๋งž๋Š” ๊ฒƒ๊ณผ ๊ฐ™์€ ์›๋ฆฌ๊ฒ ์ง€์š”?

๋”ฐ๋ผ์„œ ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ์•„๋ž˜ ๊ณต์‹์„ ์ถ”๊ฐ€ํ•˜์—ฌ ๊ฐ ํด๋ž˜์Šค๋“ค์˜ ๋ชจ๋“  ์ƒ˜ํ”Œ๋“ค์˜ ์˜ํ–ฅ๋ ฅ์„ ์ž‘๊ฒŒ ํ•ฉ๋‹ˆ๋‹ค.

$R_A=\sum_{c=1}^Cp_clog({p_c \over \bar{h_c}})$

$p_c$๋Š” ์ด์ „ class $c$์— ๋Œ€ํ•œ ์ด์ „ ํ™•๋ฅ  ๋ถ„ํฌ, $\bar{h}_c$๋Š” class $c$๋ฅผ dataset์˜ ๋ชจ๋“  ์ƒ˜ํ”Œ๋“ค์— ๋Œ€ํ•œ softmax ํ™•๋ฅ ๊ฐ’๋“ค์˜ ํ‰๊ท ์ž…๋‹ˆ๋‹ค.

๋”ฐ๋ผ์„œ $p_c = {1 \over C}$ ์ž…๋‹ˆ๋‹ค.

๋”ฐ๋ผ์„œ ์ด์ „์— ์˜ˆ์ธกํ•œ ๊ฐ’์— ์ „์ฒด ํด๋ž˜์Šค ๋ถ„์˜ ์˜ˆ์ธกํ•œ ๊ฐ’์— ๋กœ๊ทธ๋ฅผ ์ทจํ•œ ๊ฐ’์„ ๊ณฑํ•ด์„œ ๊ฐ’์„ ์ž‘๊ฒŒ ์—…๋ฐ์ดํŠธ๋ฅผ ์‹œ์ผœ์ฃผ๊ฒŒ ๋˜๋Š” ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค.


๐Ÿ“š ๋‘ ๋ฒˆ์งธ ์ •๊ทœํ™”

๋‹ค์Œ ์ •๊ทœํ™”๋Š” ์•ฝํ•œ ๊ฐ€์ด๋˜์Šค(๋ถ€์ •ํ™•ํ•œ ๊ฐ’๋“ค) ๋•Œ๋ฌธ์— local minima์— ๋น ์งˆ ๊ฒƒ์„ ์—ผ๋ คํ•ด ๊ฐœ๋ณ„ class์— ๋Œ€ํ•œ soft-pseudo-label์˜ ๊ฐ ํ™•๋ฅ  ๋ถ„ํฌ์— ์ง‘์ค‘ํ•˜๋„๋ก ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ถ”๊ฐ€ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

์ •๊ทœํ™” ์‹์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

$R_H=-{1\over N}\sum_{i=1}^N\sum_{c=1}^Ch_\theta^c(x_i)log(h_\theta^c(x_i))$

์‚ดํŽด๋ณด๋ฉด, $h_\theta^c(x_i)$๋Š” softmax์˜ output์ธ $h_\theta(x)$์˜ c class value๋ฅผ ์˜๋ฏธํ•˜๋ฉฐ, ์ด๊ฒƒ์œผ๋กœ entropy๋ฅผ ๊ตฌํ•˜๋Š” ๊ณต์‹์„ ์ทจํ•ด์ฃผ์–ด์„œ ๊ฐ ์ƒ˜ํ”Œ๋“ค์— ๋Œ€ํ•œ ์—”ํŠธ๋กœํ”ผ๊ฐ’์˜ ํ‰๊ท ์„ ๊ตฌํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด๋ ‡๊ฒŒ ๋‚˜์˜จ ์—”ํŠธ๋กœํ”ผ๋“ค์€ ๋งˆ์ด๋„ˆ์Šค ๊ฐ’์„ ๊ฐ€์ง€๋ฏ€๋กœ ๋งจ ์•ž์— ๋งˆ์ด๋„ˆ์Šค๋ฅผ ํ•œ๋ฒˆ ๋” ์ทจํ•ด์ฃผ์–ด ์–‘์ˆ˜๋กœ ๋งŒ๋“ค๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

๋”ฐ๋ผ์„œ ์ด ๊ฒƒ์œผ๋กœ ๋‚˜์˜ค๋Š” ๊ฐ’์€ ๋ป”ํžˆ ์˜ˆ์ƒ๋˜๋Š” ๊ฐ’(์˜ˆ์ธก์ด ์‰ฌ์šด ๊ฐ’)์ผ ์ˆ˜๋ก ์ž‘์€๊ฐ’, ๊ฒฐ๊ณผ ์˜ˆ์ธก์ด ํž˜๋“ค์ˆ˜๋ก ํฐ ๊ฐ’์„ ๋„์ถœํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋ฉด ๊ฒฐ๊ณผ ์˜ˆ์ธก์ด ํž˜๋“ค์ˆ˜๋ก ์ „์ฒด์˜ loss๊ฐ€ ์˜ฌ๋ผ๊ฐ€๊ฒŒ ๋˜๋Š” ๊ฑฐ๊ฒ ์ฃ !


๋”ฐ๋ผ์„œ ์ด ๋‘ ์ •๊ทœํ™”๋ฅผ ํ•ฉ์นœ ์ „์ฒด์ ์ธ loss ์ˆ˜์‹์ด ์•„๋ž˜์™€ ๊ฐ™์ด ๋˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

$l=l^*+\lambda_AR_A+\lambda_HR_H$

์—ฌ๊ธฐ์„œ $l^*$์€, ์ œ์ผ hard-pseudo-label๋ฐฉ์‹์— softmax๋ฅผ ์ถ”๊ฐ€ํ•œ ์ดˆ๊ธฐ ๊ณต์‹์œผ๋กœ,

$l^*(\theta) = -\sum_{i=1}^N \tilde{y}^T_ilog(h_\theta(x_i))$

๋‹ค์‹œ ํ’€์–ด์„œ ์“ฐ๋ฉด, ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์•„์ฃผ ๊ธด ํ•จ์ˆ˜๊ฐ€ ๋˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

$l=-\sum_{i=1}^N \tilde{y}^T_ilog(h_\theta(x_i))+\lambda_A \sum_{c=1}^Cp_clog({p_c \over \bar{h_c}})+ -\lambda_H{1\over N}\sum_{i=1}^N\sum_{c=1}^Ch_\theta^c(x_i)log(h_\theta^c(x_i))$

๊ทธ๋Ÿฐ๋ฐ ์—ฌ๊ธฐ์„œ ๋์ด ์•„๋‹™๋‹ˆ๋‹ค..ใ…Žใ…Ž confirmation bias์˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด mixup ์ด๋ผ๋Š” ๊ฐœ๋…์„ ๋˜ ์ถ”๊ฐ€ํ•˜๊ฒŒ ๋˜์—ˆ๋Š”๋ฐ์š”,

๐Ÿ“š Confirmation bias (ํ™•์ฆ ํŽธํ–ฅ)

mixup

ํ‹€๋ฆฐ pseudo-label๋กœ ์˜ค๋ฒ„ํ”ผํŒ…๋˜๋Š” ๊ฒƒ์„ ํ™•์ฆํŽธํ–ฅ ์ด๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ๋˜, pseudo-label์„ ํ•˜๋ฉด์„œ ์ž˜๋ชป๋œ ๋ ˆ์ด๋ธ”๋กœ ํ•™์Šต์„ ๊ณ„์† ํ•˜๊ฒŒ ๋˜๋Š” ๋”œ๋ ˆ๋งˆ๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด mixup์ด๋ผ๋Š” ๊ฐœ๋…์„ ๋„์ž…ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

์ด ๊ฐœ๋…์€, ์•ˆ์ •์ ์ธ ๋ชจ๋ธ์ด๋ผ๋ฉด ํŠน์ • ๋ฒกํ„ฐ์˜ ์„ ํ˜•๊ฒฐํ•ฉ์— ๋Œ€ํ•œ ์˜ˆ์ธก๊ฐ’์ด ๋ ˆ์ด๋ธ”์˜ ์„ ํ˜•๊ฒฐํ•ฉ๋ฐฉ์‹์ด ๋˜์–ด์•ผ ํ•œ๋‹ค๋Š” ๊ฐœ๋…์—์„œ ๋‚˜์˜ค๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ˆ˜์‹์œผ๋กœ ์„ค๋ช…๋“œ๋ฆฌ์ž๋ฉด,

randomํ•œ $(x_p, y_p), (x_q, y_q)$์— ๋Œ€ํ•ด์„œ

$x = \delta x_p + (1-\delta)x_q $

$y = \delta y_p + (1-\delta)y_q $

๊ฐ€ ์„ฑ๋ฆฝ๋œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

ํŠน์ • ์ž…๋ ฅ ๋ฒกํ„ฐ๋“ค์„ ์„ ํ˜•๊ฒฐํ•ฉํ•œ ๋ฒกํ„ฐ $x$๋Š” ๊ทธ ๋ ˆ์ด๋ธ” $y$ ๋˜ํ•œ ๋˜‘๊ฐ™์€ ๋ฐฉ์‹์œผ๋กœ ์„ ํ˜•๊ฒฐํ•ฉํ–ˆ์„ ๋•Œ, ๊ทธ ๊ฒฐ๊ณผ ๋˜ํ•œ ๊ฐ™์ด ๋งค์นญ๋˜์–ด์•ผ ํ•œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค!

์ด๋Ÿฐ์‹์œผ๋กœ ๋ ˆ์ด๋ธ”์ด ์—†๋Š” ๋ฐ์ดํ„ฐ๋“ค์— ๋Œ€ํ•œ mixup ๋ชจ๋ธ์„ ์ด์šฉํ•ด ๋ ˆ์ด๋ธ”์„ ์˜ˆ์ธกํ•œ ํ›„ ์ด๋ฅผ ์ด์šฉํ•ด mixup์„ ์ง„ํ–‰ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ด๋ฃจ์–ด ์ง‘๋‹ˆ๋‹ค.

์œ„์˜ ์ˆ˜์‹์€

$l^* = \delta$$l^โˆ—_p$ $+ (1-ฮด)$ $l^โˆ—_p$

๋กœ ๋  ์ˆ˜ ์žˆ๊ณ  ๋”ฐ๋ผ์„œ loss $l^*$์— ๋Œ€ํ•ด ์žฌ์ •์˜ ํ•˜๋ฉด

$l^* = -\sum_{i=1}^N\delta \lbrack\tilde{y}^T_{i,p}log(h_\theta(x_i))\rbrack+(1-\delta)\lbrack\tilde{y}^T_{i,q}log(h_\theta(x_i))\rbrack$ ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.

๋”ฐ๋ผ์„œ ๋‹ค์Œ์˜ ์ตœ์ข… ์ˆ˜์‹

$l=l^*+\lambda_AR_A+\lambda_HR_H$

์—์„œ $l^{*}$๋งŒ ๋ฐ”๋€Œ๊ฒŒ ๋˜๊ฒ ์ฃ !


์—ฌ๊ธฐ๊นŒ์ง€ ๋‹ฌ๋ ค์™€ ๋ณด์•˜๋Š”๋ฐ์š”, self-training ์„ ํ†ตํ•œ noisy student ๊ฐ€ pseudo label ์„ ํ†ตํ•ด ํ•™์Šต์„ ํ•˜๋Š”๋ฐ ๋Œ€์ฒด ์ด pseudo labeling์€ ์–ด๋–ป๊ฒŒ ์ง„ํ–‰๋˜๋Š” ๊ฒƒ์ธ์ง€.. ์ œ๋Œ€๋กœ ๋ ˆ์ด๋ธ”์ด ๋œ ๋ฐ์ดํ„ฐ๊ฐ€ ์ถ”๊ฐ€๋˜๋Š”๊ฒŒ ๋งž๋Š”์ง€ ์˜๋ฌธํˆฌ์„ฑ์ด์—ˆ๋Š”๋ฐ ์ด ๋…ผ๋ฌธ์„ ๋ณด๋‹ˆ ์ดํ•ด๊ฐ€ ๋˜์—ˆ๋„ค์š”๐Ÿ‘

์ด์ƒํ•˜๊ฒŒ pseudo label ๋…ผ๋ฌธ์„ ๋ฆฌ๋ทฐํ•œ ๋ธ”๋กœ๊ทธ๊ฐ€ ๊ฑฐ์˜ ์—†์–ด์„œ ๋…ผ๋ฌธ์„ ํŒŒ๊ณ ๋“ค์–ด ๊ณต๋ถ€ํ•˜๋Š๋ผ ํž˜์ด ๋“ค์—ˆ์ง€๋งŒ..

์—ฌ๊ธฐ๊นŒ์ง€ ํŒŒ๋ณธ ๋‚˜์—๊ฒŒ ๋ฐ•์ˆ˜๐Ÿ˜ญ๐Ÿ˜ญ

๋‹ค์Œ ํฌ์ŠคํŒ…์—์„œ ๋งŒ๋‚˜์š”๐ŸŒฑ๐ŸŒฑ

ํƒœ๊ทธ: ,

์นดํ…Œ๊ณ ๋ฆฌ:

์—…๋ฐ์ดํŠธ:

๋Œ“๊ธ€๋‚จ๊ธฐ๊ธฐ