๐Ÿ“šSTUDY/๐Ÿ”ฅPytorch ML&DL

03. Deeper Look at Gradient Descent

ํ•ด๋Š”์„  2020. 2. 24. 15:39

๋ณธ ๊ธ€์€ '๋ชจ๋‘๋ฅผ ์œ„ํ•œ ๋”ฅ๋Ÿฌ๋‹ ์‹œ์ฆŒ 2'์™€ 'pytorch๋กœ ์‹œ์ž‘ํ•˜๋Š” ๋”ฅ ๋Ÿฌ๋‹ ์ž…๋ฌธ'์„ ๋ณด๋ฉฐ ๊ณต๋ถ€ํ•œ ๋‚ด์šฉ์„ ์ •๋ฆฌํ•œ ๊ธ€์ž…๋‹ˆ๋‹ค.

ํ•„์ž์˜ ์˜๊ฒฌ์ด ์„ž์—ฌ ๋“ค์–ด๊ฐ€ ๋ถ€์ •ํ™•ํ•œ ๋‚ด์šฉ์ด ์กด์žฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.


 

๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์€ ๊ฐ€์žฅ ๊ธฐ๋ณธ์ ์ธ ์˜ตํ‹ฐ๋งˆ์ด์ € ์•Œ๊ณ ๋ฆฌ์ฆ˜(์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜)์ด๋‹ค.

๋น„์šฉํ•จ์ˆ˜์˜ ๊ฐ’์„ ์ตœ์†Œ๋กœ ํ•˜๋Š” W์™€ b๋ฅผ ์ฐพ๋Š” ๋ฐฉ๋ฒ•์— ์“ฐ์ธ๋‹ค.

 

์—ฌ๊ธฐ์„œ W์™€ cost์˜ ๊ด€๊ณ„๋ฅผ ๊ทธ๋ž˜ํ”„๋กœ ํ‘œํ˜„ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

cost๊ฐ€ ์ž‘์„ ์ˆ˜๋ก ๋” ์ ํ•ฉํ•œ w๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด ๊ธฐ์šธ๊ธฐ๊ฐ€ ์•„๋ž˜ ๋ณผ๋กํ•œ ๊ณณ์— ์žˆ์–ด์•ผ ์ข‹๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

ํ•™์Šต์„ ์‹œ์ž‘ํ•  ๋•Œ, ์ปดํ“จํ„ฐ๋Š” ์ž„์˜์˜ ์ดˆ๊ธฐ๊ฐ’ W๋ฅผ ์ •ํ•˜๊ณ , ๋งจ ์•„๋ž˜ ๋ณผ๋กํ•œ ๋ถ€๋ถ„์„ ํ–ฅํ•ด ์ ์ฐจ W์˜ ๊ฐ’์„ ์ˆ˜์ •ํ•ด ๋‚˜๊ฐ„๋‹ค. 

 

์ด๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ๊ฒƒ์ด ๋ฐ”๋กœ '๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•'์ธ๋ฐ, ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์€ ์ ‘์„ ์—์„œ์˜ ๊ธฐ์šธ๊ธฐ์˜ ๊ฐœ๋…์„ ์‚ฌ์šฉํ•œ๋‹ค.

 

์ดˆ๋ก์ƒ‰ ์„ ์€  W๊ฐ€ ์ž„์˜์˜ ๊ฐ’์„ ๊ฐ€์ง€๊ฒŒ ๋˜๋Š” ๋„ค ๊ฐ€์ง€์˜ ๊ฒฝ์šฐ์— ๋Œ€ํ•ด์„œ, ๊ทธ๋ž˜ํ”„ ์ƒ์œผ๋กœ ์ ‘์„ ์˜ ๊ธฐ์šธ๊ธฐ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค. ๊ธฐ์šธ๊ธฐ๋ฅผ ์‚ดํŽด๋ณด๋ฉด, ์ ์  ๋ณผ๋กํ•œ ๊ณณ์œผ๋กœ ๋‹ค๊ฐ€๊ฐˆ ์ˆ˜๋ก ๊ธฐ์šธ๊ธฐ๊ฐ€ 0์ด ๋จ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. 

 

์ฆ‰, Cost๊ฐ€ ์ตœ์†Œ๊ฐ€ ๋˜๋Š” ์ง€์  = ์ ‘์„ ์˜ ๊ธฐ์šธ๊ธฐ๊ฐ€ 0 = ๋ฏธ๋ถ„๊ฐ’์ด 0 ์ด ๋œ๋‹ค.

 

์‰ฝ๊ฒŒ ๋งํ•ด์„œ cost function์„ ๋ฏธ๋ถ„ํ•ด์„œ ์ ‘์„ ์˜ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ตฌํ•˜๊ณ , ๊ทธ ๊ธฐ์šธ๊ธฐ์— ํŠน์ • ์ˆซ์ž๋ฅผ ๊ณฑํ•œ ๊ฐ’์„ ๋นผ์„œ ์ƒˆ๋กœ์šด W๋กœ ์‚ฌ์šฉํ•œ๋‹ค.

 

์œ„์˜ ๊ทธ๋ฆผ์„ ๋ณด๋ฉด, ๊ฐ€์žฅ ํฐ ๊ธฐ์šธ๊ธฐ๊ฐ€ ์–‘์ˆ˜์ด๊ธฐ ๋•Œ๋ฌธ์—, ๊ธฐ์šธ๊ธฐ๊ฐ€ 0์ด ๋˜๋ ค๋ฉด ๊ฐ์†Œํ•ด์•ผํ•œ๋‹ค. ๋ฐ˜๋Œ€๋กœ ๊ธฐ์šธ๊ธฐ๊ฐ€ ์Œ์ˆ˜์ผ ๋•Œ๋Š” ์ฆ๊ฐ€ํ•ด์•ผ ํ•  ๊ฒƒ์ด๋‹ค.

์œ„์˜ ์ˆ˜์‹์€ ์ ‘์„ ์˜ ๊ธฐ์šธ๊ธฐ๊ฐ€ ์Œ์ˆ˜๊ฑฐ๋‚˜, ์–‘์ˆ˜์ผ ๋•Œ ๋ชจ๋‘ ์ ‘์„ ์˜ ๊ธฐ์šธ๊ธฐ๊ฐ€ 0์ธ ๋ฐฉํ–ฅ์œผ๋กœ W์˜ ๊ฐ’์„ ์กฐ์ •ํ•œ๋‹ค. 

(์ฐธ๊ณ ๋กœ := ๊ธฐํ˜ธ๋Š” ์˜ค๋ฅธ์ชฝ ์ˆ˜์‹์˜ ๊ณ„์‚ฐ ๊ฐ’์„ ์™ผ์ชฝ ๊ธฐํ˜ธ์— ๋Œ€์ž…ํ•จ์„ ๋œปํ•œ๋‹ค.)

 

์ € ์‹์—์„œ ํ•™์Šต๋ฅ  α๋Š” W์˜ ๊ฐ’์„ ๋ณ€๊ฒฝํ•  ๋•Œ, ์–ผ๋งˆ๋‚˜ ํฌ๊ฒŒ ๋ณ€๊ฒฝํ• ์ง€๋ฅผ ๊ฒฐ์ •ํ•œ๋‹ค. ๋„ˆ๋ฌด ํฐ ๊ฐ’์„ ์ค€๋‹ค๋ฉด ๋ฐœ์‚ฐ์„ ํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์ ์ ˆํ•œ ๊ฐ’์„ ์ฐพ๋Š”๊ฒŒ ์ค‘์š”ํ•˜๋‹ค.

 

์ •๋ฆฌํ•˜์ž๋ฉด,

๊ธฐ์šธ๊ธฐ = ๋ฐฉํ–ฅ

ํ•™์Šต๋ฅ  α = ๋ฐœ์ž๊ตญ ํฌ๊ธฐ

๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋‹ค.

 


<Reference>

https://deeplearningzerotoall.github.io/season2/lec_pytorch.html

https://wikidocs.net/53560