Skip to content

Latest commit

ย 

History

History
307 lines (237 loc) ยท 14.1 KB

5. activation-function.md

File metadata and controls

307 lines (237 loc) ยท 14.1 KB

Activation Function

Activation Function์˜ ์˜์˜

activation function

  • ๋‰ด๋Ÿด ๋„คํŠธ์›Œํฌ์˜ ๊ฐœ๋ณ„ ๋‰ด๋Ÿฐ์— ๋“ค์–ด์˜ค๋Š” ์ž…๋ ฅ์‹ ํ˜ธ์˜ ์ดํ•ฉ x1w1 + x2w2 + b ๋ฅผ ์ถœ๋ ฅ ์‹ ํ˜ธ(y)๋กœ ๋ณ€ํ™˜ํ•˜๊ณ (๊ทธ๋Œ€๋กœ ์‚ฌ์šฉ X),
    ๊ทธ ๊ฐ’์— ๋”ฐ๋ผ ์‹ ํ˜ธ ์ „๋‹ฌ์„ ํ™œ์„ฑํ™”ํ• ์ง€ ๋ง์ง€(z)๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ํ•จ์ˆ˜.
  1. ๊ฐ€์ค‘์น˜๊ฐ€ ๊ณฑํ•ด์ง„ ์ž…๋ ฅ ์‹ ํ˜ธ์™€ ํŽธํ–ฅ์˜ ์ดํ•ฉ์„ ๊ณ„์‚ฐํ•œ๋‹ค.
    a = x1w1 + x2w2 + b
  2. a๋ฅผ ํ™œ์„ฑํ™” ํ•จ์ˆ˜์ธ h()์— ๋„ฃ๊ณ  ์ถœ๋ ฅ ์‹ ํ˜ธ(y)๋ฅผ ์ถœ๋ ฅํ•œ๋‹ค.
    y = h(a)

Activation Function์˜ ์ข…๋ฅ˜

์„ ํ˜• ํ•จ์ˆ˜ linear function

linear function

h(a)=cx
  • ๋‰ด๋Ÿด ๋„คํŠธ์›Œํฌ ์ดˆ๊ธฐ์—๋Š” ์„ ํ˜•ํ•จ์ˆ˜๋ฅผ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋กœ ์‚ฌ์šฉํ–ˆ๋‹ค.

  • ์š”์ฆ˜์—๋Š” ๋น„์„ ํ˜• ํ•จ์ˆ˜๋ฅผ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋กœ ์‚ฌ์šฉํ•˜๋Š”๋ฐ, ์„ ํ˜•ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ์‹ ๊ฒฝ๋ง์—์„œ ์ธต์„ ์ด๋ฃจ๋Š” ์˜๋ฏธ๊ฐ€ ์‚ฌ๋ผ์ง€๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

    • ex) ์„ ํ˜•ํ•จ์ˆ˜์ธ h(x)=cx๋ฅผ ํ™œ์„ฑํ™”ํ•จ์ˆ˜๋กœ ์‚ฌ์šฉํ•œ 3์ธต ๋„คํŠธ์›Œํฌ ์ด 3์ธต ๋„คํŠธ์›Œํฌ๋ฅผ ์‹์œผ๋กœ ๋‚˜ํƒ€๋‚ด๋ฉด y(x)=h(h(h(x)))๊ฐ€ ๋˜๋Š”๋ฐ, ์ด ์‹์„ ์ „๊ฐœํ•ด๋ณด๋ฉด y(x)=c3x ๊ฐ€ ๋˜์–ด์„œ, y(x)=ax์™€ ๋˜‘๊ฐ™์€ ์‹์ด ๋œ๋‹ค. (a = c3์œผ๋กœ ์„ค์ •ํ•ด์ฃผ๋ฉด)

    ์ฆ‰, ์€๋‹‰์ธต์ด ์—†๋Š” ๋„คํŠธ์›Œํฌ๊ฐ€ ๋œ๋‹ค.

    • ์„ ํ˜• ์‹œ์Šคํ…œ์„ ๋ง์— ์ ์šฉ์‹œ, ๋ง์ด ๊นŠ์–ด์ง€์ง€ ์•Š๋Š”๋‹ค.
    • ์•„๋ฌด๋ฆฌ ๋ง์ด ๊นŠ์–ด์ง€๋”๋ผ๋„ 1์ธต์˜ ์€๋‹‰์ธต์œผ๋กœ ๊ตฌํ˜„์ด ๊ฐ€๋Šฅํ•œ ๊ฒƒ! ๋‰ด๋Ÿด ๋„คํŠธ์›Œํฌ์—์„œ ์ธต์„ ์Œ“์œผ๋ ค๋ฉด, ํ™œ์„ฑํ™”ํ•จ์ˆ˜๋กœ๋Š” ๋น„์„ ํ˜• ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•ด์•ผ ํ•œ๋‹ค.

    ๋น„์„ ํ˜• ํ•จ์ˆ˜ : ์ง์„  1๊ฐœ๋กœ ํ‘œํ˜„์ด ๋˜์ง€ ์•Š๋Š” ํ•จ์ˆ˜

๊ณ„๋‹จ ํ•จ์ˆ˜ step function

step function

a = x1w1 + x2w2 + b y = h(a) h(a) = 0 (a<=ฮ˜),1 (a>ฮ˜)

  • ๊ทธ ์ดํ›„์—๋Š” ์ž„๊ณ„๊ฐ’(ฮ˜)์„ ๊ฒฝ๊ณ„๋กœ ์ถœ๋ ฅ์ด ๋ฐ”๋€Œ๋Š” step function์„ ์‚ฌ์šฉํ–ˆ๋‹ค.
  • ํ•˜์ง€๋งŒ, step function์€ ๋ฏธ๋ถ„์ด ๋ถˆ๊ฐ€๋Šฅํ•˜๋‹ค.
    • gradient descent๋ฅผ ํ†ตํ•œ ํ›ˆ๋ จ์ด ๋ถˆ๊ฐ€๋Šฅ ํ•˜๋‹ค.

    gradient descent(๊ธฐ์šธ๊ธฐ ํ•˜๊ฐ•) ํ˜„์žฌ์˜ ์œ„์น˜์—์„œ ๊ธฐ์šธ๊ธฐ์— ๋น„๋ก€ํ•˜์—ฌ ๋‹จ๊ณ„์ ์œผ๋กœ ํ•จ์ˆ˜์˜ ์ตœ์†Œ ๋˜๋Š” ์ตœ๋Œ€์— ์ ‘๊ทผํ•˜๋Š” ์ ๊ทผ์ ์ธ ์–ธ๋• ์˜ค๋ฅด๊ธฐ (hill climbing) ์•Œ๊ณ ๋ฆฌ์ฆ˜. ์ฝ”๋“œ ๊ตฌํ˜„์€ ์—ฌ๊ธฐ

  • ์ถœ๋ ฅ์ธต์„ ๊ตฌ์„ฑํ•˜๋Š” ๋‰ด๋Ÿฐ์˜ ์ˆ˜๋ฅผ ์•„๋ฌด๋ฆฌ ํฌ๊ฒŒ ํ•˜์—ฌ๋„ ๋‘ ๊ฐ€์ง€ ํŒจํ„ด์œผ๋กœ๋ฐ–์— ๊ตฌ๋ถ„ํ•˜์ง€ ๋ชปํ•œ๋‹ค.

์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜ sigmoid function

sigmoid function

  • 0 ๋˜๋Š” 1๋งŒ ์ถœ๋ ฅํ•  ์ˆ˜ ์žˆ๋Š” ๊ณ„๋‹จ ํ•จ์ˆ˜์™€ ๋‹ฌ๋ฆฌ, [0,1] ๋ฒ”์œ„์˜ float๋ฅผ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค.
  • ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€ ๋ถ„์„์— ์‚ฌ์šฉ๋œ๋‹ค.
  • ์œ ํ•œ์˜ ๋ฒ”์œ„ [0,1]๋กœ ํŠธ๋ ˆ์ด๋‹์ด ์•ˆ์ •์ ์ด๋‹ค.
  • ๋งจ ๋ ๊ฐ™์€ ๊ฒฝ์šฐ์—๋Š” ๊ธฐ์šธ๊ธฐ๊ฐ€ ๋งค์šฐ ์ž‘๋‹ค.
  • ์–ด๋–ค ๋ถ€๋ถ„์˜ X์˜ ์ž‘์€ ๋ณ€ํ™”๊ฐ€ Y์˜ ๊ฐ’์˜ ํฐ ๋ณ€ํ™”๋ฅผ ์•ผ๊ธฐ์‹œํ‚จ๋‹ค. ์–ด๋–ค ๋ถ€๋ถ„์€ ๊ทธ ๋ฐ˜๋Œ€...
    • ์ฆ‰, Y๊ฐ’์„ ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜์˜ ์–‘์ชฝ ๋์œผ๋กœ ํ–ฅํ•˜๊ฒŒ ํ•œ๋‹ค.
    • ์–‘์ชฝ ๋ ์ง€์—ญ์—์„œ์˜ ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜์˜ ๊ธฐ์šธ๊ธฐ๋Š” ๋งค์šฐ ์ž‘์•„์„œ, ๊ฑฐ์˜ 0์— ๊ฐ€๊น๋‹ค.
    • vanishing gradient
      • ์‹ ๊ฒฝ๋ง์˜ ์€๋‹‰์ธต์ด ๋งŽ์•„์งˆ์ˆ˜๋ก ์—ญ์ „ํŒŒ์— ์˜ํ•œ ๊ฐ€์ค‘์น˜ ๋ณด์ •์˜ ์˜๋ฏธ๊ฐ€ ์—†์–ด์ง€๋Š” ๋ฌธ์ œ.
      • ์•„๋ž˜์— ์ž์„ธํ•œ ์„ค๋ช…์„!
  • Y๊ฐ’์ด 0์—์„œ ์ค‘๊ฐ„๊ฐ’์ด ์•„๋‹ˆ๋‹ค.
    • ํ•ญ์ƒ ์–‘์ˆ˜์˜ ๊ฐ’์„ ๋ฐ˜ํ™˜ํ•œ๋‹ค.
    • ํ›ˆ๋ จ ์ดˆ๊ธฐ์— ์ž…๋ ฅ๊ฐ’์ด ํ•จ์ˆ˜์˜ ์–‘์ชฝ ๋์— ์ง‘์ค‘๋˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ๊ณ , ๊ธฐ์šธ๊ธฐ๊ฐ€ ์ž‘์„ ์ˆ˜ ์žˆ๋‹ค.
    • ์ดˆ๊ธฐ ๋žœ๋ค ๊ฐ€์ค‘์น˜๊ฐ’๋“ค์˜ ๊ท ํ˜•์ด ๋งž๊ธฐ๊นŒ์ง€ ์‹œ๊ฐ„์ด ๊ฑธ๋ฆฌ๋Š” ์›์ธ์ด ๋œ๋‹ค.

0,1์‚ฌ์ด์˜ ๊ฐ’์„ ๋‹ค์Œ ์ธต์— ์ „๋‹ฌํ•ด์คŒ. ์ค‘์ฒฉ์ด ๋˜๋ฉด ์„ ํ˜•์˜ ํ˜•ํƒœ๋ฅผ ๋„๊ฒŒ ๋œ๋‹ค !!! -1~1 ๋ถ€๋ถ„์„ ๋ณด๋ฉด ์„ ํ˜•์˜ ๊ทธ๋ž˜ํ”„๋ฅผ ๋ˆ๋‹ค... ๊ธฐ์šธ๊ธฐ๊ฐ€ ๊ณ ์ •๋œ๋‹ค.

ํ•˜์ดํผ๋ณผ๋ฆญ ํƒ„์  ํŠธ ํ•จ์ˆ˜ hyperbolic tangent function

hyperbolic tangent function

  • ์Œ๊ณกํƒ„์  ํŠธ ํ•จ์ˆ˜.
  • ์ถœ๋ ฅ๊ฐ’์ด [-1,1]๋กœ, sigmoid์˜ ๋ฒ”์œ„๋ฅผ ์‚ด์ง ํ™•์žฅ์‹œํ‚จ๋‹ค.
  • activations ๊ฐ€ saturate, ํฌํ™”์ƒํƒœ์ด๋‹ค. (sigmoid์™€ ๋™์ผ)
  • ์ถœ๋ ฅ๊ฐ’์ด 0์—์„œ ์ค‘๊ฐ„๊ฐ’์ด๋‹ค.
  • sigmoid ํ•จ์ˆ˜๋ณด๋‹ค ๋” ๊ฐ€ํŒŒ๋ฅธ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ฐ€์ง„๋‹ค
  • sigmoid ํ•จ์ˆ˜๋ณด๋‹ค ๋น ๋ฅธ ํ•™์Šต์„ ์œ„ํ•ด ์‚ฌ์šฉ๋œ๋‹ค.

ocr์— ๋งŽ์ด ์“ฐ์ž„. ๋ฌธ์ž์ธ์‹์— ๋ ๋ฃจ๋ณด๋‹ค ๋งŽ์ด ์”€. -1 ์ด๋ผ๋Š” ๊ฐ’์ด ๋‚˜์˜จ๋‹ค๋Š” ํŠน์„ฑ ๋–„๋ฌธ. ๋”ฅ๋‰ด๋Ÿฐ / cnn / rnn 3๊ฐ€์ง€๊ฐ€ ์žˆ๋Š”๋ฐ ์šฐ๋ฆฌ๊ฐ€ ๊ณ„์† ์ ‘ํ•ด์˜จ๊ฑด dnn. ๊ทธ๋‹ค์Œ์—” cnn. ๊ทธ๋‹ค์Œ์—” rnn. ํผ์…‰ํŠธ๋ก ๋“ค์ด ์—ฐ๊ฒฐ๋˜์–ด์žˆ๋Š” ๊ตฌ์กฐ ์ž์ฒด๊ฐ€ ๋‹ค๋ฅด๋‹ค.

๋ ๋ฃจ ํ•จ์ˆ˜ ReLU(Recified Linear Unit) function

ReLU function

  • x๊ฐ€ ์–‘์ˆ˜์ด๊ธฐ๋งŒ ํ•˜๋ฉด ๊ธฐ์šธ๊ธฐ๊ฐ€ 1๋กœ ์ผ์ •ํ•˜๋ฏ€๋กœ ๊ธฐ์šธ๊ธฐ๊ฐ€ ์ฃฝ๋Š” ํ˜„์ƒ์„ ํ”ผํ•  ์ˆ˜ ์žˆ๋‹ค.

  • ๋ฏธ๋ถ„์ด ํŽธ๋ฆฌํ•˜๊ณ , ๊ณ„์‚ฐ๋ณต์žก๋„๊ฐ€ ๋‚ฎ๋‹ค.

  • sigmoid, hyperbolic tangent ๋ณด๋‹ค ํ•™์Šต์ˆ˜๋ ด ์†๋„๊ฐ€ 6๋ฐฐ๋‚˜ ๋น ๋ฅด๋‹ค

  • 0์„ ๊ธฐ์ค€์œผ๋กœ ๋Œ€์นญ์ธ ๋ชจ์–‘์€ ์•„๋‹˜

  • ๋ฒ”์œ„๊ฐ€ ์œ ํ•œํ•˜์ง€ ์•Š๋‹ค. [0,inf)๋ผ์„œ ๋น„์•ˆ์ •ํ™”๋œ training ์ด๋ผ๊ณ  ํ•œ๋‹ค.

inf : infinite

  • ๋ฌดํ•œ์˜ ๋ฒ”์œ„๊ฐ€ ๋‹จ์ ์ด ๋  ์ˆ˜๋„ ์žˆ์ง€๋งŒ, ํ•™์Šต ์ˆ˜๋ ด์„ ๊ฐ€์†ํ™”ํ•œ๋‹ค๋Š” ์ ์—์„œ ์žฅ์ ์œผ๋กœ ์ž‘์šฉ ํ•  ์ˆ˜๋„ ์žˆ๋‹ค.
  • x๊ฐ€ ์Œ์ˆ˜์ด๋ฉด ๊ธฐ์šธ๊ธฐ๊ฐ€ ๋ฌด์กฐ๊ฑด 0์ด ๋œ๋‹ค --> ๊ธฐ์šธ๊ธฐ๊ฐ€ ์ฃฝ๋Š”๋‹ค!
    • normalized ๋œ ๊ฐ€์ค‘์น˜๋“ค์„ ๊ฐ€์ง„ ์ž…๋ ฅ๊ฐ’๋“ค์€, 50%๋Š” 0์œผ๋กœ ํ™œ์„ฑํ™” ๋  ๊ฒƒ์ด๋‹ค.
    • 0์ด ๋˜๋ฉด ๊ทธ ๋ฐ์ดํ„ฐ๋“ค์„ ๋‹ค์‹œ ํ™œ์„ฑํ™”๋  ์ผ์ด ์—†๊ฒŒ ๋˜๊ณ , ๋ฐ์ดํ„ฐ๋“ค์˜ capacity๋ฅผ ๋‚ญ๋น„ํ•˜๋Š” ๊ฒƒ์ด ๋œ๋‹ค.

๋ฆฌํ‚ค ๋ ๋ฃจ ํ•จ์ˆ˜ Leaky ReLU function

ReLU function

  • ReLU์˜ dying ReLU ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋‚˜์˜จ ๊ฒƒ.
    • ์Œ์ˆ˜ ๋ถ€๋ถ„์— ์ž‘์€ ๊ธฐ์šธ๊ธฐ๋ฅผ ๋„์ž…ํ•ด์„œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ–ˆ๋‹ค.
f(x) = ฮฑx for x<0
	x for x>=0

f'(x) = ฮฑ for x<0
	1 for x>=0
  • ๋” ๋ณ€ํ˜•๋œ ํ˜•ํƒœ๋กœ randomized Leaky ReLU ํ•จ์ˆ˜๋„ ์žˆ๋‹ค.

Randomized Leaky ReLU function


์†Œํ”„ํŠธ๋งฅ์Šค ํ•จ์ˆ˜ Softmax function

Softmax function

n : ์ถœ๋ ฅ์ธต์˜ ๋‰ด๋Ÿฐ ์ˆ˜ yk : k๋ฒˆ์งธ ๋‰ด๋Ÿฐ์˜ ์ถœ๋ ฅ์‹ ํ˜ธ a : k๋ฒˆ์งธ ๋‰ด๋Ÿฐ์˜ ์ž…๋ ฅ์‹ ํ˜ธ

exp(x) --> ex ์˜ ๊ฐ’ ๋ฐ˜ํ™˜

  • ์ถœ๋ ฅ์ธต์—์„œ ์‚ฌ์šฉํ•˜๋Š” ํ•จ์ˆ˜
  • ๋‹ค๋ฒ”์ฃผ ๋ถ„๋ฅ˜ multinomial classification ๋ฅผ ํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ
  • ์ž…๋ ฅ๋ฐ›์€ ๊ฐ’์„ 0~1์‚ฌ์ด์˜ ๊ฐ’์œผ๋กœ ๋ชจ๋‘ ์ •๊ทœํ™”ํ•˜๋ฉฐ ์ถœ๋ ฅ ๊ฐ’๋“ค์˜ ์ดํ•ฉ์€ ํ•ญ์ƒ 1์ด ๋˜๋Š” ํŠน์„ฑ -> ํ™•๋ฅ  ๊ฐœ๋…! (์‹์—์„œ๋„ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ, ๋ถ„๋ชจ๋Š” ๋ถ„์ž์˜ ์ดํ•ฉ๊ณผ ๊ฐ™๋‹ค)
  • ์–ด๋–ค ํด๋ž˜์Šค์— ์†ํ•  ํ™•๋ฅ ์ด ์–ผ๋งˆ์ธ์ง€๋ฅผ ๋‚˜ํƒ€๋‚ด์ฃผ๋Š” ๊ฒƒ์ด ์†Œํ”„ํŠธ๋งฅ์Šค ํ•จ์ˆ˜์˜ ์ถœ๋ ฅ
  • ์ง€์ˆ˜ ํ•จ์ˆ˜๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ์–ด์„œ ํ”„๋กœ๊ทธ๋ž˜๋ฐ ์–ธ์–ด๋กœ ๊ตฌํ˜„ ์‹œ ์˜ค๋ฒ„ํ”Œ๋กœ์šฐ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋‹ค. ์•„๋ž˜์˜ ๋ฐฉ๋ฒ•์œผ๋กœ ๊ฐœ์„ ์ด ๊ฐ€๋Šฅํ•˜๋‹ค. Softmax function overflow

C๋Š” ์ƒํ™ฉ์— ๋”ฐ๋ผ ์ž‘์€ ๊ฐ’์œผ๋กœ ๋ณ€๊ฒฝ ๊ฐ€๋Šฅ C'๋ฅผ ์Œ์ˆ˜๋กœ ์„ค์ •ํ•˜๊ธฐ๋„ ํ•จ(C๋ฅผ ๋ถ„์ˆ˜๋กœ ์„ค์ •ํ•˜๋Š” ๊ฒƒ. 0.01๊ฐ™์€, ๊ทธ๋Ÿฌ๋ฉด C'๊ฐ€ ์Œ์ˆ˜๊ฐ€ ๋œ๋‹ค). ๋˜‘๊ฐ™์€ C'๋ฅผ ๋นผ๋„ ๋˜‘๊ฐ™์œผ๋‹ˆ๊นŒ....exp(x) ๊ฐ’์„ ์• ์ดˆ์— ์ค„์ด๋Š” ๊ฒƒ. C์˜ ๋ชฉ์  : ์œ„ ์•„๋ž˜ ๊ฐ’์„ ์ค„์—ฌ์„œ ์˜ค๋ฒ„ํ”Œ๋กœ์šฐ๋ฅผ ์•ˆ๋‚˜๊ฒŒ ํ•˜๊ฒ ๋‹ค !


Perceptron์—์„œ Activation Function์ด ๋™์ž‘ํ•˜๋Š” ์œ„์น˜

๋Š” ์˜ˆ์ œ๋ฅผ ํ†ตํ•ด ์‚ดํŽด๋ณผ ๊ฒƒ!

์—ฐ์‚ฐ ์ •์˜

1. sum ๊ณ„์‚ฐ

sum sum

N : ์ž…๋ ฅ ๋ฒกํ„ฐ์˜ ํฌ๊ธฐ

2. ํ™œ์„ฑํ•จ์ˆ˜ ์ •์˜

๊ฐ„๋‹จํžˆ ๊ณ„๋‹จํ•จ์ˆ˜๋ฅผ ํ™œ์„ฑํ•จ์ˆ˜๋กœ ์‚ฌ์šฉํ•ด๋ณด์ž!

f(sum) = 0 for sum < thresold
	 1 for sum >= thresold

3. ํ•™์Šต์—ฐ์‚ฐ ์ •์˜ (๊ฐ€์ค‘์น˜ ์กฐ์ ˆ)

wi = wi + ฮทxi(T - f(sum))

ฮท = ํ•™์Šต๋ฅ  T = ๋ชฉํ‘œ๊ฐ’

์ถœ๋ ฅ์ธต ๋‰ด๋Ÿฐ์˜ ์ถœ๋ ฅ๊ฐ’๊ณผ ๋ชฉํ‘œ๊ฐ’์˜ ์ฐจ์ด๊ฐ€ ํ—ˆ์šฉ ์˜ค์ฐจ๋ณด๋‹ค ํฌ๋ฉด ์ถœ๋ ฅ์ธต ๋‰ด๋Ÿฐ์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์กฐ์ •ํ•ด์•ผ ํ•œ๋‹ค.
์œ„ ์‹์„ ์ด์šฉํ•ด์„œ ๊ฐ€์ค‘์น˜๋ฅผ ์กฐ์ •ํ•œ๋‹ค.

์˜ˆ์ œ : AND ์—ฐ์‚ฐ ํ•™์Šต

perceptron
์œ„์™€ ๊ฐ™์€ ํผ์…‰ํŠธ๋ก ์˜ ๊ตฌ์กฐ๋กœ AND ์—ฐ์‚ฐ์„ ํ•™์Šตํ•˜๊ณ , ํ•™์Šต๋ฅ  ฮท๋ฅผ 0.05๋กœ ์„ค์ •ํ•œ๋‹ค.

ํ•™์Šต ๋ฐ์ดํ„ฐ

x1 x2 T
0 0 0
0 1 0
1 0 0
1 1 1

๊ฐ€์ค‘์น˜ ๋ฐ ํŽธํ–ฅ ์ดˆ๊ธฐํ™”ํ•˜๊ธฐ

๊ฐ€์ค‘์น˜์™€ ํŽธํ–ฅ์˜ ๊ฐ€์ค‘์น˜๋ฅผ -0.5์™€ 0.5 ์‚ฌ์ด ์ž„์˜์˜ ๊ฐ’์œผ๋กœ, ํŽธํ–ฅ์˜ ์ž…๋ ฅ๊ฐ’์€ -1๋กœ ์ดˆ๊ธฐํ™”ํ•œ๋‹ค.

w0 = 0.3 w1 = 0.4 w2 = 0.1 x0 = b = -1

๊ฐ ํ•™์Šต ๋ฒกํ„ฐ์— ๋Œ€ํ•œ ์ถœ๋ ฅ๊ฐ’ ๊ณ„์‚ฐ ๋ฐ ๊ฐ€์ค‘์น˜ ์กฐ์ •

1. t=1

์ฒซ๋ฒˆ์จฐ ํ•™์Šต ๋ฒกํ„ฐ (0,0,0) ์— ๋Œ€ํ•œ ์ถœ๋ ฅ๊ฐ’์„ ๊ณ„์‚ฐํ•œ๋‹ค.

x1 = 0 x2 = 0 sum = w1x1 + w2x2 + w0x0 = 0 + 0 + (-0.3) = -0.3
f(sum) = 0

์ถœ๋ ฅ๊ฐ’์ด ๋ชฉํ‘œ๊ฐ’๊ณผ ์ผ์น˜ํ•˜๋ฏ€๋กœ ๊ฐ€์ค‘์น˜๋ฅผ ์ˆ˜์ •ํ•˜์ง€ ์•Š๊ณ 
๋‘ ๋ฒˆ์งธ ํ•™์Šต ๋ฒกํ„ฐ(0,1,0)์— ๋Œ€ํ•œ ์ถœ๋ ฅ๊ฐ’์„ ๊ณ„์‚ฐํ•œ๋‹ค.
์ด๋ ‡๊ฒŒ ์ถœ๋ ฅ๊ฐ’๊ณผ ๋ชฉํ‘œ๊ฐ’์ด ๊ฐ™์€์ง€ ํŒ๋‹จํ•˜๊ธฐ ์œ„ํ•ด ์ถœ๋ ฅ๊ฐ’์„ ๊ณ„์‚ฐํ•  ๋•Œ ์‚ฌ์šฉ๋œ๋‹ค.
์ถœ๋ ฅ๊ฐ’์ด ๋ชฉํ‘œ๊ฐ’๊ณผ ๋‹ค๋ฅผ ๋•Œ์—๋Š”, ๊ฐ€์ค‘์น˜ ์กฐ์ ˆ ์‹์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ€์ค‘์น˜๋ฅผ ์ˆ˜์ •ํ•œ๋‹ค.



๊ณผ์ œ

Hidden layer์—์„œ ์‚ฌ์šฉ๋˜๋Š” Activation Functions

  • ๊ฐ ์ธต์˜ ๋‰ด๋Ÿฐ์—์„œ ์‹ ํ˜ธ๋ฅผ ์ „๋‹ฌํ•  ๋•Œ, ๊ฐ€์ค‘์น˜์™€ ์ž…๋ ฅ์„ ๊ณฑํ•œ ๊ฐ’๋“ค์˜ ์ด ํ•ฉ์„ ์ด์šฉํ•ด์„œ ์–ด๋– ํ•œ ๊ฐ’์„ ๋‹ค์Œ ์ธต์œผ๋กœ ๋ณด๋‚ผ์ง€๋Š”
    ๊ณ„๋‹จ ํ•จ์ˆ˜, ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜, ReLU ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.
  • ๋งˆ์ง€๋ง‰ ์ธต์ธ ์ถœ๋ ฅ์ธต์—๋Š” ์†Œํ”„ํŠธ๋งฅ์Šค ํ•จ์ˆ˜์™€ ํ•ญ๋“ฑ ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

ํšŒ๊ท€์™€ ๋ถ„๋ฅ˜ ๋ฌธ์ œ

  • ํšŒ๊ท€ ๋ฌธ์ œ : ์—ฐ์†์ ์ธ ์ˆ˜์น˜๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๋ฌธ์ œ (ex : ํ‚ค ์˜ˆ์ธก : 168cm ์ •๋„)
  • ๋ถ„๋ฅ˜ ๋ฌธ์ œ : ๋ฐ์ดํ„ฐ๊ฐ€ ์–ด๋Š ํด๋ž˜์Šค์— ์†ํ•˜๋Š”์ง€์— ๋Œ€ํ•œ ๋ฌธ์ œ (ex : ์‚ฌ๋žŒ์ธ์ง€ ๋™๋ฌผ์ธ์ง€)

์ถœ๋ ฅ์ธต์—์„œ ์ž์ฃผ ์‚ฌ์šฉ๋˜๋Š” ํ™œ์„ฑํ™” ํ•จ์ˆ˜์˜ ์ข…๋ฅ˜

  • ํ•ญ๋“ฑ ํ•จ์ˆ˜ identify function : ์ž…๋ ฅ์„ ๊ทธ๋Œ€๋กœ ์ถœ๋ ฅ. ์ž…๋ ฅ์‹ ํ˜ธ = ์ถœ๋ ฅ์‹ ํ˜ธ
    • ์ผ๋ฐ˜์ ์œผ๋กœ ํšŒ๊ท€์— ํ•ญ๋“ฑ ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.
  • ์†Œํ”„ํŠธ๋งฅ์Šค ํ•จ์ˆ˜ softmax function : ์–ด๋–ค 'ํด๋ž˜์Šค'๋กœ ์†ํ•  ํ™•๋ฅ ์ด ์–ผ๋งˆ์ธ๊ฐ€๋ฅผ ๋‚˜ํƒ€๋‚ด ์คŒ
    • ์ผ๋ฐ˜์ ์œผ๋กœ ๋ถ„๋ฅ˜์— ์†Œํ”„ํŠธ๋งฅ์Šค ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.
    • ๊ฑฐ์˜ ์ถœ๋ ฅ์ธต์— ์‚ฌ์šฉํ•œ๋‹ค.

์€๋‹‰์ธต์—์„œ ์ž์ฃผ ์‚ฌ์šฉ๋˜๋Š” ํ™œ์„ฑํ™” ํ•จ์ˆ˜์˜ ์ข…๋ฅ˜

๊ณ„๋‹จ ํ•จ์ˆ˜, ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜, ReLU ํ•จ์ˆ˜ ... ์—„์ฒญ ๋งŽ๋‹ค! ๊ทธ๋Ÿฌ๋‚˜ ์•„๋ฌด๊ฑฐ๋‚˜ ๊ณจ๋ผ ์“ฐ๋ฉด ๋˜๋Š” ๊ฑด ์•„๋‹ˆ๋‹ค.

์‚ฌ์šฉํ•  ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์„ ํƒํ•  ๋•Œ์—๋Š” ํ’€๊ณ ์ž ํ•˜๋Š” ๋ฌธ์ œ์˜ ์ข…๋ฅ˜๋ฅผ ๊ณ ๋ คํ•ด์„œ ์„ ํƒํ•œ๋‹ค.

  • ReLU : ๋ณดํ†ต ์€๋‹‰์ธต์— ์‚ฌ์šฉ๋œ๋‹ค.
  • Sigmoid : ๋ชฉํ‘œ๊ฐ€ binary ํ•  ๋•Œ, ์ถœ๋ ฅ์ธต ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์€๋‹‰์ธต์—์„œ๋„ ์“ฐ์ธ๋‹ค.
    • ๊ทธ๋Ÿฌ๋‚˜ vanishing gradient ๋ฌธ์ œ, ์ค‘์‹ฌ๊ฐ’์ด 0์ด ์•„๋‹Œ ๋ฌธ์ œ๊ฐ€ ์กด์žฌํ•ด์„œ ์ ์ฐจ ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š” ์ถ”์„ธ...
  • Tanh : sigmoid์™€ ๋น„์Šทํ•˜๋‚˜ ๋ฒ”์œ„๊ฐ€ [-1,1]. ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ์ถœ๋ ฅ์ธต ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์€๋‹‰์ธต์—์„œ๋„ ์“ฐ์ธ๋‹ค.
    • ๊ทธ๋Ÿฌ๋‚˜ vanishing gradient ๋ฌธ์ œ๋Š” ์กด์žฌ

Sigmoid, ReLU ์˜ ์ˆ˜์‹ ๋ฐ ์˜์˜

sigmoid ํ•จ์ˆ˜์˜ ์ˆ˜์‹ ๋ฐ ์˜์˜

sigmoid

๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋ถ„์„

์„ ํ˜• ๋ฐฉ๋ฒ•์„ ์œ ์ง€ํ•˜๋ฉด์„œ ํ™•๋ฅ ์˜ ๊ณต๋ฆฌ์— ์–ด๊ธ‹๋‚˜์ง€ ์•Š๋Š” ๋ฐฉ๋ฒ• ์ค‘ ๊ฐ€์žฅ ๋ณดํŽธ์ ์ธ ๊ฒƒ -> ๋กœ์ง€์Šคํ‹ฑ ํ•จ์ˆ˜๋ฅผ ์—ฐ๊ฒฐํ•จ์ˆ˜๋กœ ์‚ฌ์šฉํ•œ ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋ถ„์„

๋กœ์ง€์Šคํ‹ฑ ํ•จ์ˆ˜๊ฐ€ sigmoid fuction!

-> sigmoid ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ,
์„ ํ˜•์ด๋ผ๋Š” ์ง๊ด€์ ์ธ ์„ฑ์งˆ์„ ๋„๋ฉด์„œ, ๊ฒฐ๊ณผ๊ฐ’์˜ ๋ฒ”์œ„๊ฐ€ 0~1๋กœ ์ œํ•œ๋˜์–ด ํ™•๋ฅ ๊ฐ’์˜ ์˜ˆ์ธก์— ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Œ.

์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์ž์„ธํ•œ ์ด์œ ๋Š” ์—ฌ๊ธฐ

ReLU ํ•จ์ˆ˜์˜ ์ˆ˜์‹ ๋ฐ ์˜์˜

f(x) = max(0,x)
f'(x) = 0 for x<0
	1 for x>=0
  • sigmoid์˜ vanishing gradient ๋ฌธ์ œ ํ•ด๊ฒฐ
  • ๋ฏธ๋ถ„ ํŽธ๋ฆฌ, ํ•™์Šต ์†๋„ ๋น ๋ฆ„ (์—ฐ์‚ฐ ๋ถ€๋‹ด ์ ์Œ)
  • ReLU ํ•จ์ˆ˜ ์„ค๋ช… ๋ถ€๋ถ„๊ณผ ๋งจ ๋ฐ‘์˜ ReLU์˜ ์žฅ์  ๋ถ€๋ถ„ ์ฐธ๊ณ ...

Sigmoid์˜ ๋‹จ์ 

vanishing gradient problem

  • ์ธ๊ณต์‹ ๊ฒฝ๋ง์„ gradient ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ• (ex : ์—ญ์ „ํŒŒ ์•Œ๊ณ ๋ฆฌ์ฆ˜)์œผ๋กœ ํ•™์Šต์‹œํ‚ฌ ๋•Œ ์ผ์–ด๋‚˜๋Š” ๋ฌธ์ œ.

  • ๋„คํŠธ์›Œํฌ์˜ ์ดˆ๊ธฐ layer๋“ค์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค์„ ์กฐ์ •ํ•˜๊ณ  ํ•™์Šตํ•˜๊ธฐ ํž˜๋“ค๊ฒŒ ๋งŒ๋“ ๋‹ค.

  • ์ธต์ด ๊นŠ์–ด์งˆ์ˆ˜๋ก ์•…ํ™”๋œ๋‹ค.

  • ๊ธฐ์šธ๊ธฐ ๊ธฐ๋ฐ˜ ํ•™์Šต๋ฒ•์˜ ํŠน์ง•

    • ๊ทธ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๊ฐ’์ด ์–ผ๋งˆ๋‚˜ ํฌ๊ฒŒ ๋„คํŠธ์›Œํฌ์˜ ์ถœ๋ ฅ์— ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”์ง€์— ๊ธฐ๋ฐ˜ํ•ด์„œ ํ•™์Šตํ•œ๋‹ค.
      • ํŠน์ • ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๊ฐ’์˜ ๋ณ€ํ™”๊ฐ€ ๊ฒฐ๊ณผ์— ๋ฏธ์น˜๋Š” ๋ณ€ํ™”๊ฐ€ ๋งค์šฐ ์ž‘๋‹ค๋ฉด ? --> ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜
      • = ์ดˆ๊ธฐ ์ธต์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค์ด ์•„์ฃผ ๋งŽ์ด ๋ณ€ํ•ด๋„ ๊ฒฐ๊ณผ ๊ฐ’์— ๋ณ„ ์˜ํ–ฅ์„ ์ฃผ์ง€ ์•Š๋Š”๋‹ค๋Š” ๊ฒƒ.
  • ์›์ธ

    • ์ž…๋ ฅ๊ฐ’์„ ์•„์ฃผ ์ž‘์€ ๋ฒ”์œ„์— ๋น„์„ ํ˜•์ ์œผ๋กœ '์šฐ๊ฒจ๋„ฃ๋Š”๋‹ค'.
      • ex) ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜ : ์‹ค์ˆ˜๋ฅผ ์ž‘์€ ๋ฒ”์œ„์ธ [0,1]์— ์šฐ๊ฒจ๋„ฃ๋Š”๋‹ค.
    • ์ž…๋ ฅ์˜ ํฐ ๋ณ€ํ™”๊ฐ€ ์ถœ๋ ฅ์˜ ์ž‘์€ ๋ณ€ํ™”๋ฐ–์— ๋งŒ๋“ค์ง€ ๋ชปํ•œ๋‹ค. = ๊ธฐ์šธ๊ธฐ๊ฐ€ ์ž‘๋‹ค.
    • ์—ฌ๋Ÿฌ ์ธต์„ ์ด๋Ÿฌํ•œ ๋น„์„ ํ˜• ํ•จ์ˆ˜๋“ค๋กœ ์Œ“์•„ ์˜ฌ๋ฆด์ˆ˜๋ก ๋ฌธ์ œ๋Š” ์•…ํ™”๋œ๋‹ค.
      • ๊ฐ ์˜์—ญ์„ ๊ฑฐ์น˜๋ฉด์„œ ํฐ ์ž…๋ ฅ ์˜์—ญ์„ ์ž‘์€ ์˜์—ญ์œผ๋กœ ๋ณด๋‚ผ ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์— ๊ฒฐ๊ณผ์ ์œผ๋กœ ์ฒซ๋ฒˆ์งธ ์˜์—ญ์˜ ์ปค๋‹ค๋ž€ ๋ณ€ํ™”๊ฐ€ ๊ฒฐ๊ณผ๊ฐ’์— ์ œ๋Œ€๋กœ ์˜ํ–ฅ์„ ๋ฏธ์น˜์ง€ ๋ชป ํ•˜๊ฒŒ ๋œ๋‹ค.
  • ํ•ด๊ฒฐ

    • '์šฐ๊ฒจ๋„ฃ์ง€' ์•Š๋Š” ํ•จ์ˆ˜๋ฅผ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋กœ ์„ ํƒํ•˜๋ฉด ๋œ๋‹ค.
    • ReLU๊ฐ€ ๋Œ€ํ‘œ์ ์ธ ํ•ด๊ฒฐ์ฑ…์ด๋‹ค.

ReLU์˜ ์žฅ์ 

  • ๋ฒ”์œ„๊ฐ€ ๋ฌดํ•œ๋Œ€์ด๋‹ค.
  • ํŒจํ„ด ํ‘œํ˜„๋“ค์ด ๋Œ€๋ถ€๋ถ„์˜ ๊ฐ€์ค‘์น˜์— ์ƒ๋‹นํ•œ ์˜ํ–ฅ์„ ์ค€๋‹ค.
    • ๊ทธ๋ž˜์„œ, ํ›ˆ๋ จ์ด ๋๋‚˜๊ฐˆ์ˆ˜๋ก ํ•™์Šต ์†๋„๋ฅผ ์ž‘๊ฒŒ ์กฐ์ ˆํ•˜๋Š” ๊ฒƒ์ด ์ข‹๋‹ค. ReLU์˜ ์„ ํ˜•์„ฑ๊ณผ, ํฌํ™”๋˜์ง€ ์•Š๋Š” ํ˜•ํƒœ ๋•Œ๋ฌธ!
  • ์„ ํ˜•์ด๊ณ , saturate problem์ด ์—†์–ด์„œ sigmoid, tanh ๋ณด๋‹ค ์ˆ˜๋ ดconverge ์†๋„๊ฐ€ ๋น ๋ฅด๋‹ค.
  • x๊ฐ’์ด 0์„ ๊ธฐ์ค€์œผ๋กœ ์„ ํ˜•๋ฐœํ˜„/๋ฏธ๋ฐœํ˜„์ด๋ผ๋Š” ๊ฐ„๋‹จํ•œ ํ˜•ํƒœ
    • ์—ฐ์‚ฐ๋Ÿ‰์ด ๋งŽ์€ exponential์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์•„์„œ ์—ฐ์‚ฐ ๋ถ€๋‹ด์ด ์ ๋‹ค.