- ๋ด๋ด ๋คํธ์ํฌ์ ๊ฐ๋ณ ๋ด๋ฐ์ ๋ค์ด์ค๋ ์
๋ ฅ์ ํธ์ ์ดํฉ x1w1 + x2w2 + b
๋ฅผ ์ถ๋ ฅ ์ ํธ(y)๋ก ๋ณํํ๊ณ (๊ทธ๋๋ก ์ฌ์ฉ X),
๊ทธ ๊ฐ์ ๋ฐ๋ผ ์ ํธ ์ ๋ฌ์ ํ์ฑํํ ์ง ๋ง์ง(z)๋ฅผ ๊ฒฐ์ ํ๋ ํจ์.
- ๊ฐ์ค์น๊ฐ ๊ณฑํด์ง ์
๋ ฅ ์ ํธ์ ํธํฅ์ ์ดํฉ์ ๊ณ์ฐํ๋ค.
a = x1w1 + x2w2 + b - a๋ฅผ ํ์ฑํ ํจ์์ธ h()์ ๋ฃ๊ณ ์ถ๋ ฅ ์ ํธ(y)๋ฅผ ์ถ๋ ฅํ๋ค.
y = h(a)
h(a)=cx
-
๋ด๋ด ๋คํธ์ํฌ ์ด๊ธฐ์๋ ์ ํํจ์๋ฅผ ํ์ฑํ ํจ์๋ก ์ฌ์ฉํ๋ค.
-
์์ฆ์๋ ๋น์ ํ ํจ์๋ฅผ ํ์ฑํ ํจ์๋ก ์ฌ์ฉํ๋๋ฐ, ์ ํํจ์๋ฅผ ์ฌ์ฉํ๋ฉด ์ ๊ฒฝ๋ง์์ ์ธต์ ์ด๋ฃจ๋ ์๋ฏธ๊ฐ ์ฌ๋ผ์ง๊ธฐ ๋๋ฌธ์ด๋ค.
- ex) ์ ํํจ์์ธ h(x)=cx๋ฅผ ํ์ฑํํจ์๋ก ์ฌ์ฉํ 3์ธต ๋คํธ์ํฌ ์ด 3์ธต ๋คํธ์ํฌ๋ฅผ ์์ผ๋ก ๋ํ๋ด๋ฉด y(x)=h(h(h(x)))๊ฐ ๋๋๋ฐ, ์ด ์์ ์ ๊ฐํด๋ณด๋ฉด y(x)=c3x ๊ฐ ๋์ด์, y(x)=ax์ ๋๊ฐ์ ์์ด ๋๋ค. (a = c3์ผ๋ก ์ค์ ํด์ฃผ๋ฉด)
์ฆ, ์๋์ธต์ด ์๋ ๋คํธ์ํฌ๊ฐ ๋๋ค.
- ์ ํ ์์คํ ์ ๋ง์ ์ ์ฉ์, ๋ง์ด ๊น์ด์ง์ง ์๋๋ค.
- ์๋ฌด๋ฆฌ ๋ง์ด ๊น์ด์ง๋๋ผ๋ 1์ธต์ ์๋์ธต์ผ๋ก ๊ตฌํ์ด ๊ฐ๋ฅํ ๊ฒ! ๋ด๋ด ๋คํธ์ํฌ์์ ์ธต์ ์์ผ๋ ค๋ฉด, ํ์ฑํํจ์๋ก๋ ๋น์ ํ ํจ์๋ฅผ ์ฌ์ฉํด์ผ ํ๋ค.
๋น์ ํ ํจ์ : ์ง์ 1๊ฐ๋ก ํํ์ด ๋์ง ์๋ ํจ์
a = x1w1 + x2w2 + b y = h(a) h(a) = 0 (a<=ฮ),1 (a>ฮ)
- ๊ทธ ์ดํ์๋ ์๊ณ๊ฐ(ฮ)์ ๊ฒฝ๊ณ๋ก ์ถ๋ ฅ์ด ๋ฐ๋๋ step function์ ์ฌ์ฉํ๋ค.
- ํ์ง๋ง, step function์ ๋ฏธ๋ถ์ด ๋ถ๊ฐ๋ฅํ๋ค.
- gradient descent๋ฅผ ํตํ ํ๋ จ์ด ๋ถ๊ฐ๋ฅ ํ๋ค.
gradient descent(๊ธฐ์ธ๊ธฐ ํ๊ฐ) ํ์ฌ์ ์์น์์ ๊ธฐ์ธ๊ธฐ์ ๋น๋กํ์ฌ ๋จ๊ณ์ ์ผ๋ก ํจ์์ ์ต์ ๋๋ ์ต๋์ ์ ๊ทผํ๋ ์ ๊ทผ์ ์ธ ์ธ๋ ์ค๋ฅด๊ธฐ (hill climbing) ์๊ณ ๋ฆฌ์ฆ. ์ฝ๋ ๊ตฌํ์ ์ฌ๊ธฐ
- ์ถ๋ ฅ์ธต์ ๊ตฌ์ฑํ๋ ๋ด๋ฐ์ ์๋ฅผ ์๋ฌด๋ฆฌ ํฌ๊ฒ ํ์ฌ๋ ๋ ๊ฐ์ง ํจํด์ผ๋ก๋ฐ์ ๊ตฌ๋ถํ์ง ๋ชปํ๋ค.
- 0 ๋๋ 1๋ง ์ถ๋ ฅํ ์ ์๋ ๊ณ๋จ ํจ์์ ๋ฌ๋ฆฌ, [0,1] ๋ฒ์์ float๋ฅผ ํํํ ์ ์๋ค.
- ๋ก์ง์คํฑ ํ๊ท ๋ถ์์ ์ฌ์ฉ๋๋ค.
- ์ ํ์ ๋ฒ์ [0,1]๋ก ํธ๋ ์ด๋์ด ์์ ์ ์ด๋ค.
- ๋งจ ๋ ๊ฐ์ ๊ฒฝ์ฐ์๋ ๊ธฐ์ธ๊ธฐ๊ฐ ๋งค์ฐ ์๋ค.
- ์ด๋ค ๋ถ๋ถ์ X์ ์์ ๋ณํ๊ฐ Y์ ๊ฐ์ ํฐ ๋ณํ๋ฅผ ์ผ๊ธฐ์ํจ๋ค. ์ด๋ค ๋ถ๋ถ์ ๊ทธ ๋ฐ๋...
- ์ฆ, Y๊ฐ์ ์๊ทธ๋ชจ์ด๋ ํจ์์ ์์ชฝ ๋์ผ๋ก ํฅํ๊ฒ ํ๋ค.
- ์์ชฝ ๋ ์ง์ญ์์์ ์๊ทธ๋ชจ์ด๋ ํจ์์ ๊ธฐ์ธ๊ธฐ๋ ๋งค์ฐ ์์์, ๊ฑฐ์ 0์ ๊ฐ๊น๋ค.
- vanishing gradient
- ์ ๊ฒฝ๋ง์ ์๋์ธต์ด ๋ง์์ง์๋ก ์ญ์ ํ์ ์ํ ๊ฐ์ค์น ๋ณด์ ์ ์๋ฏธ๊ฐ ์์ด์ง๋ ๋ฌธ์ .
- ์๋์ ์์ธํ ์ค๋ช ์!
- Y๊ฐ์ด 0์์ ์ค๊ฐ๊ฐ์ด ์๋๋ค.
- ํญ์ ์์์ ๊ฐ์ ๋ฐํํ๋ค.
- ํ๋ จ ์ด๊ธฐ์ ์ ๋ ฅ๊ฐ์ด ํจ์์ ์์ชฝ ๋์ ์ง์ค๋๋ ๊ฒฝํฅ์ด ์๊ณ , ๊ธฐ์ธ๊ธฐ๊ฐ ์์ ์ ์๋ค.
- ์ด๊ธฐ ๋๋ค ๊ฐ์ค์น๊ฐ๋ค์ ๊ท ํ์ด ๋ง๊ธฐ๊น์ง ์๊ฐ์ด ๊ฑธ๋ฆฌ๋ ์์ธ์ด ๋๋ค.
0,1์ฌ์ด์ ๊ฐ์ ๋ค์ ์ธต์ ์ ๋ฌํด์ค. ์ค์ฒฉ์ด ๋๋ฉด ์ ํ์ ํํ๋ฅผ ๋๊ฒ ๋๋ค !!! -1~1 ๋ถ๋ถ์ ๋ณด๋ฉด ์ ํ์ ๊ทธ๋ํ๋ฅผ ๋๋ค... ๊ธฐ์ธ๊ธฐ๊ฐ ๊ณ ์ ๋๋ค.
- ์๊ณกํ์ ํธ ํจ์.
- ์ถ๋ ฅ๊ฐ์ด [-1,1]๋ก, sigmoid์ ๋ฒ์๋ฅผ ์ด์ง ํ์ฅ์ํจ๋ค.
- activations ๊ฐ saturate, ํฌํ์ํ์ด๋ค. (sigmoid์ ๋์ผ)
- ์ถ๋ ฅ๊ฐ์ด 0์์ ์ค๊ฐ๊ฐ์ด๋ค.
- sigmoid ํจ์๋ณด๋ค ๋ ๊ฐํ๋ฅธ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ฐ์ง๋ค
- sigmoid ํจ์๋ณด๋ค ๋น ๋ฅธ ํ์ต์ ์ํด ์ฌ์ฉ๋๋ค.
ocr์ ๋ง์ด ์ฐ์. ๋ฌธ์์ธ์์ ๋ ๋ฃจ๋ณด๋ค ๋ง์ด ์. -1 ์ด๋ผ๋ ๊ฐ์ด ๋์จ๋ค๋ ํน์ฑ ๋๋ฌธ. ๋ฅ๋ด๋ฐ / cnn / rnn 3๊ฐ์ง๊ฐ ์๋๋ฐ ์ฐ๋ฆฌ๊ฐ ๊ณ์ ์ ํด์จ๊ฑด dnn. ๊ทธ๋ค์์ cnn. ๊ทธ๋ค์์ rnn. ํผ์ ํธ๋ก ๋ค์ด ์ฐ๊ฒฐ๋์ด์๋ ๊ตฌ์กฐ ์์ฒด๊ฐ ๋ค๋ฅด๋ค.
-
x๊ฐ ์์์ด๊ธฐ๋ง ํ๋ฉด ๊ธฐ์ธ๊ธฐ๊ฐ 1๋ก ์ผ์ ํ๋ฏ๋ก ๊ธฐ์ธ๊ธฐ๊ฐ ์ฃฝ๋ ํ์์ ํผํ ์ ์๋ค.
-
๋ฏธ๋ถ์ด ํธ๋ฆฌํ๊ณ , ๊ณ์ฐ๋ณต์ก๋๊ฐ ๋ฎ๋ค.
-
sigmoid, hyperbolic tangent ๋ณด๋ค ํ์ต์๋ ด ์๋๊ฐ 6๋ฐฐ๋ ๋น ๋ฅด๋ค
-
0์ ๊ธฐ์ค์ผ๋ก ๋์นญ์ธ ๋ชจ์์ ์๋
-
๋ฒ์๊ฐ ์ ํํ์ง ์๋ค. [0,inf)๋ผ์ ๋น์์ ํ๋ training ์ด๋ผ๊ณ ํ๋ค.
inf : infinite
- ๋ฌดํ์ ๋ฒ์๊ฐ ๋จ์ ์ด ๋ ์๋ ์์ง๋ง, ํ์ต ์๋ ด์ ๊ฐ์ํํ๋ค๋ ์ ์์ ์ฅ์ ์ผ๋ก ์์ฉ ํ ์๋ ์๋ค.
- x๊ฐ ์์์ด๋ฉด ๊ธฐ์ธ๊ธฐ๊ฐ ๋ฌด์กฐ๊ฑด 0์ด ๋๋ค --> ๊ธฐ์ธ๊ธฐ๊ฐ ์ฃฝ๋๋ค!
- normalized ๋ ๊ฐ์ค์น๋ค์ ๊ฐ์ง ์ ๋ ฅ๊ฐ๋ค์, 50%๋ 0์ผ๋ก ํ์ฑํ ๋ ๊ฒ์ด๋ค.
- 0์ด ๋๋ฉด ๊ทธ ๋ฐ์ดํฐ๋ค์ ๋ค์ ํ์ฑํ๋ ์ผ์ด ์๊ฒ ๋๊ณ , ๋ฐ์ดํฐ๋ค์ capacity๋ฅผ ๋ญ๋นํ๋ ๊ฒ์ด ๋๋ค.
- ReLU์ dying ReLU ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋์จ ๊ฒ.
- ์์ ๋ถ๋ถ์ ์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๋์ ํด์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ค.
f(x) = ฮฑx for x<0
x for x>=0
f'(x) = ฮฑ for x<0
1 for x>=0
- ๋ ๋ณํ๋ ํํ๋ก randomized Leaky ReLU ํจ์๋ ์๋ค.
n : ์ถ๋ ฅ์ธต์ ๋ด๋ฐ ์ yk : k๋ฒ์งธ ๋ด๋ฐ์ ์ถ๋ ฅ์ ํธ a : k๋ฒ์งธ ๋ด๋ฐ์ ์ ๋ ฅ์ ํธ
exp(x) --> ex ์ ๊ฐ ๋ฐํ
- ์ถ๋ ฅ์ธต์์ ์ฌ์ฉํ๋ ํจ์
- ๋ค๋ฒ์ฃผ ๋ถ๋ฅ multinomial classification ๋ฅผ ํ๊ธฐ ์ํด ์ฌ์ฉ
- ์ ๋ ฅ๋ฐ์ ๊ฐ์ 0~1์ฌ์ด์ ๊ฐ์ผ๋ก ๋ชจ๋ ์ ๊ทํํ๋ฉฐ ์ถ๋ ฅ ๊ฐ๋ค์ ์ดํฉ์ ํญ์ 1์ด ๋๋ ํน์ฑ -> ํ๋ฅ ๊ฐ๋ ! (์์์๋ ๋ณผ ์ ์๋ฏ, ๋ถ๋ชจ๋ ๋ถ์์ ์ดํฉ๊ณผ ๊ฐ๋ค)
- ์ด๋ค ํด๋์ค์ ์ํ ํ๋ฅ ์ด ์ผ๋ง์ธ์ง๋ฅผ ๋ํ๋ด์ฃผ๋ ๊ฒ์ด ์ํํธ๋งฅ์ค ํจ์์ ์ถ๋ ฅ
- ์ง์ ํจ์๊ฐ ํฌํจ๋์ด ์์ด์ ํ๋ก๊ทธ๋๋ฐ ์ธ์ด๋ก ๊ตฌํ ์ ์ค๋ฒํ๋ก์ฐ๊ฐ ๋ฐ์ํ ์ ์๋ค. ์๋์ ๋ฐฉ๋ฒ์ผ๋ก ๊ฐ์ ์ด ๊ฐ๋ฅํ๋ค.
C๋ ์ํฉ์ ๋ฐ๋ผ ์์ ๊ฐ์ผ๋ก ๋ณ๊ฒฝ ๊ฐ๋ฅ C'๋ฅผ ์์๋ก ์ค์ ํ๊ธฐ๋ ํจ(C๋ฅผ ๋ถ์๋ก ์ค์ ํ๋ ๊ฒ. 0.01๊ฐ์, ๊ทธ๋ฌ๋ฉด C'๊ฐ ์์๊ฐ ๋๋ค). ๋๊ฐ์ C'๋ฅผ ๋นผ๋ ๋๊ฐ์ผ๋๊น....exp(x) ๊ฐ์ ์ ์ด์ ์ค์ด๋ ๊ฒ. C์ ๋ชฉ์ : ์ ์๋ ๊ฐ์ ์ค์ฌ์ ์ค๋ฒํ๋ก์ฐ๋ฅผ ์๋๊ฒ ํ๊ฒ ๋ค !
๋ ์์ ๋ฅผ ํตํด ์ดํด๋ณผ ๊ฒ!
N : ์ ๋ ฅ ๋ฒกํฐ์ ํฌ๊ธฐ
๊ฐ๋จํ ๊ณ๋จํจ์๋ฅผ ํ์ฑํจ์๋ก ์ฌ์ฉํด๋ณด์!
f(sum) = 0 for sum < thresold
1 for sum >= thresold
ฮท = ํ์ต๋ฅ T = ๋ชฉํ๊ฐ
์ถ๋ ฅ์ธต ๋ด๋ฐ์ ์ถ๋ ฅ๊ฐ๊ณผ ๋ชฉํ๊ฐ์ ์ฐจ์ด๊ฐ ํ์ฉ ์ค์ฐจ๋ณด๋ค ํฌ๋ฉด ์ถ๋ ฅ์ธต ๋ด๋ฐ์ ๊ฐ์ค์น๋ฅผ ์กฐ์ ํด์ผ ํ๋ค.
์ ์์ ์ด์ฉํด์ ๊ฐ์ค์น๋ฅผ ์กฐ์ ํ๋ค.
์์ ๊ฐ์ ํผ์
ํธ๋ก ์ ๊ตฌ์กฐ๋ก AND ์ฐ์ฐ์ ํ์ตํ๊ณ ,
ํ์ต๋ฅ ฮท๋ฅผ 0.05๋ก ์ค์ ํ๋ค.
x1 | x2 | T |
---|---|---|
0 | 0 | 0 |
0 | 1 | 0 |
1 | 0 | 0 |
1 | 1 | 1 |
๊ฐ์ค์น์ ํธํฅ์ ๊ฐ์ค์น๋ฅผ -0.5์ 0.5 ์ฌ์ด ์์์ ๊ฐ์ผ๋ก, ํธํฅ์ ์ ๋ ฅ๊ฐ์ -1๋ก ์ด๊ธฐํํ๋ค.
w0 = 0.3 w1 = 0.4 w2 = 0.1 x0 = b = -1
์ฒซ๋ฒ์จฐ ํ์ต ๋ฒกํฐ (0,0,0) ์ ๋ํ ์ถ๋ ฅ๊ฐ์ ๊ณ์ฐํ๋ค.
x1 = 0
x2 = 0
sum = w1x1 + w2x2 + w0x0 = 0 + 0 + (-0.3) = -0.3
f(sum) = 0
์ถ๋ ฅ๊ฐ์ด ๋ชฉํ๊ฐ๊ณผ ์ผ์นํ๋ฏ๋ก ๊ฐ์ค์น๋ฅผ ์์ ํ์ง ์๊ณ
๋ ๋ฒ์งธ ํ์ต ๋ฒกํฐ(0,1,0)์ ๋ํ ์ถ๋ ฅ๊ฐ์ ๊ณ์ฐํ๋ค.
์ด๋ ๊ฒ ์ถ๋ ฅ๊ฐ๊ณผ ๋ชฉํ๊ฐ์ด ๊ฐ์์ง ํ๋จํ๊ธฐ ์ํด ์ถ๋ ฅ๊ฐ์ ๊ณ์ฐํ ๋ ์ฌ์ฉ๋๋ค.
์ถ๋ ฅ๊ฐ์ด ๋ชฉํ๊ฐ๊ณผ ๋ค๋ฅผ ๋์๋, ๊ฐ์ค์น ์กฐ์ ์์ ์ฌ์ฉํ์ฌ ๊ฐ์ค์น๋ฅผ ์์ ํ๋ค.
Hidden layer์์ ์ฌ์ฉ๋๋ Activation Functions
- ๊ฐ ์ธต์ ๋ด๋ฐ์์ ์ ํธ๋ฅผ ์ ๋ฌํ ๋, ๊ฐ์ค์น์ ์
๋ ฅ์ ๊ณฑํ ๊ฐ๋ค์ ์ด ํฉ์ ์ด์ฉํด์ ์ด๋ ํ ๊ฐ์ ๋ค์ ์ธต์ผ๋ก ๋ณด๋ผ์ง๋
๊ณ๋จ ํจ์, ์๊ทธ๋ชจ์ด๋ ํจ์, ReLU ํจ์๋ฅผ ์ฌ์ฉํ๋ค. - ๋ง์ง๋ง ์ธต์ธ ์ถ๋ ฅ์ธต์๋ ์ํํธ๋งฅ์ค ํจ์์ ํญ๋ฑ ํจ์๋ฅผ ์ฌ์ฉํ๋ค.
- ํ๊ท ๋ฌธ์ : ์ฐ์์ ์ธ ์์น๋ฅผ ์์ธกํ๋ ๋ฌธ์ (ex : ํค ์์ธก : 168cm ์ ๋)
- ๋ถ๋ฅ ๋ฌธ์ : ๋ฐ์ดํฐ๊ฐ ์ด๋ ํด๋์ค์ ์ํ๋์ง์ ๋ํ ๋ฌธ์ (ex : ์ฌ๋์ธ์ง ๋๋ฌผ์ธ์ง)
- ํญ๋ฑ ํจ์ identify function : ์
๋ ฅ์ ๊ทธ๋๋ก ์ถ๋ ฅ. ์
๋ ฅ์ ํธ = ์ถ๋ ฅ์ ํธ
- ์ผ๋ฐ์ ์ผ๋ก ํ๊ท์ ํญ๋ฑ ํจ์๋ฅผ ์ฌ์ฉํ๋ค.
- ์ํํธ๋งฅ์ค ํจ์ softmax function : ์ด๋ค 'ํด๋์ค'๋ก ์ํ ํ๋ฅ ์ด ์ผ๋ง์ธ๊ฐ๋ฅผ ๋ํ๋ด ์ค
- ์ผ๋ฐ์ ์ผ๋ก ๋ถ๋ฅ์ ์ํํธ๋งฅ์ค ํจ์๋ฅผ ์ฌ์ฉํ๋ค.
- ๊ฑฐ์ ์ถ๋ ฅ์ธต์ ์ฌ์ฉํ๋ค.
๊ณ๋จ ํจ์, ์๊ทธ๋ชจ์ด๋ ํจ์, ReLU ํจ์ ... ์์ฒญ ๋ง๋ค! ๊ทธ๋ฌ๋ ์๋ฌด๊ฑฐ๋ ๊ณจ๋ผ ์ฐ๋ฉด ๋๋ ๊ฑด ์๋๋ค.
์ฌ์ฉํ ํ์ฑํ ํจ์๋ฅผ ์ ํํ ๋์๋ ํ๊ณ ์ ํ๋ ๋ฌธ์ ์ ์ข ๋ฅ๋ฅผ ๊ณ ๋ คํด์ ์ ํํ๋ค.
- ReLU : ๋ณดํต ์๋์ธต์ ์ฌ์ฉ๋๋ค.
- Sigmoid : ๋ชฉํ๊ฐ binary ํ ๋, ์ถ๋ ฅ์ธต ๋ฟ๋ง ์๋๋ผ ์๋์ธต์์๋ ์ฐ์ธ๋ค.
- ๊ทธ๋ฌ๋ vanishing gradient ๋ฌธ์ , ์ค์ฌ๊ฐ์ด 0์ด ์๋ ๋ฌธ์ ๊ฐ ์กด์ฌํด์ ์ ์ฐจ ์ฌ์ฉํ์ง ์๋ ์ถ์ธ...
- Tanh : sigmoid์ ๋น์ทํ๋ ๋ฒ์๊ฐ [-1,1]. ๋ง์ฐฌ๊ฐ์ง๋ก ์ถ๋ ฅ์ธต ๋ฟ๋ง ์๋๋ผ ์๋์ธต์์๋ ์ฐ์ธ๋ค.
- ๊ทธ๋ฌ๋ vanishing gradient ๋ฌธ์ ๋ ์กด์ฌ
์ ํ ๋ฐฉ๋ฒ์ ์ ์งํ๋ฉด์ ํ๋ฅ ์ ๊ณต๋ฆฌ์ ์ด๊ธ๋์ง ์๋ ๋ฐฉ๋ฒ ์ค ๊ฐ์ฅ ๋ณดํธ์ ์ธ ๊ฒ -> ๋ก์ง์คํฑ ํจ์๋ฅผ ์ฐ๊ฒฐํจ์๋ก ์ฌ์ฉํ ๋ก์ง์คํฑ ํ๊ท๋ถ์
๋ก์ง์คํฑ ํจ์๊ฐ sigmoid fuction!
-> sigmoid ํจ์๋ฅผ ์ฌ์ฉํจ์ผ๋ก์จ,
์ ํ์ด๋ผ๋ ์ง๊ด์ ์ธ ์ฑ์ง์ ๋๋ฉด์, ๊ฒฐ๊ณผ๊ฐ์ ๋ฒ์๊ฐ 0~1๋ก ์ ํ๋์ด ํ๋ฅ ๊ฐ์ ์์ธก์ ์ฌ์ฉํ ์ ์์.
์๊ทธ๋ชจ์ด๋ ํจ์๋ฅผ ์ฌ์ฉํ๋ ์์ธํ ์ด์ ๋ ์ฌ๊ธฐ
f(x) = max(0,x)
f'(x) = 0 for x<0
1 for x>=0
- sigmoid์ vanishing gradient ๋ฌธ์ ํด๊ฒฐ
- ๋ฏธ๋ถ ํธ๋ฆฌ, ํ์ต ์๋ ๋น ๋ฆ (์ฐ์ฐ ๋ถ๋ด ์ ์)
- ReLU ํจ์ ์ค๋ช ๋ถ๋ถ๊ณผ ๋งจ ๋ฐ์ ReLU์ ์ฅ์ ๋ถ๋ถ ์ฐธ๊ณ ...
-
์ธ๊ณต์ ๊ฒฝ๋ง์ gradient ๊ธฐ๋ฐ ๋ฐฉ๋ฒ (ex : ์ญ์ ํ ์๊ณ ๋ฆฌ์ฆ)์ผ๋ก ํ์ต์ํฌ ๋ ์ผ์ด๋๋ ๋ฌธ์ .
-
๋คํธ์ํฌ์ ์ด๊ธฐ layer๋ค์ ํ๋ผ๋ฏธํฐ๋ค์ ์กฐ์ ํ๊ณ ํ์ตํ๊ธฐ ํ๋ค๊ฒ ๋ง๋ ๋ค.
-
์ธต์ด ๊น์ด์ง์๋ก ์ ํ๋๋ค.
-
๊ธฐ์ธ๊ธฐ ๊ธฐ๋ฐ ํ์ต๋ฒ์ ํน์ง
- ๊ทธ ํ๋ผ๋ฏธํฐ์ ๊ฐ์ด ์ผ๋ง๋ ํฌ๊ฒ ๋คํธ์ํฌ์ ์ถ๋ ฅ์ ์ํฅ์ ๋ฏธ์น๋์ง์ ๊ธฐ๋ฐํด์ ํ์ตํ๋ค.
- ํน์ ํ๋ผ๋ฏธํฐ์ ๊ฐ์ ๋ณํ๊ฐ ๊ฒฐ๊ณผ์ ๋ฏธ์น๋ ๋ณํ๊ฐ ๋งค์ฐ ์๋ค๋ฉด ? --> ์๊ทธ๋ชจ์ด๋ ํจ์
- = ์ด๊ธฐ ์ธต์ ํ๋ผ๋ฏธํฐ๋ค์ด ์์ฃผ ๋ง์ด ๋ณํด๋ ๊ฒฐ๊ณผ ๊ฐ์ ๋ณ ์ํฅ์ ์ฃผ์ง ์๋๋ค๋ ๊ฒ.
- ๊ทธ ํ๋ผ๋ฏธํฐ์ ๊ฐ์ด ์ผ๋ง๋ ํฌ๊ฒ ๋คํธ์ํฌ์ ์ถ๋ ฅ์ ์ํฅ์ ๋ฏธ์น๋์ง์ ๊ธฐ๋ฐํด์ ํ์ตํ๋ค.
-
์์ธ
- ์
๋ ฅ๊ฐ์ ์์ฃผ ์์ ๋ฒ์์ ๋น์ ํ์ ์ผ๋ก '์ฐ๊ฒจ๋ฃ๋๋ค'.
- ex) ์๊ทธ๋ชจ์ด๋ ํจ์ : ์ค์๋ฅผ ์์ ๋ฒ์์ธ [0,1]์ ์ฐ๊ฒจ๋ฃ๋๋ค.
- ์ ๋ ฅ์ ํฐ ๋ณํ๊ฐ ์ถ๋ ฅ์ ์์ ๋ณํ๋ฐ์ ๋ง๋ค์ง ๋ชปํ๋ค. = ๊ธฐ์ธ๊ธฐ๊ฐ ์๋ค.
- ์ฌ๋ฌ ์ธต์ ์ด๋ฌํ ๋น์ ํ ํจ์๋ค๋ก ์์ ์ฌ๋ฆด์๋ก ๋ฌธ์ ๋ ์
ํ๋๋ค.
- ๊ฐ ์์ญ์ ๊ฑฐ์น๋ฉด์ ํฐ ์ ๋ ฅ ์์ญ์ ์์ ์์ญ์ผ๋ก ๋ณด๋ผ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ ๊ฒฐ๊ณผ์ ์ผ๋ก ์ฒซ๋ฒ์งธ ์์ญ์ ์ปค๋ค๋ ๋ณํ๊ฐ ๊ฒฐ๊ณผ๊ฐ์ ์ ๋๋ก ์ํฅ์ ๋ฏธ์น์ง ๋ชป ํ๊ฒ ๋๋ค.
- ์
๋ ฅ๊ฐ์ ์์ฃผ ์์ ๋ฒ์์ ๋น์ ํ์ ์ผ๋ก '์ฐ๊ฒจ๋ฃ๋๋ค'.
-
ํด๊ฒฐ
- '์ฐ๊ฒจ๋ฃ์ง' ์๋ ํจ์๋ฅผ ํ์ฑํ ํจ์๋ก ์ ํํ๋ฉด ๋๋ค.
- ReLU๊ฐ ๋ํ์ ์ธ ํด๊ฒฐ์ฑ ์ด๋ค.
- ๋ฒ์๊ฐ ๋ฌดํ๋์ด๋ค.
- ํจํด ํํ๋ค์ด ๋๋ถ๋ถ์ ๊ฐ์ค์น์ ์๋นํ ์ํฅ์ ์ค๋ค.
- ๊ทธ๋์, ํ๋ จ์ด ๋๋๊ฐ์๋ก ํ์ต ์๋๋ฅผ ์๊ฒ ์กฐ์ ํ๋ ๊ฒ์ด ์ข๋ค. ReLU์ ์ ํ์ฑ๊ณผ, ํฌํ๋์ง ์๋ ํํ ๋๋ฌธ!
- ์ ํ์ด๊ณ , saturate problem์ด ์์ด์ sigmoid, tanh ๋ณด๋ค ์๋ ดconverge ์๋๊ฐ ๋น ๋ฅด๋ค.
- x๊ฐ์ด 0์ ๊ธฐ์ค์ผ๋ก ์ ํ๋ฐํ/๋ฏธ๋ฐํ์ด๋ผ๋ ๊ฐ๋จํ ํํ
- ์ฐ์ฐ๋์ด ๋ง์ exponential์ ์ฌ์ฉํ์ง ์์์ ์ฐ์ฐ ๋ถ๋ด์ด ์ ๋ค.