Quiz.1.1

1. 선형성을 띄지 않는 함수가 없는 다중층 레이어 신경망은 선형적으로 표현 가능하다는 것을 증명하시오.

HINT: n개의 레이어의 경우를 두고 생각, f(x) = ax+b의 형태로 두고 생각

(개인 풀이)

1. f(x) = ax + b이다. 이때 n=2 즉 2개의 층으로 이루워졌다고 생각하면

f(f(x)) = a(ax+b)+b = a^2x+ab+b = a'x + b' (a'=a^2, b'= ab + b)

즉 값이 동일하지는 않지만 사실상 선형성을 띄는 식으로 표현이 가능하다.

이제 n일때의 경우를 보면

fn(x) = a*fn-1(x)+b가 된다. 즉 사실상 형태가 반복되는 동일한 상황이므로 증명된다.

2. 시그모이드함수를 미분하시오.

HINT: sigmod = 1/(1+e^-x)

(개인풀이)

2. 0*(1+e^-x) - 1*(-e^x) / (1+e^-x)^2 = e^x / (1+e^-x)^2

3. 많은 층을 사용할 경우 시그모이드함수에서 기울기 소실이 일어나는 이유는?

(개인풀이)

3. 기울기 소실의 경우 시그모이드 함수의 특징 중 하나이다. 시그모이드 함수의 경우

일반적인 시그모이드 함수

시그모이드 함수의 미분 형태

위에 그래프에서 보이듯이 시그모이드 함수는 수렴한다. 값이 극단적으로 커져감에 따라 수렴하는데 가중치를 변경하는 방법에서 가중치를 미분한 값을 곱하는 형식에서 미분한 값이 점점 작아질 수 밖에 없다는 단점을 가지고 이것이 바로 기울기 소실이다.

3.2 하이퍼볼라탄젠트함수와 시그모이드 함수의 관계가 scaled,shifted 형태이고 위의 기울기 소실에서 하이퍼볼라탄젠트 함수가 더 유리한 이유를 설명하시오

(개인풀이)

3.2

기본적인 하이퍼볼라 탄젠트 함수

미분형태의 하이퍼볼라 탄젠트 함수

위에 보다싶이 하이퍼볼라 탄젠트 함수는 수렴하지 않으므로 기울기 소실이 덜하다 하지만 극단적인 값으로 가면 0으로 수렴하기 때문에 기울기 소실에서 자유로울 수는 없다.

시그모이드 - 하이퍼볼라탄젠트 관계는 시그모이드 함수에 (1-e^-x)를 곱하고 y축 대칭을 하면 된다.

Xk = k번째 레이어의 입력값

Yk = k번째 레이어의 출력값

bk = k번째 레이어의 편향값

Wk = k번째 레이어의 가중치값

이때

Xk = f(Yk) = Yk-1 * Wk + bk

Yk = g(Xk) (g(x)는 비선형 활성화 함수, f(x)는 선형 함수)

로 표현된다. 역전파시에 가중칫 값을 조정하기 위해 저장해야하는 값은?

(개인풀이)

4. Yk와 Xk이다 chain Rule에 의해 들어온 loss값을 그 레이어의 Yk값을 편미분하며 chain Rule에 따라서 계산이 가능하다고 기존 포스팅에서 다룬 바 있다. 따라서 우리가 저장해야 하는 값은 Yk값과 Xk값이다.

초보자의 대피소