딥러닝/밑바닥부터 시작하는 딥러닝1

[6장] 가중치의 초깃값

dongok218 2025. 4. 2. 21:44

가중치 감소(weight decay)

  •  오버피팅을 억제해 범용 성능을 높이는 테크닉
  •  가중치의 표준편차가 1인 정규분포를 사용하면 데이터가 0과 1에 치우쳐 분포하게 되면서 역자파의 기울기 값이 점점 작아지다가 사라지게 된다. 이를 기울기소실(gradient vanishing)이라 한다.
  • 이는 활성화값들이 치우치면 표현력을 제한한다는 관점에서 문제가 된다.

Xavier 초기값

  • 각 층의 활성화값들을 광범위하게 분포시킬 목적으로 가중치의 적절한 분포를 찾고자 했다.
  • 앞 계층의 노드가 n개라면 표준편차가 $\frac{1}{\sqrt{n}}$인 분포를 사용하면 된다는 결론을 이끌었다.
  • 이 초기값은 활서오하 함수가 선형인 것을 전제로 이끈 결과이다.

He 초기값

  • ReLU에 특화된 초기값이다.
  • 앞 계층의 노드가 n개일 때, 표준편차가 $\frac{2}{\sqrt{n}}$인 정규분포를 사용한다.
  • ReLU는 음의 영역이 0이라서 더 넓게 분포시키기 위해 2배의 계수가 필요하다고 해석할 수 있다.