가중치 감소(weight decay)
- 오버피팅을 억제해 범용 성능을 높이는 테크닉
- 가중치의 표준편차가 1인 정규분포를 사용하면 데이터가 0과 1에 치우쳐 분포하게 되면서 역자파의 기울기 값이 점점 작아지다가 사라지게 된다. 이를 기울기소실(gradient vanishing)이라 한다.
- 이는 활성화값들이 치우치면 표현력을 제한한다는 관점에서 문제가 된다.
Xavier 초기값
- 각 층의 활성화값들을 광범위하게 분포시킬 목적으로 가중치의 적절한 분포를 찾고자 했다.
- 앞 계층의 노드가 n개라면 표준편차가 $\frac{1}{\sqrt{n}}$인 분포를 사용하면 된다는 결론을 이끌었다.
- 이 초기값은 활서오하 함수가 선형인 것을 전제로 이끈 결과이다.
He 초기값
- ReLU에 특화된 초기값이다.
- 앞 계층의 노드가 n개일 때, 표준편차가 $\frac{2}{\sqrt{n}}$인 정규분포를 사용한다.
- ReLU는 음의 영역이 0이라서 더 넓게 분포시키기 위해 2배의 계수가 필요하다고 해석할 수 있다.
'딥러닝 > 밑바닥부터 시작하는 딥러닝1' 카테고리의 다른 글
[6장] 적절한 하이퍼파라미터 값 찾기 (0) | 2025.04.02 |
---|---|
[6장] 배치 정규화, 오버피팅, 가중치 감소, 드롭아웃 (0) | 2025.04.02 |
[6장] 매개변수 갱신방법 (0) | 2025.04.02 |
활성화 함수 (2) | 2024.10.02 |
퍼셉트론 (0) | 2024.10.01 |