[6장] 가중치의 초깃값

딥러닝/밑바닥부터 시작하는 딥러닝1

[6장] 가중치의 초깃값

dongok218 2025. 4. 2. 21:44

가중치 감소(weight decay)

오버피팅을 억제해 범용 성능을 높이는 테크닉
가중치의 표준편차가 1인 정규분포를 사용하면 데이터가 0과 1에 치우쳐 분포하게 되면서 역자파의 기울기 값이 점점 작아지다가 사라지게 된다. 이를 기울기소실(gradient vanishing)이라 한다.
이는 활성화값들이 치우치면 표현력을 제한한다는 관점에서 문제가 된다.

Xavier 초기값

각 층의 활성화값들을 광범위하게 분포시킬 목적으로 가중치의 적절한 분포를 찾고자 했다.
앞 계층의 노드가 n개라면 표준편차가 $\frac{1}{\sqrt{n}}$인 분포를 사용하면 된다는 결론을 이끌었다.
이 초기값은 활서오하 함수가 선형인 것을 전제로 이끈 결과이다.

He 초기값

ReLU에 특화된 초기값이다.
앞 계층의 노드가 n개일 때, 표준편차가 $\frac{2}{\sqrt{n}}$인 정규분포를 사용한다.
ReLU는 음의 영역이 0이라서 더 넓게 분포시키기 위해 2배의 계수가 필요하다고 해석할 수 있다.

'딥러닝 > 밑바닥부터 시작하는 딥러닝1' 카테고리의 다른 글

[6장] 적절한 하이퍼파라미터 값 찾기 (0)	2025.04.02
[6장] 배치 정규화, 오버피팅, 가중치 감소, 드롭아웃 (0)	2025.04.02
[6장] 매개변수 갱신방법 (0)	2025.04.02
활성화 함수 (2)	2024.10.02
퍼셉트론 (0)	2024.10.01

현재글[6장] 가중치의 초깃값

티스토리툴바