모두를 위한 딥러닝
[DL] 모두를 위한 딥러닝 7-1
승무_
2022. 4. 2. 00:39
지난 실습 시간에는 0.001 이라는 학습률을 적용해 경사 하강법을 이용하였다.
이 학습률은 어떻게 설정해야 할까?
학습률을 크게 설정하면 overshooting이 될 가능성이 있다.
학습률을 매우 작게 설정한다면 최저점까지 도달하는 시간이 커지고 지역 최저점에 같혀버릴 수 있다.
결론
- cost function을 잘 관찰하자.
- 발산이 되면 작게, 너무 오래 걸리면 크게 설정해보자.
만약 데이터가 극단적인 값을 가진경우 cost function이 왜곡된 모습을 보인다.
이런 경우는 경사하강법을 사용해 최저점을 찾기 어렵다.
문제점 해결을 위해 위 2가지 방법을 이용하기도 한다.
데이터 표준화
우리가 사용할 방법은 데이터 표준화 방법으로, 평균을 기준으로 얼마나 떨어져 있는지를 나타내는 값이다.
Overfitting
- 모델이 학습데이터에 치우쳐짐
- 실제 데이터에 적용하면 성능이 떨어짐
왼쪽에 비해 오른쪽 모델은 학습 데이터에 치우쳐져 있다.
Overfitting을 해결하는 방법
- 많은 학습 데이터
- 특징의 개수를 줄이기
- Regularization(일반화)
어느 Weight값이 매우 커지게 되면 Overfitting이 일어나게 되므로 Cost Function에 패널티를 추가하여 억제시킨다.