모두를 위한 딥러닝

[DL] 모두를 위한 딥러닝 7-1

승무_ 2022. 4. 2. 00:39

지난 실습 시간에는 0.001 이라는 학습률을 적용해 경사 하강법을 이용하였다.

이 학습률은 어떻게 설정해야 할까?

학습률을 크게 설정하면 overshooting이 될 가능성이 있다.

학습률을 매우 작게 설정한다면 최저점까지 도달하는 시간이 커지고 지역 최저점에 같혀버릴 수 있다.

 

결론

  • cost function을 잘 관찰하자.
  • 발산이 되면 작게, 너무 오래 걸리면 크게 설정해보자.

만약 데이터가 극단적인 값을 가진경우 cost function이 왜곡된 모습을 보인다.

이런 경우는 경사하강법을 사용해 최저점을 찾기 어렵다.

문제점 해결을 위해 위 2가지 방법을 이용하기도 한다.

데이터 표준화

우리가 사용할 방법은 데이터 표준화 방법으로, 평균을 기준으로 얼마나 떨어져 있는지를 나타내는 값이다.


Overfitting

  • 모델이 학습데이터에 치우쳐짐
  • 실제 데이터에 적용하면 성능이 떨어짐

왼쪽에 비해 오른쪽 모델은 학습 데이터에 치우쳐져 있다.

 

Overfitting을 해결하는 방법

  • 많은 학습 데이터
  • 특징의 개수를 줄이기
  • Regularization(일반화)

어느 Weight값이 매우 커지게 되면 Overfitting이 일어나게 되므로 Cost Function에 패널티를 추가하여 억제시킨다.