기울기 소실

 

  • 위 그림처럼 3개의 sigmoid layer를 가지고 있는 모델이 있다고 가정하자

  • 위 그림과 같이 오차역전파법을 통해 ${\partial y \over \partial w_3}, {\partial y \over \partial w_2}, {\partial y \over \partial w_1}$을 각각 구할 수 있으며 해당 값을 그래프로 표현하면 아래와 같다

  • 기울기 값이 점점 줄어드는것을 확인할 수 있다.
    • 기울기 값이 줄어든다는 것은 가중치 업데이트를 할 때 줄수있는 변화량이 적어진다는 것이고, 변화량이 점점 적어질수록 학습이 제대로 이루어지기 힘들다