Machine learning & Deep learning

[Machine learning] 머신러닝에서 사용하는 통계적 오차 측정 지표의 차이 알아보기

ysk1m 2025. 4. 17. 12:58

처음 Machine learning을 공부하면 RSS, MSE, RSE에 대한 개념이 헷갈릴 것이다.

뭔가 비슷한 것 같은데 셋의 정확한 차이는 뭘까?

그 개념을 여기서 확실하게 짚고 넘어가고자 한다.

 

RSS(Residual Sum of Squares)

말 그대로 잔차를 모두 더한 것이다. 

오차를 제곱해서 더한 것으로 데이터 point가 늘어날수록 RSS값도 끊임없이 늘어난다.

그렇기 때문에 성능을 비교하는데 쓰기에는 단위가 너무 크다.

또한 샘플 수가 다르면 비교가 어려워 단지 수식 유도를 위한 분석을 할 때 중간단계에서 많이 사용한다.

 

RSE(Residual Standard Error)

표준오차라고 불리는 값으로 예측값이 실제값으로부터 얼마나 떨어져 있는지를 나타내는 것이다.

그렇기 때문에 작을수록 좋다.

RSS는 데이터 샘플 수가 증가하는 것을 고려하지 않고 계산하기 때문에 단위가 너무 크다고 했었다.

따라서, RSE는 자유도를 고려하여 RSS값을 나눈다. (n-p-1로 나누는 통계적 이유가 있으나 여기서는 생략)

단위가 같아 직관적으로 해석이 용이하며 통계적 해석, 회귀분석 진단등에 자주 이용한다.

 

마지막으로 머신러닝 모델 학습 시 많이 사용하는 MSE에 대해 알아보겠다.

 

MSE(Mean Squared Error)

MSE는 RSS를 데이터 포인트 수 n으로 나눈 값이다. 

즉 샘플당 평균 오차의 제곱을 나타낸다.

단순한 구조와 효율적인 계산 덕분에 loss function으로 자주 사용된다.