k-Fold 2

[Machine learning] Lasso와 Ridge regression 중 어떤 것을 사용??

Shrinkage Methodsubset selection은 불필요한 feature를 제거하여 모델의 성능을 향상하지만, 자칫 필요한 변수까지 제거할 수도 있다.따라서 모든 feature를 이용하는 대신 regularization항을 추가하여 계수들이 0에 가깝도록 강제하는 Shrinkage Method에 대해 공부할 것이다. 대표적인 방법으로는 Ridge regression과 Lasso가 있다. Ridge regressionRidge regression은 다음과 같이 일반적인 선형 회귀 RSS에 계수들의 제곱합(l2 norm)에 대한 penalty term을 추가로 더하는 것이다.\(\lambda\)가 크면 \(\beta\)가 작아져 분산이 작아지지만 bias가 커질 수 있다.반면 \(\lambda\)..

[Machine learning] Test error를 추정하는 방법 (K-fold cross validation)

train error와 test error의 관계는 어떻게 될까?모델을 만들었을 때, 최종 목표는 test error를 줄이는 것이다.학습할 때는 test dataset을 볼 수 없으며 이용해서도 안된다. 그럼 어떻게 test error를 낮추고 확인할 수 있을까?오늘 공부할 내용은 test error를 추정하고 이를 낮출 수 있는 방법이다.Training Error vs Test Errortrain dataset과 test dataset은 기본적으로 같은 분포고 특별히 뭐가 어렵고 쉬운 것은 아니다.test error는 학습 때 사용하지 않은 새로운 관측치에 대해 예측하여 발생하는 error이다.반면에 train error는 train할 때 본 관측치에 대해 발생하는 error이다. 단지, 학습할 때 ..