Overfitting 3

[Machine learning] Tree based Methods: Decision Tree로 Regression과 Classification하기

Tree-based Methods분류와 회귀 작업 모두에 사용 가능하며, 입력공간을 재귀적으로 분할하여 단순한 영역으로 나눈다.이 방법은 시각적으로 이해가 쉽고, 해석력 높은 모델을 만들 수 있다. 단, 정교한 supervised model에 비해 예측 정확도 면에서 성능이 떨어진다.이 것을 해결하기 위한 방법으로 bagging, random forests, boosting이 있다.이 내용에 대해서는 다음에 공부하도록 하겠다. Tree-based model에 Decision tree가 있으며, 오늘은 이 내용에 대해 알아보도록 하겠다. Decision TreesDecision Tree는 이름 자체에서도 알 수 있듯이 Tree-based model이다.따라서, regression과 classificatio..

[Machine learning] ML 1주차 공부(Linear Regression 모든 것)

교수님이 머신러닝의 중요성을 강조하시려고 이 이미지를 사용하신 게 재밌어서 가져왔다.What is Statistical Machine Learning?통계학의 원리와 기계 학습 알고리즘을 결합하여 데이터를 이해하고 예측 모델을 구축하는 것이다.일반적으로 입력 변수 \(X\)와 출력 변수 \(Y\) 사이의 관계를 \(Y=f(X)+\epsilon\)와 같이 모델링하는 것이다. 여기서 \(\epsilon\)은 측정 시 발생하는 오차고 \(X\)와 독립이다.입력 변수 \(X\)와 \(Y\) 사이의 관계를 잘 모델링하면 새로운 입력 변수 \(X\)에 대해 예측을 할 수 있다. 그럼 이상적인 \(f(X)\)를 만들 수 있을까?예를 들어 다음과 같은 그래프가 있다고 하자\(X=\) 4에서 좋은 \(f(X)\) 값은 ..

[Machine learning] Ridge Regression

오늘은 Overfitting을 해결하기 위한 방법인 Ridge Regression을 알아보겠습니다. Ridge Regression의 수식에 대해 자세하게 분석해 보면서 어떻게 Overfitting을 해결하는지 알아보겠습니다. 일반적인 선형 회귀는 최소제곱법을 사용하여 아래의 cost function을 최소화합니다.  학습 중 feature들 간의 상관관계가 너무 높으면 계수 w가 너무 커져 Overfitting이 될 수 있습니다. 이제 Cost function에 Regularization Term을 추가하여 학습하는 과정을 설명드릴게요. 학습 시 Cost function을 최소화하는 w을 찾는 방향으로 학습이 진행됩니다. 이때, λ의 값이 있을 경우 전체 Cost function을 최소화시켜야 되는데 R..