Machine learning & Deep learning

[Machine learning] Confounding Effect, Interaction Term, MultiCollinearity의 차이

ysk1m 2025. 4. 14. 20:40

종속변수들 간 종속변수와 독립변수들 간의 관계에 대해 나타내는 용어이고 공부할 때 헷갈려서 정리를 하려 한다.

 

MultiCollinearity

이 경우는 종속변수들의 관계만 생각하자.

종속변수 feature들 간의 상관관계가 있는 것이다.

 

linear regression의 경우 \(\beta\)에 대해 closed form이 있는데 식이 \((X^TX)^{-1}\)으로 구성돼있다.

즉 feature \(x\) 간의 correlation이 있는 경우 \(\beta\)에 대한 추정이 불안정해지는 것이다.

 

따라서 서로 correlation이 강한 feature가 있다면 feature를 제거하는 것이 문제를 해결하는 방법이다.

 

Confounding Effect

Cofounding Effect는 \(Y\)에 영향을 주는 \(X\)가 있을 때 \(Z\)라는 변수가 둘에 영향을 주는 것이다.

\(Z\)가 영향을 줘 \(Y\)를 예측하는데 오류가 발생하는 것이다.(왜곡이 생김)

이를 해결하기 위해서는 \(Z\)를 같이 넣어주면 confounding effect를 잡아낼 수 있다.  

Interaction Term

Confounding Effect와 약간 혼란이 될 수 있다.

Interaction Term은 종속변수 \(Y\)에 영향을 주는 독립 변수 \(X\)가 있을 때, 어떤 독립변수 \(Z\)에 따라 \(X\)의 효과가 달라지게 된다.

이럴 경우 두 변수를 곱한 항을 추가하면 \(Z\)가 \(X\)에 주는 영향을 동시에 반영할 수 있다.

 

아직 confounding effect와 interaction term을 헷갈릴 수 있는데 이렇게 생각하자

 

Confounding effect는 독립변수 1이 종속변수에 주는 영향이 왜곡될 수도 있다.
왜? 어떤 독립변수 2의 영향이 있을 수도 있기 때문에!

그래서 독립변수 2도 model에 같이 넣어 그 효과를 없앤다.

 

Interaction Term은 독립변수 1과 독립변수 2가 시너지 효과를 낼 수 있다.

독립변수 1이 독립변수 2에 영향을 준다기보다는 둘이 같이 있을 때 종속변수에 영향을 미칠 수 있다는 것이다.

그래서 독립변수 1과 독립변수 2를 곱한 항을 model에 같이 넣어 그 효과를 반영한다.