플로라도의 data workout

선형회귀의 5가지 기본 가정 본문

기초 노트/MachineLearning

선형회귀의 5가지 기본 가정

플로라도 2024. 3. 11. 19:18

 

1. 선형성(Linearity)

 

독립변수와 종속변수, 설명변수와 응답변수, 다시말해 데이터 과학에서의 피처의 집합인 $X$와 타겟 값 $y$가 선형적인 관계를 가져야만 한다. 가장 잘 피팅된 선형 회귀 모델은 곧은 직선 형태임으로, 가장 직관적인 특징이다.

여기서 선형은 $X$와 $y$간의 "관계"의 선형성, 즉 파라미터의 선형성을 일컫는 말로

독립변수$X$의 선형과는 관계가 없다. 종종 독립변수 $X$에 제곱이나 혹은 교차항(interaction)을 추가하기도 하는데 이는 다항 회귀(Polynomial Regression)으로 불린다.

 

선형적인 형태 (좌) , 비선형적인 형태(우)

 

 

2. 동분산성

잔차(Residual)의 분산이 일정한 상수여야 한다. 아래의 그림과 같이 잔차의 분포가 특정한 패턴을 보이면 안된다.

데이터의 어떠한 값과 상관없이 잔차는 좌측의 그림처럼 고르게 분포되어 있어야 한다.

 

(좌) 올바른 형태 (중앙, 오른쪽) 패턴이 존재

 

3. 독립성

잔차(Residual)는 서로 독립적이며, 한 관측치의 오차가 다른 관측치의 오차에 영향을 주지 않아야 한다.

 

 

 

시계열 분석에서 주로 볼 수 있는 자기상관(autocorrelation)는 오차 항 간의 상관관계가 존재하는 현상으로, 시계열 데이터의 경우 과거 데이터와 미래 상태의 데이터가 밀접한 연관을 보인다. 이는 대표적으로 잔차의 독립성을 위배하는 현상이다. 

 

시계열-자기상관(autocorrelation)

4. 정규성

잔차가 정규분포를 따라야 한다. 데이터의 샘플이 충분하여 잔차가 충분히 확보될 때에는 중심극한정리(Central Limit Theorem)에 의하여 정규성을 띄게 된다. 정규성 가정은 통계적 추론이나 신뢰구간 및 가설 검증 등이 유효한지를 따질 때 중요한 요소이다.

 

5.선형 독립성(full rank)

독립변수인 피처 집합 $X$은 서로 선형 독립(full rank)여야 한다. 즉 어떠한 독립 변수도 다른 독립 변수들의 선형 조합으로 표현되면 안된다. 선형 독립성이 보장 될 때, 회귀 모델의 파라미터가 유일하게 추정 될 수 있다.

 

만약 독립변수인 피처 집합  $X$ 가 선형적인 관계가 있을 경우 다중공선성(muticollinearity) 문제가 발생한다.

다중공선성은 두 개 이상의 독립 변수들 사이에 높은 상관관계가 존재하는 상황을 말하며, 여러 독립변수가 동일한 설명력을 제공하여 개별 변수의 고유한 기여나 영향력을 파악하기 힘든 것을 말한다.

 

대표적으로 분산팽창계수(Variance Inflation Factor; VIF)를 통해 다중공선성을 진단 하여 10을 초과하는 경우, 해당 변수는 높은 다중공선성을 지닌 것으로 판단하고 유의해야 한다. (회귀계수의 추정과 모델의 해석 문제가 아닌 예측 성능이 중요하다면 반드시 제거할 필요는 없다.)

 

full rank의 가정으로 인해 선형회귀의 최소자승법(OLS)의 해를 closed form soltuion 형태인 normal equation로 구할 수 있게 된다. 실제로 scikit-learn의 LinearRegression클래스는 경사하강법(gradient descent)가 아닌 pseudo inverse를 바탕으로 파라미터의 최적해(optimal solution)을 구하게 된다.

 

 


reference)

https://kantschants.com/assumptions-of-linear-regression

https://www.originlab.com/doc/Origin-Help/Residual-Plot-Analysis

https://nnotee.tistory.com/70