
1. 선형성(Linearity)
독립변수와 종속변수, 설명변수와 응답변수, 다시말해 데이터 과학에서의 피처의 집합인
여기서 선형은
독립변수


조금 더 부연하자면, 피처의 집합인
2. 독립성
잔차(Residual)는 서로 독립적이며, 한 관측치의 오차가 다른 관측치의 오차에 영향을 주지 않아야 한다.

시계열 분석에서 주로 볼 수 있는 자기상관(autocorrelation)는 오차 항 간의 상관관계가 존재하는 현상으로, 시계열 데이터의 경우 과거 데이터와 미래 상태의 데이터가 밀접한 연관을 보인다. 이는 대표적으로 잔차의 독립성을 위배하는 현상이다.

3. 등분산성
잔차(Residual)의 분산이 일정한 상수여야 한다. 아래의 그림과 같이 잔차의 분포가 특정한 패턴을 보이면 안된다.
데이터의 어떠한 값과 상관없이 잔차는 좌측의 그림처럼 고르게 분포되어 있어야 한다.

4. 정규성
잔차가 정규분포를 따라야 한다. 잔차의 정규성 가정아래 회귀 계수에 대한 우도의 최대화(MLE)하는 것은 잔차의 제곱합을 최소화(OLS)를 통해 계산된 회귀 계수와 동일한 값을 갖게 됨으로, 우리는 이러한 가정아래 OLS를 통해 회귀계수를 추정하게 된다.
회귀 계수
이 때 선형회귀 모델의 추정값은 각 오차항을 포함한 아래의 식으로 표현이 가능하며, 오차(잔차)는 정규성을 가정하게 된다.
따라서 선형회귀 모델을 통해 구하는 추정치의 확률 밀도 함수는 다음과 같이 표현할 수 있게 된다.
이때, 각 관측치(데이터)는 독립성을 가정함으로 개별 확률 밀도를 모두 곱한 값으로 표현할 수 있다.
이 우도 함수를 최대화하기 위해 로그 우도를 취하면 계산이 간단해지며, 로그 우도 함수는 다음과 같게 된다.
따라서, 로그 우도를 최대화 하는 것은 잔차 제곱합을 최소화 하는 것이므로,
(이러한 논리적 배경과 근거는 선형회귀를 모두 모은 딥러닝 MLP 모델에서도 이어지게 된다.)
reference)
https://kantschants.com/assumptions-of-linear-regression
https://www.originlab.com/doc/Origin-Help/Residual-Plot-Analysis
'기초 노트 > DataScience' 카테고리의 다른 글
L1,L2 Regularization은 우리의 prior knowlege를 반영한다. (2) | 2024.03.15 |
---|---|
선형회귀 분석에서 로그 변환을 취하는 이유 (0) | 2024.03.14 |
데이터의 Cardinality란 무엇인가? (2) | 2024.03.07 |
차원의 저주(Curse of dimensionality) (0) | 2024.03.07 |
Stacking과 Blending의 차이 설명 (3) | 2024.03.06 |