플로라도의 data workout

L1,L2 Regularization은 우리의 prior knowlege를 반영한다. 본문

기초 노트/MachineLearning

L1,L2 Regularization은 우리의 prior knowlege를 반영한다.

플로라도 2024. 3. 15. 02:53

 

Regularziation은 모델이 학습 데이터에만 오버피팅되지 않도록 방지하는 기법으로 알려져 있다. 
그러나 Regularziation 테크닉중 weight decay의 방법인 L1, L2 Regularziation은  마찬가지로 오버피팅을 방지할 뿐만 아니라, human knowledge를 prior로서 반영할 수 있다.
 
 

L1 Regularization

 
$$\begin{aligned}
\mathcal{E}(w) = \frac{1}{2} \sum^n_{i=1} \left( f_w(x_i) - y_i \right)^2 + \lambda \sum_{i=1}^{n} |w_i|
\end{aligned}$$
 
L1 Regularization은 모델의 Loss function에 가중치의 절대값에 비례하는 항을 추가함으로써 Loss function을 새로이 정의한다.  L1 Regularization의 경우 슬라이드에서 보이는 $W_1$ vector처럼 일부 가중치를 정확히 0으로 만들어 모델이 피쳐의 선택(feature selection)에 유리하게 작용하도록 한다. 이러한 특징 때문에 L1 Regularzation을 Lasso(Least Absolute Shrinkage and Selection Operator)라고도 부른다. 
 
L1 Regularization을 부여하는 것은 베이지안 통계학의 관점에서 가중치에 대한 사전 분포로 Laplace distribution Prior를 부여하는 것과 같다고 한다.
 

L2 Regularization

$$\begin{aligned} \mathcal{E}(w) = \frac{1}{2} \sum^n_{i=1} \Big( f_w(x_i) - y_i \Big)^2 \underbrace{+ \lambda w^T w}_{\text{regularization term}} \end{aligned}$$
 
L2 Regularization은 모델의 Losfs function에 가중치의 제곱에 비례하는 항을 추가함으로써 Loss function을 새로이 정의 한다.
L2 Regularization을 부여하는 것은 가중치에 대한 사전 분포로 Gaussian distribution Prior를 부여하는 것과 같으며
weight의 분포를 "speard out"하는데 초점을 맞춘다. 즉 슬라이드의 $W_2$ vector처럼 모든 가중치가 동등한 정도로 퍼지게 만든다.
 
 
 
베이지안 통계학의 관점에서 weight의 분포를 gaussian prior로 가정하는 것과 Loss function에 L2 Regularization term을 추가 하는 것이 동등한 이유에 대해서는 아래의 Reference를 참고해주시길 바란다.


Reference
 
https://putama.github.io/posts/2018/08/L2-regularization-bayesian/