플로라도의 data workout

marginalize의 의미 본문

기초 노트/인공지능 수학

marginalize의 의미

플로라도 2024. 4. 22. 23:57

 
 
영어 강좌나 논문에서 marginalize라는 표현을 자주 마주하게 되는데, 매번 헷갈려와서 정확한 의미를 정리하고자 한다.
 
"marginalize"는 통계학과 확률론에서 주로 사용되는 말로, 하나 또는 그 이상의 변수의 확률분포를 얻기 위해 다변수 확률 분포에서 일부 변수의 영향을 "제거"하는 과정을 의미한다. 이 과정은 다변수 시스템에서 특정 변수에만 집중하고자 할 때 사용된다.
 
 

Marginalize?

 
예를 들어, 두 변수 $X$와 $Y$가 있는 결합 확률 분포 $P(X,Y)$가 있다고 가정해보자.
만약 변수 $Y$에 대해서만 관심이 있고, $X$의 영향을 무시하고자 한다면, $X$에 대해 marginalization을 수행하여 $Y$의 주변 확률 분포(marginal probability distribution) $P(Y)$를 다음과 같이 계산할 수 있다.
 
$$P(Y) = \sum_{x} P(X = x, Y)$$
 
이 식은 모든 가능한 $X$의 값에 대해 결합 확률을 합산하여 $Y$의 확률만을 남기는 것을 의미한다.
연속 변수의 경우, 합산(summation)대신 적분(integral)을 사용한다.
 
 
 

Marginalization의 사용

 
Marginalization은 데이터의 차원을 줄이고, 특정 변수의 효과를 고려하지 않고 다른 변수의 분포를 분석할때 사용한다. 또한 조건부 확률을 계산할 때 기저가 되는 결합 분포에서 필요한 주변 분포를 얻기 위해 사용된다. 예를 들어 $P(Y|X)$를 계산하기 위해 $P(X)$의 주변 분포가 필요할 수 있다.