기초 노트/인공지능 수학

marginalize (적분)의 의미

플로라도 2024. 4. 22. 23:57

 

Marginalize란?

Bayesian Inference관련 논문을 읽다 보면 marginalize라는 표현을 자주 마주하게 되는데, 가끔가다 헷갈리는 경우가 있어 정확한 의미를 정리해보고자 한다.

Marginalize는 통계학과 확률론에서 주로 사용되는 개념으로, 다변수 확률 분포에서 특정 변수(또는 변수들)에 대한 영향을 '통합(integrate out)'하거나 '합산(summing out)'하여 다른 변수(또는 변수들)의 단독 확률 분포만을 얻는 과정을 말한다. 즉, 다변수 시스템에서 특정 변수에만 집중하기 위해 다른 변수들의 영향을 제거(또는 흡수)하는 기법이다.

 

 

결합 확률 분포와 주변 확률 분포

다변수 시스템을 구성하는 확률분포는 결합 확률 분포(joint probability distribution)라고 한다. 결합 확률 분포는 조건부 확률 분포(conditional probability distribution)와 주변 확률 분포(marginal probability distribution)로 아래와 같이 표현할 수 있다.

\[ P(X, Y) = P(X \mid Y) \cdot P(Y) \]

예를 들어, 변수 $Y$ 만이 관심 대상이고 $X$ 의 영향을 무시하고자 한다면, $X$ 에 대해 marginalization을 수행하여

$Y$ 의 주변 확률 분포 $P(Y)$ 를 다음과 같이 구할 수 있다.

\[ P(Y) = \sum_{x} P(X = x, Y) \]

위 식은 $X$가 가질 수 있는 모든 값을 결합 확률에서 합산(summation)해, 결국 $Y$에 대한 확률만 남도록 만드는 과정이다. 만약 $X$가 연속 변수라면, 합산 대신 적분(integration)을 수행한다.

\[ P(Y) = \int P(X, Y) \, dX \]

베이지안 추론에서의 Marginalization

 

베이지안 추론(Bayesian Inference)에서는 관측데이터 $\mathbf{x}$ 와 잠재변수(latent variable) $\mathbf{z}$ 를 포함하는 결합 확률 분포 $p(\mathbf{x},\mathbf{z})$ 로 부터, 잠재변수가 어떻게 분포되어 있는지(posterior) 추론하는 경우가 많다.

 

 

이때, 모델의 증거(evidence) 혹은 주변우도(marginal likelihood)인

$$p(\mathbf{x})=\int p(\mathbf{x},\mathbf{z}) d\mathbf{z}$$

를 구하는 과정에서 marginalization이 필수적으로 등장한다.

즉, 잠재변수 $\mathbf{z}$를 적분(연속 변수) 혹은 합산(이산 변수)하여 “날려버림(marginalize out)”으로써 $\mathbf{x}$ 에 대한 분포만 남기는 것이다.

 

Marginalization의 그 외 활용

  • 데이터 차원 축소: 복잡한 고차원 데이터에서 일부 변수를 ‘몰아내어(marginalize out)’ 다른 변수들의 분포만 보고자 할 때 활용한다.
  • 조건부 확률 계산: 예를 들어 $P(Y|X)$를 구하기 위해서는 $P(X)$의 주변 분포가 필요한데, 이 역시 결합 분포에서 다른 변수들을 적분(또는 합산)하여 얻는다.

정리하자면, Marginalization은 확률 공간의 차원을 줄여 특정 변수에 집중하고 싶거나, 조건부 확률 계산에 필요한 주변 분포를 구할 때 핵심적으로 사용되는 개념이다.