플로라도의 data workout
marginalize의 의미 본문
영어 강좌나 논문에서 marginalize라는 표현을 자주 마주하게 되는데, 매번 헷갈려와서 정확한 의미를 정리하고자 한다.
"marginalize"는 통계학과 확률론에서 주로 사용되는 말로, 하나 또는 그 이상의 변수의 확률분포를 얻기 위해 다변수 확률 분포에서 일부 변수의 영향을 "제거"하는 과정을 의미한다. 이 과정은 다변수 시스템에서 특정 변수에만 집중하고자 할 때 사용된다.
Marginalize?
예를 들어, 두 변수 $X$와 $Y$가 있는 결합 확률 분포 $P(X,Y)$가 있다고 가정해보자.
만약 변수 $Y$에 대해서만 관심이 있고, $X$의 영향을 무시하고자 한다면, $X$에 대해 marginalization을 수행하여 $Y$의 주변 확률 분포(marginal probability distribution) $P(Y)$를 다음과 같이 계산할 수 있다.
$$P(Y) = \sum_{x} P(X = x, Y)$$
이 식은 모든 가능한 $X$의 값에 대해 결합 확률을 합산하여 $Y$의 확률만을 남기는 것을 의미한다.
연속 변수의 경우, 합산(summation)대신 적분(integral)을 사용한다.
Marginalization의 사용
Marginalization은 데이터의 차원을 줄이고, 특정 변수의 효과를 고려하지 않고 다른 변수의 분포를 분석할때 사용한다. 또한 조건부 확률을 계산할 때 기저가 되는 결합 분포에서 필요한 주변 분포를 얻기 위해 사용된다. 예를 들어 $P(Y|X)$를 계산하기 위해 $P(X)$의 주변 분포가 필요할 수 있다.
'기초 노트 > 인공지능 수학' 카테고리의 다른 글
신뢰수준 95%의 의미 (0) | 2024.04.22 |
---|---|
샘플링(Sampling)과 리샘플링(Resampling) (0) | 2024.03.06 |
고유값(eigen value)와 고유벡터(eigen vector)에 대해 설명해주세요. 그리고 머신러닝에서 왜 중요할까요? (0) | 2024.03.04 |
빈도 주의자와 베이지언 주의자 그리고 불확실성(uncertainty) (5) | 2024.03.01 |
함수의 4가지 종류 -일변수 스칼라함수, 일변수 벡터함수, 다변수 스칼라함수, 다변수 벡터함수 (0) | 2023.06.18 |