플로라도의 data workout

빈도 주의자와 베이지언 주의자 그리고 불확실성(uncertainty) 본문

기초 노트/인공지능 수학

빈도 주의자와 베이지언 주의자 그리고 불확실성(uncertainty)

플로라도 2024. 3. 1. 04:16

 

 


 
여러분들은 아마도 여러번 "확률(Probability)"이 무엇인가에 대해서 질문을 받거나, 간혹 생각해볼 기회가 있었을 것이다.
그럴때마다 아마 적당히 무어라고 대답하고 넘어갔던 기억은 나는데 그 내용 자체는 잘 기억이 나지 않을 것 같다.
 
일전에 수학적 확률의 정의와 근원사건 그리고 표본공간에 대한 이야기를 하였는데 이번에는 좀 더 철학적인 접근에 대해서 이야기 해보려고 한다.
https://ploradoaa.tistory.com/4

 

수학적 확률의 정의와 근원사건 : 주사위의 눈이 1이 나올 확률은 정말 1/6인가?

보통 우리가 확률을 이야기 할때, 주사위 던지기 게임, 동전던지기 게임을 예시로 많이 든다. 가장 명료하면서도 확률의 여러 개념들을 포괄하는 예시이기 때문이다. 가장 처음에, 누구에게나

ploradoaa.tistory.com

 
위 글의 내용을 요약하자면, 확률을 구성하는 요건인 사건을 잘 규정해야 확률을 정의할 수 있다는 내용이다. 
 
 
확률의 본질과 해석, 통계적 추론에 대한 철학적인 차이를 나타내는 두 학파인 빈도주의와 베이지안주의에서는
주사위의 눈이 1이 나올 확률이 1/6이고, 동전의 앞면이 나올 확률이 1/2인 것에 대해 조금 다르게 답변한다.
 
또 다시, 단순히 6개의 눈중 한개의 눈,  {앞면,뒷면} 중 "앞면" 인 이유가 다 일까?
"확률"이란 무엇인가?
 
 
확률에서 동전의 예시를 빼먹긴 섭하다.  여전히 동일하게, 앞면을 Head, $H$  뒷면 tail , $T$ 라고 하자. 
동전을 4번 던져 $ {H, H, H, H} $ 이 나왔다면, 다음 동전이 앞면일 확률은 얼마일까?
여전히 당신은 각각 1/2이라고 말할 수 있는가?

이미 앞면이 4번이나 나왔는데...이번엔 뒷면이 나오지 않을까? 그렇다면 그 근거는 무엇인가?
 
 

빈도주의자와 베이지안주의자

 
확률에서 정의하는 사건들 , 앞선 동전을 4번 던져 ${H, H, H, H}$가 나온 경우처럼, 
빈도주의자는 대부분의 경우 사건은 i.i.d(independent and identically distribution)이라는 가정에서 출발한다. 
 

iid(independent and identically distribution)

 
구체적으로,
(1) 각 시행(동전을 던지는 행위)이 independent, 즉 다른 시행에 영향을 받지 않고
(2) 또한 동일한 조건하에 수행, identically distribution 을 가정한다.
 
다시 말해, 첫번째 던지는 것이나 두번째 던지는 것이나 몇번째 던지든 확률에 변함이 없다.
던질때마다 주사위는 같은 주사위임으로 확률에 변함이 없다는 것이다.
 
 

빈도주의자

 
이러한 상황에서 발생하는 확률을 불확실성(uncertainty)라고 표현하는데, 
이러한 불확실성은 무작위성(Randomness)에서 발생한다고 이야기한다.

즉 무작위성에 의해 다양한 사건이 발생하고, 그에 따른 확률이 존재한다는 것이다.
 

베이지안주의자

 
그런데, 사실은 현실세계에서는 물리적 제약사항 때문에 동일한 조건을 유지한다는 것은 불가능한 일일 것이다.
두번째 던지는 동전은 과연 첫번째 던지는 동전에 의해 영향을 받지 않는다고 할 수 있을까?
 
이미 던져본 경험에 의해 던지는 힘의 세기라던지, 방향과, 각도, 떨어뜨리는 지면과의 높이, 마찰, 마모되는 주사위 자체의 표면, 주변의 기류라던지, 정말 다양한 조건이 정말 같을 수 있을까?
빈도주의자들은 이러한 변화를 Randomness라고 규정하여 데이터는 이러한 Randomness에 의해 변하게 되는 것이나 시행을 무한히 반복하면 참값인 확률을 얻을 수 있다고 말한다.
 
반면, 베이지안주의자들은 동일한 조건을 유지하는 것이 불가능한 것을 파라미터가 변한다 (Parameter varies)고 표현한다. 즉, 다시말해 주변 환경이 달라지기 때문에 데이터가 달라진다는 것이다.

빈도주의에서는 파라미터는 고정(Parameters fixed)되어 있지만, 데이터가 변한다 (Data vary)고 표현하고, 이는 파라미터가 확률적이지 않다(not random)는 것을 의미한다. 베이지안주의자는 반대로 파라미터가 확률적이라고 이야기 한다.
 
빈도주의자들은 확률을 시행을 무한히 반복함으로써 사건의 빈도를 통해 확률을 정의하지만, 베이지안주의자에서는 이마저도 반박한다.
어떻게 시행을 무한히 반복한다는 건가? 동전을 끝이 나지 않을 때까지 던진다는게 가능한 일인가?
 
 

불확실성(uncerntainty)

 
관련해서 두가지 불확실성(uncertainty)이 등장한다.
 
1. Aleatoric Uncerntatinty (내재적 불확실성)
데이터 자체의 불확실성으로, 측정의 잡음이나 데이터의 변동성으로 인해 발생한다. Aleatoric Uncertainty는 본질적으로 데이터에 내재되어 있으며, 추가 데이터로 해결할 수 없다. 이는 실험을 반복하더라도 개선할 수 없다. 예측 문제에서 불가피한 오류의 원인으로 꼽히며, error bar(에러 바) 혹은 confidence interval(신뢰 구간)을 통해 이러한 불확실성을 인정함을 나타낸다.
 
2. Epistemic Uncenrtatinty (인식론적 불확실성)
모델의 매개변수에 대한 불확실성으로, 학습 데이터의 부족이나 노이즈 때문에 발생한다. 베이지안 주의자들이 특히 주목하는 불확실성이다. 베이지안 주의자들은 Epstemic Uncertatinty를 우리가 아직 관찰이 부족하기 때문에 발생하는 불확실성으로, 추가 데이터를 통해 여러 경험을 함으로써 불확실성을 줄일 수 있다고 주장한다. 모델이 학습 데이터에서 잘 나타나지 않은 새로운 데이터 포인트에 대해 예측할때 특히 중요하다.
 
 
 

베이즈 정리(Bayes`s Rule)

$$ P(\theta|D) = \frac{P(D|\theta) \cdot P(\theta)}{P(D)} $$
 
베이지안 주의자들의 이러한 믿음은 베이즈 정리와도 이어지는데, 
 
베이즈 정리를 살펴보면 우리가 만약 사전 지식, 혹은 사전의 믿음으로 prior distribution , $P(D|\theta)$  가 주어지고
Likelihood(우도) $P(\theta)$만 알수 있다면 posterior distribution $P(\theta|D)$ 를 알 수 있다는 내용이다.
 
반복적인 실험의 수행과 관찰의 결과로 사전지식을 업데이트 할수록 epistemic uncertainty가 줄어들어 궁극적으로 더욱 정교한 posterior를 측정할 수 있다는 주장이다. 
 
 
 
 
 

정리

 

빈도주의자

1. 확률을 사건 발생의 빈도로 해석함
2. 동일한 조건 아래 무한번의 시행을 통해 경험적 확률을 수학적 확률로 (큰수의 법칙), 확률을 얻게 된다. (0~1)
3. 확률이란 불확실성(aleatoric uncertainty) by 무작위성(randomness)
4. 물리적인 제약조건을 항상 동일하게 유지할 수 없기때문에 randomnes가 발생하는 것
5. 데이터는 randomness를 포함한다. (파라미터는 고정되어있으나 데이터가 변하는것 ; data vary, parameter fixed)
6. 가장 처음 던졌던 문제, 5번째 동전이 앞면인지 뒷면인지 확률? 알 수 없음, 무한번 시행 해본 뒤 확률을 알아야 답할 수 있음
 
$$p = \lim_{n \to \infty} \frac{N(heads)}{N} (큰수의법칙)$$
 
7. 확신의 정도 -> 신뢰구간으로 답함
 
 

베이지안 주의자

1. 확률을 사건 발생의 믿음의 정도로 해석함
2. 애초에 동전에 대한 정보를 알고 있다면 확률을 단박에 알 수 있는 것이 아니냐?  (표준적인 동전은..., 한쪽면이 튀어나온 동전은...)
3. 파라미터가 변함으로 인해 데이터가 변한다 (주변 환경이 변해서 동전이 앞면이 나올 확률이 바뀐다.)
4. 파라미터의 불확실성(Epstemic Uncertatinty) : 현재 지식, 정보의 부족
5. 파라미터를 Random Variable로 (Prior distribution)
6. 확률을 경험에 의존한 귀납적 업데이트가 가능(by 베이즈 정리), 사전 정보(Prior)를 반영 가능
7. 작은 데이터셋에서도 작동 가능