플로라도의 data workout

샘플링(Sampling)과 리샘플링(Resampling) 본문

기초 노트/인공지능 수학

샘플링(Sampling)과 리샘플링(Resampling)

플로라도 2024. 3. 6. 16:16

 

샘플링, 표본추출이 무엇인가?

 

샘플링(Sampling)은 전체 모집단에 대해서 표본 추출하는 것인데, 이러한 모집단으로부터의 데이터 수집은 비용이 발생할 뿐만 아니라 Sampling Bias가 발생하며, 뽑힌 표본은 어떠한 모집단도 정확히 대변한다는 보장이 없다.

 

그럼에도 불구하고, 표본을 통하여 데이터를 살펴보는 이유는 무엇일까?

이것은 마치 우리가 요리할때 음식의 간을 보는 것과 같다.

 

예를 들어, 국을 끓이는 상황에서 우리는 단지 국자로 한스푼 뜬 후 맛을 본뒤 

'잘 되었네!' 라며 , 마치 전체 국의 맛이 괜찮을거라고 장담한다.

 

국자 한스푼에 담긴것이 표본과 같다. 표본(한 스푼)이 전체 모집단(국)의 성질인 맛(통계량)을 대변하는 것이다.

앞서 말했듯이, 국자 한스푼이 정확히 전체 국의 맛을 대변할 수는 없다.

따라서 우리는 간을 보기전에 국자로 내용물을 충분히 젓고 나서 간을 봐야한다. 이것은 Random Sampling에 해당한다.

 

 

 

샘플링(Sampling)의 종류

 

1. 단순 무작위 추출 (Simple Random Sampling)

단순 무작위 추출에는 복원 추출(with replacement), 비복원 추출(without replacement)가 존재한다. 

단순 무작위 추출은 앞선 국자의 예시처럼, 아무런 제약없이 단순히 랜덤하게 모집단으로부터 표본을 추출하는 것이다.

그러나 정말 Random하게 추출하는 것이 가능할까? 어떻게하면 Sampling Bias를 해결한 Simple Random Sampling을 달성할 수 있을까에 대해서는 여러가지 논의가 존재한다.

 

2. 계통 추출법 (Systematic Sampling)

계통 추출법은 특정한 인덱스 번호마다 표본을 추출하는 방법이다. 예를들면 인덱스가 5번 돌때마다 한번 씩,

$X_1, X_6, X_{11}, X_{16}, \cdots X_{5k+1}$를 추출한다.

 

3. 층화 임의 추출 (Stratified Random Sampling)

층화 임의 추출은 집단의 특성에 맞게 추출하는 방법이다. 예를 들어 1학년부터 6학년까지 구성된 초등학생 집단에서, 각 학년별로 5명씩, 1학년 (5명), 2학년 (5명), 3학년 (5명) ... 6학년 (5명)까지 동등하게 추출하는 방법이다.

 

4. 군집 추출 (Clustering Sampling)

모집단을 군집화(Clustering)한 뒤, 군집에서 다시한번 샘플링(subsampling)을 진행한다.

예를 들어 전국의 학생의 성적을 조사하려고 하는 연구가 있다면, 지역별로 학교를 Clustering 한뒤 해당 Cluster에서 몇 곳의 학교만 조사하는 것이다.

이러한 방법은 전수조사가 비현실적이기 때문에 좀 더 현실적인 조사가 가능하다는 장점이 있다.

 

 

리샘플링 (Resampling)의 종류

리샘플링은 별도의 추가적인 데이터의 조사, 추가적인 샘플링 없이 가지고 있는 샘플에서 다시 샘플 부분집합을 뽑아서 통계량의 변동성(variability of stastics)을 확인하는 것이라고 할 수 있다. 즉, 같은 샘플을 여러 번 사용해서 성능을 측정하는 방식이다.

 

Resampling의 대표적인 방법으로는 머신러닝에서 자주 등장하는 k-fold cross validation, 부트스트래핑, 순열(Shuffle)과 같은 방법이 있다. 

 

 

Comment

머신러닝 파이프라인에서는 대게 Resampling부터 다루기 때문에 무의식적으로 사용하는 경우가 많지만,

이러한 Resampling방법 뿐만 아니라 , 데이터 수집단계에서의 Sampling도 반드시 같이 고려해야할 것이다.

머신러닝의 목적인 unseen data에 대한 예측은 다음 stage의 Sampling된 data를 예측하는 것이기 때문이다. 

 


Reference)

https://www.scribbr.com/methodology/sampling-methods/