기초 노트/DataScience

상관분석, 그 너머 편상관분석

플로라도 2026. 2. 24. 22:58

1.
초등학생을 모아놓고 발 크기와 어휘력을 재보면, 꽤나 높은 상관관계가 나온다. 발이 크면 단어를 많이 안다는, 언뜻 들으면 황당한 결론이다. 하지만 실상은 단순하다. 그저 나이를 먹으면서 발도 커지고, 배운 단어도 많아졌을 뿐이다. 두 변수 사이에 '나이'라는 거대한 공통 분모가 자리 잡고 있어서, 마치 발 크기와 어휘력이 연관된 것처럼 착시를 일으킨다. 그래서 눈에 보이는 단순한 수치만으로 두 변수가 진짜 관련이 있다고 믿어버리면 곤란한 일이 생긴다.
 
2.
그렇다면 나이라는 껍데기를 벗겨낸, 발 크기와 어휘력의 진짜 관계는 어떻게 알 수 있을까. 이때 필요한 것이 편상관분석(Partial Correlation Analysis)이다.
 
절차는 이렇다. 먼저 회귀분석을 통해 특정 나이대에서 으레 기대되는 평균적인 발 크기와 어휘력 점수를 구한다.
그리고 실제 측정값에서 그 뻔한 평균치를 빼버린다.
10살 또래의 평균 발 크기를 덜어내고 남은 '유독 더 큰 발(또는 작은 발)'의 수치, 그리고 10살 평균 어휘력을 덜어내고 남은 '유독 뛰어난(혹은 뒤처진) 어휘력'의 수치. 통계학에서는 이를 잔차라고 부른다. 나이라는 계급장을 다 떼고 남은 이 두 잔차를 서로 비교해 보는 것. 다른 요인으로 설명할 수 없는 개인의 고유한 잔차들간의 상관성이 있는지를 비교하여 ‘나이’의 영향력을 제외하고 ‘발크기’와 ‘어휘력’의 관계를 파악하는 것이다.
 
3.
복잡하게 회귀 모형에 적합하는 과정을 쓰는 이유는 뭘까? 나이의 영향을 통제하기 위해 8살, 9살, 10살 등 나이별로 집단을 나누어 각각의 평균 발 크기와 어휘력을 구하여 해당 평균과의 차이를 보는 것도 하나의 방법이다.
하지만 이렇게 집단을 범주별로 쪼개어 분석하면, 특정 나이대 집단에 우연히 발이 아주 크거나 어휘력이 유독 뛰어난 학생이 몇 명 섞여 있을 때 그 집단의 평균값이 크게 왜곡되는 문제가 생긴다.
반면, 전체 데이터를 아울러 하나의 회귀식을 만들면 나이 증가에 따른 발 크기와 어휘력의 전반적인 변화 추세를 구할 수 있다.
소수의 특이값에 데이터가 흔들리는 것을 막고, 나이라는 연속적인 변수가 미치는 영향을 보다 안정적으로 계산해내기 위해 통계적으로 회귀식을 적합하는 방식을 택한다.
 
4.
그러나 단순 상관관계의 한계를 벗어난 편상관분석에도 사실상 한계는 여전히 존재하는데, 편상관분석을 위해 ‘나이’와 같은 제3의 변수를 통제하기 위해서는,  그 변수가 두 변수 모두에 실질적인 원인으로 작용한다는 인과성이 논리적으로 먼저 밝혀져 있어야 한다. 그저 숫자상으로 같이 움직이는 상관성이 높다는 이유만으로 특정 변수를 통제해 버리면, 오히려 멀쩡한 데이터 간의 관계를 왜곡하는 결과를 낳기 마련이다. (물론 여기에 꼭 인과성이 필요하냐, 상관성만으로 충분하지 않느냐는 갑론을박의 문제가 있는 것으로 알고 있다.)
 
예를 들어, 아이들의 '스마트폰 사용 시간'과 '수업 집중도 하락'의 관계를 분석한다고 해보자. 밤늦게 스마트폰을 하면 수면 시간이 줄어들고 그 결과 다음 날 집중력이 떨어진다. 여기서 수면 시간은 스마트폰과 집중력 사이를 연결하는 매개체다. 그런데 수면 시간이 스마트폰 사용량, 집중력 양쪽 모두와 상관성이 높다는 이유로 이를 기계적으로 통제해버리면, "스마트폰을 아무리 오래해도 집중력 하락에는 아무런 영향이 없다"는 완전히 잘못된 결론이 도출된다.
 
5.
그리고 사실은, 편상관분석은 통제하는 변수인 '나이'에 상관없이 '발 크기'와 '어휘력'의 관계가 모든 나이대에서 동일한 정도의 관계를 가질 것이라는 다소 억지스러운 전제를 깐다. 척보기에도 현실과는 다른 모습일 수 밖에 없다.
초등학교 저학년 때는 발 크기와 어휘력의 관계가 뚜렷하다가도, 고학년으로 갈수록 각자의 독서량이나 학습 환경에 따라 어휘력의 편차가 커지며 발 크기와의 연관성 자체가 옅어질 수 있는 것이 현실의 상식이기 때문이다.
이처럼 제3의 변수 조건에 따라 두 변수가 맺는 관계의 양상 자체가 달라지는 현상을 통계학에서는 상호작용 효과 혹은 조절 효과 라 부른다.
복잡하게 요동치는 현실의 궤적을 편상관계수 하나로 요약해버리는 것은, 통계가 명쾌함을 얻기 위해 감수해야 하는 피할 수 없는 타협일지도 모르겠다.