상세 컨텐츠

본문 제목

상관관계와 인과관계의 차이

2023년 2월호(160호)

by 행복한동네문화이야기 2023. 8. 12. 19:42

본문

[빅데이터 분석이야기 1] 

 

correlation VS  causality  

상관관계와 인과관계의 차이 

 

 한 연구자가 아이스크림 판매량의 연중 증감 추이와 연중 익사 사망자의 증감 추이를 확인했습니다. 그리고 두 변인 간의 상관분석을 시행해 보았지요. 그 결과는 놀라웠습니다. 무서울 정도로 명백한 상관관계가 나타나고 있었으니까요. 아이스크림 판매량이 급증하는 동안, 익사 사망자수도 함께 증가하고 있었으며 판매량이 감소하는 동안 익사 사망자 수도 감소하고 있었던 것입니다. 연구자는 몸서리를 치면서 다음과 같은 결론을 내렸지요.“익사 사망자의 증감은 아이스크림이 그 원인이다.”그런데 위의 내용들을 꼼꼼히 읽어보았다면 무엇이 문제인지 금세 짐작할 수 있을 것입니다. 이 연구자는 제3의 변인 즉‘여름 평균온도’라는 변인을 전혀 고려하지 않았고, 여름 평균온도가 익사 사망자 수의 원인 중 하나인 것을 찾지 않았습니다. 보다 정확히 말하면, 여름 평균온도의 증가가 피서객의 수를 증가시키고 피서객의 수의 증가가 다시 익사자 수의 증가로 이어진다고 할 수 있습니다. 그 외, 익사 사망자 수의 원인으로 꼽을 만한 다른 변인들로는 안전 불감증, 국지 기후의 변화, 해수욕장 및 수영장의 안전교육 현황, 세이프가드 및 해경요원의 수 등이 있습니다. 그러나 상관관계에 대한 연구만을 수행해 놓고, 정작 인과관계를 규명할 연구는 진행하지 않은 채 인과관계에 대한 결론으로 이어진 것입니다. 이처럼 우연한 두 사건이 잇달아 일어난 사건이 많으면 많을수록 사람들은 관계가 있다고 착각 할 수 있습니다. 그렇지만 자세히 보면 이는 우연의 반복이지 원인과 결과의 관계라고는 볼 수는 없지요. 따라서 상관관계(correlation)는 두 사건 사이에 관련이 있긴 하지만 어느 쪽이 원인이고 결과인지 명확하지 않기 때문에 쓰는 말에 불과합니다. 반면 인과관계는 원인과 결과가 확실하게 구별되는 것을 말하고 있습니다. 그래서 이 둘의 차이를 우리는 잘 이해해야합니다. 왜냐하면 일상생활에서도 이런 오류들을 경험하게 되며, 특히 데이터 분석가라면 AI모델에서 틀린 예측을 할 수 있기 때문입니다.

 제가 작년 일본에서 경험한 프로젝트 중 하나인 가격 예측 프로젝트를 할 때였습니다. 철강의 후판가격(종속변수)을 예측하면서 철을 만드는 원자재(석탄, 철광석 등)가격, 연료(oil)가격, 각 나라별 수출입가격, 환율, 다른 종류의 코일철강가격, 한·중·일의 조선업에서의 수주량, 건축 등의 데이터를 수집했습니다. 그리고 과거 철강 가격과 지금 나열한 다양한 가격(독립변수)들의 상관관계를 시간별 기준으로 계산을 했죠. 이들 중에서 상관관계가 가장 높은 것은 원자재 가격의 변동이었고 이에 따른 후판가격의 변동이 마치 같은 패턴을 보이는 것 같았습니다. 하지만 어떤 특정시점에서 예측율이 크게 떨어지는 것을 볼 수 있었습니다. 왜냐하면 원인분석을 하지 않았기 때문이지요. 상관관계는 있을 수 있으나 그 당시 철강 가격을 결정함에 있어서 진짜 원인은 바로 국제관계에 있었기 때문입니다. 러시아에서 전쟁이 있었고 코로나의 여파로 중국 공장이 멈추기 시작하면서 모든 철강 가격이 갑자기 급등하기 시작했습니다. 그래서 제가 개선한 솔루션은 상관관계가 높은 값만 변수로 선택하는 것이 아니라 각 분야별(원자재/oil/수출입/국제관계 등)로 파트를 나눈 후, 각 파트에서 대표할 수 있는 데이터를 1차적으로 뽑았습니다. 그리고 부모(원인)와 자식(결과) 관계를 볼 수 있는 트리구조상의 상관관계를 계산하는 방식을 썼습니다. 마지막으로 더 나아가 원인을 파악하기 위해 시차 분석도 병행했죠. 보통 같은 시점의 데이터를 가지고 상관관계를 보지만 시차를 고려하여 분석을 한 것입니다. 예를 들면 3개월 전 시점의 철광석 가격(독립변수)이 지금 시점의 후판가격(종속변수)에 영향을 미친다는 사실을 알게 되었고, 이를 적용했을 때 예측율을 다시 높일 수 있었습니다.

출처-패스트캠퍼스


 이처럼 AI모델을 만들기 전에 위의 모든 과정을 Feature Selection이라고 하는데요. 즉, 어떤 데이터(변수)를 사용할 것이냐가 중요합니다. 그때 보통 상관계수를 이용합니다. 예측하고자 하는 종속변수와 예측에 사용하고자 하는 독립변수의 상관계수가 0.6이상 높으면 영향력이 크다고 생각하지요. 하지만 X가 올라가거나 내려가면 Y도 같이 올라가거나 내려간다는 수학적 계산으로 서로의 관계성은 밝힐 수 있으나, A가 일어나기 때문에 B가 일어난다고는 할 수는 없습니다. 따라서 상관관계는 두 변수 간에 일정한 관계가 있음을 뜻하는 것이고 인과관계는 원인과 결과의 관계라고 볼 수 있습니다. 따라서 분석가들은 이 둘의 차이를 명확히 구별하고 사용해야 하지요.
 
 첫 번째, 축적된 사건들의 결과로 변수들의 상관관계는 파악할 수는 있으나 데이터들의 출처 영역(domain knowledge)을 제대로 파악하지 않는다면 원인과 결과를 유추할 수 없기에 현장에서 나오는 데이터를 알기 위해 탐방 등 현장에서 질문을 많이 해야 합니다. 두 번째, 비슷한 사건에서 일어난 사건들이 많다고 무조건 일반화 시켜서는 안 될 것입니다. 패턴화된 데이터 외에 특별한 변수들(국제관계)을 찾거나 현실적 예상들을 상상해야 합니다. 세 번째, 마지막으로 인과관계를 찾기 위해서는 다양한 알고리즘을 알아야 하고, 실제 적용하고 새로 나온 논문들을 계속 찾아봐야 할 것입니다.

 그렇다면 일반인들은 어떻게 적용할 수 있을까요? 일상생활 속에 상관관계와 인과관계를 쉽게 찾아볼 수 있습니다. 예를 들어‘감기약을 먹으면 자꾸 몸이 늘어져요’라고 말하는 경우가 있습니다. 물론 감기약 안에 졸음을 유발하는 성분이 들어 있기도 합니다. 하지만 몸이 감기 바이러스와 싸우느라 피곤하기도 하지요. 꼭 감기약을 먹어서 피로감을 느끼는 게 아닐 수 있는데도, 감기약을 먹은 시간과 피로감 느끼는 시간이 겹치니 둘 사이에 마치 인과관계가 있는 것처럼 착각하기 쉽습니다. 또한 우울과 자존감은 상관이 있다고 합니다. 우울한 사람이 자존감이 낮을 가능성이 있기 때문입니다. 그런데 우울 증상이 심해서 자존감이 낮아진 것인지, 아니면 자존감이 낮아서 우울한 것인지는 분명치 않습니다. 따라서 우울증 약을 먹는다고 자존감이 좋아지는 것 같지도 않습니다. 도리어 우울증과 자존감을 극복하기 위해 작은 목표를 세우는 것이 좋을 것 같습니다. 운동을 하면 우울할 틈이 없고 언어 공부 등 자신이 할 수 있는 목표를 설정해 놓는 것은 어떨까요? 
 
 이처럼 우리의 일상생활에서나 데이터 분석에 있어서 상관관계와 인과관계 차이의 구별은 중요합니다. AI모델의 오류 방지는 물론 일상생활의 삶의 태도도 바꿀 수 있기 때문이지요.

 

zion2020kim@gmail.com
Data Scientist 김지혜

 

 

 

이 글은 <행복한 동네문화 이야기 제160>에 실려 있습니다.

 

 

< 행복한동네문화이야기 >는 

  • '지역적 동네'뿐 아니라 '영역적 동네'로 확장하여 각각의 영역 속에 모여 사는 수많은 사람들의 다양한 스토리와 그 속에서 형성되는 새로운 문명, 문화현상들을 동정적이고 창조적 비평과 함께 독자들에게 소개하는 국내 유일한 동네신문입니다.
  • 일체의 광고를 싣지 않으며, 이 신문을 읽는 분들의 구좌제와 후원을 통해 발행되는 여러분의 동네신문입니다.

정기구독을 신청하시면  매월 댁으로 발송해드립니다.
    연락처 : 편집장 김미경 010-8781-6874
    1 구좌 : 2만원(1년동안 신문을 구독하실 수 있습니다.)
    예금주 : 김미경(동네신문)
    계   좌 : 국민은행 639001-01-509699
 

관련글 더보기