상세 컨텐츠

본문 제목

나는 철학과 윤리가 있는 ‘빅데이터’ 분석가를 꿈꾼다!

뇌과학 & IT

by 행복한동네문화이야기 2017. 11. 5. 09:00

본문

[빅데이터의 허와 실]

나는 철학과 윤리가 있는 ‘빅데이터’ 분석가를 꿈꾼다!


겉으로만 성공처럼 보이는 분석

  여러분은 ‘공공데이터’가 무엇인지 아시나요? 말 그대로 공공기관에서 나오는 데이터들을 말합니다. 빅데이터 시대가 도래된 가운데 정부의 각 부처에서는 공공데이터를 모으기 시작했고, 이 공공데이터를 활용하여 창업자들이 창업할 수 있는 포털 사이트까지 만들어 놓았지요. ‘빅(big)데이터’가 되려면 각 부처와 지방자치단체에서 자신의 데이터들을 부지런히 올려야 합니다. 그러나 잘 실행되지 않았을 뿐 아니라 데이터로 분석할 수 있는 파일이 아닌 사진이나 한글 문서로 된 보고서들이 대부분인 것이 안타까운 현실입니다. 


  저는 이런 상황 속에 때마침 석사 논문을 써야 했는데, 각 부처와 지방자치단체를 관리할 수 있는 시스템을 만들면 어떻겠느냐는 제의를 받았지요. 저는 드디어 제 일을 실제로 하는구나 하는 생각에 신이 났습니다. ‘그래, 데이터가 많이 없으면 그것을 활용조차 할 수 없으니 관리 시스템이 필요하지’라고 생각하며 시스템을 구축하기 위해 뛰어들었습니다. 각 부처와 지방단체가 어떤 데이터를 몇 건이나 올렸는지, 활용하기 편한 파일형태(엑셀, API 등)로 올렸는지, 아니면 분석하기 어려운 파일형태(jpg, 한글 문서 등)로 올렸는지, 얼마나 자주 업데이트를 하는지, 똑같은 내용의 데이터는 없는지 등을 파악하여 가중치를 매기고 합산해 각 부처별, 지방단체별로 점수를 공개했습니다. 이것을 본 정부관련 직원들은 기뻐하며 실시간으로 자동화 했으면 좋겠다고 하더군요.

 

<지방자치단체 공공데이터 건 수를 색깔로 표현함, 진할수록 공공데이터가 많은 지방자치단체임 >


초짜 빅데이터 분석가의 윤리적 실패를 정직하게 고백하다.

  하지만 이것이 정말 잘한 일이었을까요? 전 실패라고 생각합니다. 그 가장 중요한 이유는 이 시스템이 ‘누군가를 판단, 평가하기 위해 만들어진 것’이기 때문입니다. 공공데이터를 관리하는 정부 입장에서는 이런 시스템이 유용할지 모르겠습니다. 하지만 각 부처와 지방단체에서 일하는 사람의 입장에서는 자신이 해당하는 지역의 점수가 낮다는 이유만으로 ‘게으르다’라고 판단, 평가받을 수 있기 때문입니다. 함께 연구했던 교수님조차도 제가 만든 결과를 보고 “이 지방은 게으르네”, “여기 지역은 보건 분야의 데이터가 하나도 없는 것을 보니 보건부서 사람이 게으른 건가?”라고 말했을 정도니까요. 저 역시 처음에는 그렇게 반응했습니다. 그래서 데이터를 잘 올리는 지역은 인센티브를 줘서 서로 경쟁하게 하는 것은 어떨까라고 제의하기까지 했으니까요. 그러나 데이터가 없다고 혹은 업데이트가 느리다고 과연 그 지역의 공무원이 게으른 걸까요? 혹시 그 공무원이 데이터를 올리는 것보다 더 중요한 동네주민을 위한 서비스에 너무 바빠 데이터를 못 올린다면 어떨까요? 제가 만든 분석 시스템 때문에 공무원들이 잘못 평가되어 실제로는 사회성과 헌신도가 높은 좋은 공무원이 사직하게 되고 컴퓨터만 잘 다루면 되는 공무원으로 정부나 지방정부가 채워지는 무서운 일이 벌어질 수도 있을 것입니다. 실제 해외에서도 단지 학급 아이들의 점수만으로 교사를 평가하여 다른 교사들에게 좋은 평가를 받은 교사가 그만 두게 되는 사례가 있었습니다(캐시 오닐, 대량살상수학무기 Weapons of Math Destruction, 2017). 그 교사는 인격적으로도 사회적으로도 매우 탁월했음에도 말이지요.


  석사과정을 마친지 1년 6개월이나 지났지만 이렇게 ‘나의 논문이 실패다’라고 솔직하게 말할 수밖에 없는 가장 근본적 이유는 ‘사회과학에서 근본이 되어야 하는 철학과 윤리가 없었기 때문’입니다. 물론‘그것은 데이터를 모으기 위해 필요한 절차일 뿐이야, 감시 시스템이 있어야 공무원들이 빨리 올리고 질 좋은 데이터를 올리지’라고 핑계댈 수는 있습니다. 하지만 저의 단순하고 폭넓게 고려하지 않은 가운데 만든 데이터를 분석하는 도구나 그것을 종합하는 시스템을 통해 누군가 잘못된 평가로 직장을 잃는다면, 그 책임은 누가 질까요? 저는 지금이라도 이런 잘못을 극복하고 다시 시작하려는 마음에서 이 글을 씁니다. 그래서 먼저 철학과 윤리가 빠진, 잘못된 분석가의 태도의 사례들을 살펴본 후, 철학적, 윤리적 빅데이터가 과연 무엇이 되어야 할까를 생각해보고 마지막으로 그것을 위해 나는 무엇을 준비해야 할까 정리해 보았습니다. 


철학과 윤리가 빠진 잘못된 분석가의 태도

  1) 잘못된 태도 - 조작

  분석결과를 조작하려는 유혹을 받기가 너무 쉽습니다. 대학원시절 프로젝트를 하면서 동료들끼리 나누었던 가장 정직한 고민이 있었다면 사실 이 점이었습니다. 심지어 고객(클라이언트)이 원하지 않는 분석 결과가 나왔을 때, 변수를 고쳐서라도 완결성(performance)를 나타내기 위해 원하는 쪽으로 결과가 나오게 만들어야 한다는 강박 속에 지낸 적도 있습니다. 그 이유는 돈을 받기 때문에 어느 정도 맞춰줘야 한다는 생각에서였지요.


  2) 잘못된 태도 - 분석과정의 불투명성

  분석과정에 대해 전혀 공개하지 않습니다. 그 과정을 공개하기를 결정하기란 정말 쉽지 않습니다. 어떤 기준으로, 어디에서, 어떤 분석모형들을 만들었는지 공개화시키면 분석가의 주관적 사고가 드러납니다. 따라서 책임의 소재가 분명해 지기 때문에 대부분 공개화를 꺼립니다. 특히 사람을 평가하는 분석일 경우는 수많은 인간적, 사회적, 환경적 변수들을 다 고려해야 하는데, 이런 것들을 다 연구하고 조사하려면 사실 몇 십 년이 걸려도 모자랄 수도 있지요. 그래서 어느 정도만의 변수로 분석할 수 밖에 없는데 이렇게 만들어진 결과라면 당당하게 공개하는 것은 거의 불가능하다고 할 수 있습니다. 더구나 새로운 기술인 머신러닝 알고리즘은 블랙박스로 남겨두는 것이 현명한 길이라고 다들 믿고 있다고 솔직히 고백해야 할 것 같습니다.


  3) 잘못된 태도 -‘귀차니즘’

  정확한 분석을 위해서는 다양한 형태의 변수로 된 엄청나게 많은 데이터양이 필요하지만 사실 수많은 데이터 속에서 모든 변수들을 고려하면서 집요하게 찾아 나서지 않습니다. 예를 들어, 농산물 가격을 예측할 때 가격에 영향을 미칠 수 있는 농산물의 과거 데이터 변화 추이도 중요합니다. 하지만 달러지수, 유가변동, 수입량, 수출량, 경쟁농산물 가격과 비교, 뉴스, 심지어 기상데이터까지 찾아 수집해야 하는데 이 과정이 참으로 귀찮고 실제로 어렵습니다. 그래서 데이터 분석가들은 ‘이 정도면 되지 않겠어?’라는 유혹을 늘 받기 마련이죠. 또한 그 많은 데이터를 가공하기란 매우 복잡한 작업으로 아주 오랜 시간이 걸리기 때문입니다.


  4) 잘못된 태도 - 부분적 사고, 미래를 내다보지 못하는 사고

  고객(클라이언트)의 요구가 있을 때 나의 분석적 노력이 누구에게나 유익한가? 윤리적인가? 더 나아가서는 분석 이후에도 사회에 좋은 문화를 만드는데 기여할 수 있는가?를 절대 질문하지 않습니다. 지금 당장 눈앞에 닥친 문제 해결과 클라이언트가 요구하는 사항에만 집중하기 때문입니다. 예를 들어, 온라인 마케팅에서 많이 활용되고 있는 추천시스템의 경우 ‘회사 입장’에서는 적절한 상품을 고객 맞춤형으로 추천해주어 검색하지 않아도 쉽고 빨리 살 수 있게 만들고 싶어합니다. 하지만 ‘고객 입장’에서 과연 그것이 도움이 될까요? 물론 검색을 오래하지 않아도 되니 편리한 기능이라 생각할 수 있습니다. 하지만 당장 살 계획이 없는 고객에게 그 정보를 보냄으로 소비심리를 부추기려는 목적이 숨어있는 것은 아닐까요? 또한 이렇게 고객의 입장에서는 스팸메일에 속할 수 있는 것을 계속 보낸다면 이것은 윤리적일까요? 오히려 고객의 가치판단을 흐리게 하거나 그들의 행동을 수동적으로 만들 뿐입니다. 또 이런 정보에 고객을 많이 노출시킴으로 구매의욕을 증가시키려는 심리학적 결과를 사용해 도리어 고객의 호주머니의 돈을 노리는 상술이 될 수도 있습니다. 더 나아가 이렇게 고객들의 충동구입과 쇼핑중독을 부추긴다면 과연 우리는 지금 건강한 사회와 창조적인 문화를 만들고 있는 걸까요? 눈앞에 보이는 빅데이터 고객(클라이언트)의 요구사항에만 집중할 뿐, 초연결사회 속의 점차로 넓어지는 영역과 먼 미래까지 파생될 결과들, 끝까지 철저하게 질문하지 않는 빅데이터의 현재의 모습을 솔직히 드러내지 않을 수 없습니다. 그렇다면 철학적, 윤리적 문화를 만들 수 있는 빅데이터는 없는 걸까요? 


철학적, 윤리적 문화를 만들 수 있는 빅데이터 가능하다!

  ‘사람을 살리는 윤리적 빅데이터’가 있었습니다. 예를 들어, 캐나다 온타리오 공과대학병원의 미숙아 모니터링을 통한 감염예방 사례가 그렇습니다. 선진국에서도 출생아 중 10% 이상이 미숙아로 사망한다는 소식을 듣고, 이 병원에서는 건강에 대한 위험 상황을 신속히 감지하고 즉각 대응할 수 있는 분석시스템을 만들었습니다. 특히 병원균 감염에 취약한 미숙아들은 진찰을 통해 감염사실을 파악하면 이미 치료시기를 놓쳐 위험한 상황에 이를 수 있었지요. 그래서 인큐베이터 안에 있는 미숙아의 다양한(혈압, 체온, 심전도, 혈중산소포화도 등) 실시간 데이터 분석을 통해 24시간 미숙아 건강상태를 점검하고, 의료진보다 먼저 감염될 수 있는 요소를 데이터 상에서 밝혀냄으로써, 상태가 더 악화되기 전에 치료할 수 있게 하였지요. 환자(미숙아당 하루 9,000만 건 이상의 데이터 스트림을 실시간 분석하여 진찰기록차트에만 의존하던 사후치료중심에서 감염사실을 ‘사전에 파악’하고, 질병을 ‘초기에 예방’할 수 있는 기반을 확보하였다고 평가받게 된 겁니다. 이들은 생명을 살렸고, 이 시스템이 모델이 되어 한국 의료계도 도입되었습니다. 이렇게 건강한 의료문화를 만들어 간 빅 데이터도 있는 겁니다. 




그러면 ‘철학이 있는 빅데이터’는 어떻게 만들 수 있을까요?

  철학적인 것은 다음의 4가지를 갖추면 될 것 같습니다.

  1) ‘부분적 사고’에서 ‘전체적으로 사고’로 전환하는 것입니다. 고객(클라이언트)의 요구사항 뿐만 아니라 그 주변의 관련된 모든 사람들에게도 유익한가를 고려하는 것입니다.


  2) ‘현재’만 생각하는 것이 아니라 ‘현재와 함께 과거와 미래’까지 생각하는 것입니다. 현재 결과와 내가 만든 분석모델과 시스템이 먼 미래까지 과연 유익한가를 고려하는 거지요.


  3) ‘내 기업, 내 나라’뿐 아니라 ‘지구 전체와 우주’까지 영향력이 있는가를 배려하는 겁니다.


  4) ‘영속적 가치’, ‘영원성’을 가지는가를 생각해 보는 것입니다. 이 부분은 사실 종교적 차원에 속하는 것입니다만, 이것까지 고려하지 않는다면 단편적이고 일시적 가치를 가진 전문가에 의해 만들어져서 결국 허무한 결과만 남기고 말 것입니다.


  제가 실패한 이유도 이런 점들을 다 고려하지 않고 현재의 필요와 요구만 중요하게 생각했던 데 있었습니다. 그 결과 사람들로 하여금 데이터를 빨리 올리도록 채찍질하는 습관을 만들게 되었고, 더 나아가 제 자신도 한국적인 빨리 빨리 문화에 휩쓸려가고만 겁니다. 또한 오래가고 인간을 정말 배려하는 가치지향적인 것 대신에 사람을 점수화함으로 단편적인 평가만을 내린 것에 불과하게 되었습니다.       


앞으로 빅데이터의 철학적, 윤리적 기초를 마련하기 위해 나는 무엇을 준비하고 있나?

  1) 빅데이터 기술 이전에 중요한 수학과 공학뿐 아니라, 인문학(심리학, 사회학, 경제학, 역사), 철학, 신학, 종교에 대한 연구를 꾸준히 진행하려고 합니다. 인간에 의해서 만들어진 수많은 데이터들을 활용하여 다시 인간에게 이로운 기여를 하기 위해서는 반드시 이런 기초적이고 이론적인 공부와 훈련이 필요하기 때문입니다.


  2) 다른 전공자들과의 연구와 토론을 주고받는 공동체를 형성하고 꾸준히 열린 대화를 지속해나가려고 합니다. 내 분야의 ‘나무’에 집중하기 전에 다양한 다른 영역 전공자들의 시각들과 함께 인간사회와 문화가 이루어가는 ‘숲’을 보며 총체적 사고를 하기 위해서입니다.


  3) 분석해야 할 것과 하지 말아야 할 것들을 분별할 수 있는 구체적 기준을 만드는 것입니다. 예를 들어 공장에서 불량률을 떨어뜨리기 위한 분석들은 인간에게 피해를 주기보다 효율성을 높이기에 긍정적으로 평가 되지만, 그 속에서 일하는 사람을 평가, 판단하는 분석은 매우 다양한 변수로 오랜 작업 끝에 하든지 아예하지 않으려고 합니다.


  4) 분석 후 피해사건이 발생했을 때 책임 소재에 대한 기준을 만드는 것입니다. 흔히 분석가들에게는 ‘책임’이 없다고 여깁니다. 오히려 그것을 요구한 한 의뢰자(회사)가 책임을 집니다. 하지만 분석가들 개인이 책임을 지지 않는다면 완벽한 분석을 내어놓기 어려울 것이며, 점점 증명되지 않은 자신들의 주관적 경험과 가치관에 의한 분석을 통하여 매우 위험한 결과를 산출할 수 있습니다. 따라서 명확한 책임의 한계와 범위를 제시하는 것이 반드시 필요합니다. 


  저는 아직 초짜 분석가에 불과하지만 그동안 이 영역에 있으면서 너무나 피상적으로 지냈다고 반성해 봅니다. 아니 처음부터 분석가로서의 기초가 아예 되지 않은 것이 아닌가 생각해 봅니다. 그것은 제 안에 이 직업에 대한 명확한 철학과 깨끗한 윤리의식이 없었기 때문입니다. 직장을 선택할 때에도 아무데나 무조건 분석하는 곳이라면 들어가려 했으니까요. 하지만 지금 기준이 없었던 저를 돌아보고 다시 새롭게 시작해 보고자 합니다. 진정 철학과 윤리가 있는 분석가로서 다시 취업을 하고, 만약 세상에 그런 직장이 없다면 창업을 해서라도 새롭게 해 보고 싶습니다.


머신러닝과 딥러닝을 활용한 빅데이터 분석 전문가 양성과정 

김지혜  ttculture@naver.com


이 글은 < 행복한동네문화이야기 제 97호 >에 실려 있습니다.


< 행복한동네문화이야기 >는 

  • '지역적 동네'뿐 아니라 '영역적 동네'로 확장하여 각각의 영역 속에 모여 사는 수많은 사람들의 다양한 스토리와 그 속에서 형성되는 새로운 문명, 문화현상들을 동정적이고 창조적 비평과 함께 독자들에게 소개하는 국내 유일한 동네신문입니다.
  • 일체의 광고를 싣지 않으며, 이 신문을 읽는 분들의 구좌제와 후원을 통해 발행되는 여러분의 동네신문입니다.
  • 정기구독을 신청하시면 매월 댁으로 발송해드립니다. 

    연락처 : 편집장 김미경 010-8781-6874

    1 구좌 : 2만원(1년동안 신문을 구독하실 수 있습니다.)

    예금주 : 김미경(동네신문)

    계   좌 : 국민은행 639001-01-509699



관련글 더보기