열린라디오 YTN
  • 방송시간 : [토] 20:20~21:00 / [일] 23:20~24:00 (재방)
  • 진행 : 최휘/ PD: 신동진 / 작가: 성지혜

인터뷰전문보기

[이슈!빅데이터]"6.13 지방선거로 본 여론조사vs빅데이터 그 결과는?"-배철순 소장 6/17(일)
작성자 : ytnradio
날짜 : 2018-06-19 17:49  | 조회 : 3199 
[YTN 라디오 ‘열린라디오YTN’]
■ 방송 : FM 94.5 MHz (20:20~20:56)
■ 방송일 : 2018년 6월 17일 (일요일)
■ 출연 : 배철순 하우사회문제연구소장


∘이슈!빅데이터 시간입니다. 빅데이터 분석을 통해 미디어에서 보여 진 사회현상의 의미를 짚어 보도록 하겠습니다. ‘빅데이터를 처형하라’의 저자이자, 하우사회문제연구소 소장이신 배철순 소장님을 모셨습니다. 소장님 안녕하세요.  

→ 네 안녕하세요. 

∘소장님 한주 만에 다시 뵙는데 꽤 긴 시간이 흘렀던 것 같습니다. 전 세계의 이목을 끌었던, 북미정상회담. 그리고 전 국민이 함께했던 6.13 지방선거, 딱 한주 만인데 정말 많은 일들이 벌어졌던 것 같습니다.  

→ 예 정말 그렇습니다. 많은 분들이 관심을 기울였던 ‘빅 이슈’이기도 하지만 우리의 현재와 나아가 미래에 영향을 미칠 ‘중요한 이슈’이기도 했습니다. 네티즌들과 미디어들 역시 이와 관련된 다양한 이야기들을 쏟아냈는데요. 먼저 북미정상회담의 경제적, 군사적, 외교적 성과와 관련해서는 다소 상반된 의견들이 있었습니다만, 일단 “영화와 같은 장면이 연출되었다”, “무엇보다도 서로 만나기 시작했다는 것이 의미 있다”라는 긍정적인 평가를 다수 관찰할 수 있었습니다.  

∘그렇지요. 많은 분들이 기대하는 만큼 계속 좋은 소식 있기를 바랍니다. 지방선거 역시 북미정상회담의 영향이었을까요. 전국적으로 여당인 더불어민주당이 압승을 했는데요. 최종 투표율이 무려 60.2%로 지난 2014년 6.4지방선거보다 3.4%p나 높았다는 소식이 있었습니다.   

→ 예. 지난 1995년 1회 지방선거 투표율에 이은 23년만의 높은 투표율이라는 데이터가 있습니다. 우리 열린라디오 애청자 분들이 적극적으로 투표에 참여하신 결과가 아닐까 생각해봅니다.

→ 사실 ‘투표율’은 국민의 정치참여도, 관심도를 나타내는 좋은 척도입니다. 선진국일수록 투표율이 낮다는 낭설이 있는데요. 미국을 제외하고는 대부분의 북유럽 선진국, 서구국가, 호주, 일본 등의 투표율은 우리나라보다 높습니다. 그런 측면에서 대한민국의 투표율이 점차 높아진다는 것은 매우 고무적인 일입니다.

→ 그런데 최 아나운서님. 이 투표율이 좀 더 높아질 수 있었다는 사실 알고 계실까요?

∘지금도 상당히 높은 투표율인데, 더 높아질 수 있었다고요? 사전투표도 시행했고, 너무 바쁘신 분들이나 개인의사로 불참하신 분들을 제외하고는 거의 대부분이 참여하지 않았나 생각됩니다만.

→ 물론 그렇습니다. 그런데 실제로 투표에 ‘참여의사’를 밝혔던 분은 거의 100%에 가까운 숫자였습니다. 중앙선거관리위원회에서는 투표를 앞두고 두 번의 ‘투표참여 의향’ 여론조사를 했는데요. “반드시 투표 하겠다”가 무려 76.5%나 되었습니다. “가능하면 투표 참여하겠다”도 18.4%였습니다. 총 투표참여 의향층은 무려 94.9%나 됩니다. 

∘엄청난 숫자네요. 그럼 그 많은 분들이 개인적인 사정으로 투표를 못하셨다는 말인데, 이것은 심각한 문제가 아닐까요?

→ 물론 개인적인 사정이 있으신 분이 분명 있을 겁니다. 하지만 다 그렇다고 보기엔 숫자가 너무 많지요. 그렇다면, 여론조사결과와 실제 투표율 사이에 오차가 있다고 보는 것이 맞을 겁니다. 사실 이런 현상을 나타내는 용어가 있습니다. 바로 ‘사회적 선망 편향(social desirability bias)’입니다. 여론조사, 설문조사 등에서 응답자가 다른 사람에게 좋은 인상을 남기기 위해 답을 하는 경향인데요. 여론조사에서 우세였지만, 실제 투표에서 패배했던 흑인 시장후보 브래들리의 이름을 딴 ‘브래들리 효과(Bradley effect)’, 또 다른 흑인 주지사후보 와일더의 이름을 딴 ‘와일더 효과(Wilder effect)’라고 하기도 합니다.

∘아 그러니까. 사회적으로 부정적인 인식이 될 수 있는 “투표를 하지 않겠다”는 답은 못하니까. 일단 “투표하러 가겠다”고 답하는 그런 현상이군요. 

→ 그렇습니다. 이것은 개인적인 경험입니다. 제 가까이의 지인들에게 어떤 기준으로 후보를 선택하는지를 물었을 때 대부분의 지인들이 ‘정책’을 보고 선택한다고 답합니다. 그런데, 구체적으로 어떤 ‘정책’인지를 묻는 경우에 정확히 말할 수 있는 경우는 극히 드물었습니다. 사실 ‘후보자의 이미지’, ‘정당의 이미지’만 보고 투표한다는 말이 공공연히 하기에는 힘들지요. 실제로 여론조사나 설문조사상 투표의사결정의 가장 큰 요인으로는 늘 ‘정책’이 우선적으로 꼽힙니다.

∘왠지 제 이야기를 하시는 것 같아 살짝 민망해 집니다.

→ 그런 행위가 틀렸다는 것은 아닙니다. 그 ‘이미지’라는 것이 많은 것을 대변하기도 하는 것은 사실이니까요.

→ 제가 어려운 학술용어, ‘사회적 선망 편향’을 가지고 말씀드린 것은, 여론조사가 절대적이지만은 않다는 것을 지적하기 위해서였습니다. 미국사회에서 소수자, 이민자에 대한 배려부족은 매우 지탄받는 행위입니다. 그래서 백인유권자들은 그런 속내를 결코 여론조사를 통해서 밝히지 않습니다. 하지만 투표를 통해서 진짜 원하는 것을 나타냅니다. 이들이 바로 지난 2017년 미국 대선에서 나타난 ‘샤이(Shy) 트럼프’들입니다.

∘아! 소장님께서 종종 인용하시는 여론조사 분석의 실패사례. 바로 빅데이터가 정답을 말했다는 그 이야기군요.

→ 그렇습니다. 구글트렌드 빅데이터의 당선예측 성공사례지요. 자 미국에는 ‘샤이 트럼프’가 있습니다. 그럼 한국에는 누가 있겠습니까?

→ 그렇습니다. 바로 ‘샤이 보수’가 있습니다. 지난 대선부터 보수 야당을 중심으로 많이 언급되어서 이제 국민모두가 아는 용어가 되어버렸는데요. “여론조사 결과가 좋지 않다”라는 사실에 대해 “우리는 샤이 보수가 있다. 숨은 표가 있다”라고 야당이 주장해 온 것이지요.

∘이번 지방선거에서 여론조사를 두고 정말 많은 논란이 있었던 것 같습니다.

→ 그렇지요. 아마 모르긴 해도 여론조사 기관들도, 정말 이번에 틀리면 어떻게 하나 하고 고민을 거듭했을 겁니다. 그래서 이 기회를 틈타서 “여론조사가 틀렸다면, 빅데이터가 답이다”라며 등장한 소위 빅데이터 분석가, 정치컨설턴트들도 등장했습니다. 사실 저도 얼결에 여기저기 인터뷰도 하고 자문도 해주기도 했습니다.

∘그래서 많이 바쁘셨군요. 하지만, 지난 방송에서 소장님께서는 빅데이터 분석을 “지방선거에는 적용하기 힘들다”, “대한민국 특유의 환경적 영향이 크다”라고 단언 하셨던 것으로 기억 하는데요. 

→ 그렇습니다. 그래서 인터뷰를 해도 잘 안 써 주더라고요. 물론 저는 제 판단을 확신하고 있었습니다만, “아 혹시 여론조사 결과가 틀리고, 빅데이터 결과가 맞으면 어떻게 하지”하고 좀 두려웠기도 합니다. ‘여론조사’ 경력이 있긴 하지만, 명색이 ‘빅데이터 분석가’가 ‘빅데이터’를 부정했는데 그것마저 틀리면 저는 먹고 살 길이 없습니다. 그래서 선거를 전후로 열심히 ‘빅데이터 결과’와 ‘여론조사 결과’를 비교 분석해서 오늘 가지고 오게 되었습니다.

∘소장님 너무 재미있는 상황입니다. 그래서 그 조사결과는 어떠신가요?

→ 시도지사급만 말씀드리겠습니다. 이번 선거기간 내내 여당은 대구, 경북, 제주를 제외하고는 꾸준히 여론조사상의 우세를 보여왔습니다. 특히 지난 2일에서 5일 실시되어서 여론조사 공표 기한인 7일 발표되었던 ‘방송3사 여론조사’가 마지막 기준점이 될 수 있을 것 같은데요. 역시 동일한 결과였습니다.

∘그렇지요. 그런데 빅데이터는 달랐나 봅니다.

→ 예 그렇습니다. 선거전일인 12일 오후 5시부터 6시 사이에 해당 선거구내에 구글 사용자를 대상으로, 양대 후보, 서울의 경우는 3대후보로 했습니다. 후보들의 검색빈도를 나타내는 ‘구글 트렌드 빅데이터’를 ‘지난 30일 기준’, ‘지난 7일 기준’으로 나눠서 분석해봤습니다. 

→ 여기서 여론조사와 다르게 빅데이터 분석결과가 나온 지역이 야당의 경우, 서울의 안철수 후보 소폭, 인천의 유정복 후보, 충남의 이인제 후보, 여당의 경우, 대구의 임대윤 후보 소폭, 경북의 오중기 후보였습니다.

∘아 많이 다르네요. 실제 결과와도 전부 반대인데요. 서울의 안철수 후보는 3위에 그쳐서 현재 칩거 중이고, 인천과 충남역시 다소 큰 차이로 야당이 패했던 것으로 알고 있습니다. 대구와 경북은 유일하게 야당이 수성한 곳이니 전혀 다른 결과이고요.

→ 그렇습니다. 전혀 다른 결과지요. 그래도 ‘구글 트렌드 빅데이터’에 의미를 부여해보고자. ‘지난 30일 기준의 검색빈도’, ‘실제득표수를 양대 후보로 환산한 결과’, ‘실제득표율’등 많은 수치와 대조해 봤습니다만, 하지만 빅데이터와의 상관관계를 저는 찾아내지 못했습니다.  

∘소장님 같은 빅데이터 신봉자에게는 슬픈 결과지만, 결국 예측이 맞았던 것이네요. “지방선거에서는 빅데이터 분석이 적용되기 힘들다”, 다행입니다. 그런데 왜 그런 결과가 나왔을까요?

→ 사실 다양한 분석이 가능합니다. “관심을 가지고 검색은 해봤지만, 이것이 긍정적인 의도가 아니라 부정적인 의도였다”, 혹은 “긍정적인 의도의 검색이었지만, 그래도 나는 내가 선호하는 후보를 선택했다”도 될 수 있겠습니다.

∘어렵군요.

→ 저는 ‘이슈’와 ‘인물’이라는 이야기를 꼭 드리고 싶습니다. 안철수 후보, 이인제 후보는 대선 후보 급 인물입니다. 유명인이지요. 검색량 자체가 타 후보를 압도할 수밖에 없습니다. 아무래도 많이 알려진 인물이고, 행동 하나하나가 보도되기 쉽습니다.

∘그렇지요.

→ 야당에게 호남권이 험지라면, 경상권은 여당에게 험지입니다. 대구와 경북에서 나름의 성과를 보이는 두 여당후보에게 많은 분들이 관심을 가지는 것 역시 당연할 것입니다.

→ 이슈도 잊으시면 안됩니다. ‘드루킹의 피해자’ 안철수, 특정지역 비하발언이라 언급치 않겠습니다. ‘막말 파동’의 해당지역 후보자, 유정복 후보에 대한 검색이 많았다는 것은 역시 특별한 일은 아닙니다.

∘오히려 소장님의 말씀이 더 논리적인 것 같습니다. 그럼 빅데이터는 이번 선거에서 여론조사로서의 기능은 하지 못한 셈이군요.

→ 정확히 말하자면, ‘구글트렌드 빅데이터’가 트럼프 당선예측과 같은 결과를 내지 못한 것이지요. 진정한 의미의 이종 간의 빅데이터를 모으고, 충분히 분석한다면 저는 여론조사가 감히 빅데이터에 명함도 내밀지 못할 것이라 생각합니다. 

→ 대한민국 인구가 미국보다 많이 적습니다. 또 구글을 사용하는 인구 또한 포털 사용자의 25%정도에 불과합니다. 외국 포털인 구글의 특성상, 아무래도 특정연령층일 확률도 높고요. 지역으로 쪼개서 분석한다면 그 수를 빅데이터라 말하기엔 많이 부끄러운 숫자일 것입니다. 만약 대통령선거였다면 오히려 틀리기 힘들지 않았을까 저는 생각하고 있습니다.

∘그럴 수도 있겠군요. 하지만, 소장님 말씀을 들어보면 빅데이터 여론분석은 앞으로도 어려운 일일 것 같습니다.

→ 앞서 말씀드린 ‘사회적 선망 편향’ 즉, ‘브래들리 효과’는 1982년의 선거 이야기입니다. 약, 36년 전에 제기된 이론이지요. ‘샤이 보수’의 어원은 영국의 보수당이었던 토리당의 ‘샤이 토리(tory)’에서 나왔습니다. 숨은 보수표가 움직였던 1992년 선거입니다. 실제로 이번 지방선거에서도 보수야당의 지지율은 여론조사보다 많게는 20%p 높게 나왔습니다. ‘샤이 보수’는 승리할 정도는 아니었지만, 존재했다는 이야기지요. 그런데 빅데이터 분석과 관련 이론은 아직 십년도 되지 않았습니다. 오바마 대선을 기점으로 생각한다면, 불과 5년여가 지났을 뿐입니다. 아직은 아닌 것이지 앞으로도 불가능한 것은 아닐 것으로 예상합니다.     

∘소장님께서 마지막에는 빅데이터에 대한 의리를 지키시는 것이 아닌지 생각해봤습니다. 오늘은 지방선거와 관련해 기존의 여론조사가 가지는 맹점, 또 선거기간 내내 소장님을 긴장시켰던 빅데이터 여론조사의 한계에 대해 알아봤습니다. 투표에 참여하신 모든 애청자분들 정말 수고 많으셨습니다. 오늘도 재미있는 내용 감사합니다. 소장님. 

→  네 감사합니다.
 

[저작권자(c) YTN radio 무단전재, 재배포 및 AI 데이터 활용 금지]
목록
  • 이시간 편성정보
  • 편성표보기
말벗서비스

YTN

앱소개