[일부 번역] 구글 독감의 수수께끼: 빅 데이터 분석의 함정

[편집자주]: 구글 독감 예측은 빅데이터의 가능성을 보여 주는 것으로 많이 인용됐다. 하지만, 실체를 뜯어 보면 구글이 기업이라는 한계 때문에 빅데이터의 가능성을 충분히 활용하지 못하고 있다는 점을 알 수 있다. 아래는 〈사이언스〉의 “The Parable of Google Flu: Traps in Big Data Analysis”를 일부 번역한 것이다. [ ] 안의 글은 역자가 이해를 돕기 위해 추가한 말이다. { } 안에 있는 것은 원문과 좀더 대조해 봐야 할 번역이다.

빅데이터 만능주의

“빅데이터 만능주의”(Big Data Hubris)란 빅데이터가 기존의 데이터 수집과 분석을 보완하기보다는 대체할 것이라는 맹목적인 믿음이다. 다른 글에서 우리는 빅데이터가 엄청난 과학적 잠재력을 지니고 있다고 주장했다. 그러나 데이터의 양이 많다고 해서 계량의 근본 문제와 데이터의 유효성, 신뢰성, 데이터 간의 의존성을 구성해야 한다는 과제를 피할 수 있는 것은 아니다. 문제의 핵심은 그동안 세간의 이목을 끈 빅데이터 사례의 대부분이 과학적 분석에 쓸 만한 타당하고 신뢰성 있는 데이터를 산출하기 위한 수단에서 나온 결과물이 아니라는 것이다.

GFT의 초기 버전은 특히 빅데이터와 스몰데이터[기존의 데이터 수집과 분석 방법론을 일컫는 듯?]의 불편한 동거였다. 초기 버전의 방법론은 간단히 말해 5천만 가지의 검색어 중에서 1152개의 [아마도 독감 유행 추이?] 수치와 일치하는 것을 골라내는 것이었다. 독감의 유행과 일치하긴 하지만 구조적인 연관성은 없어서 미래를 예측하는 데에는 무의미한 검색어를 찾아낼 가능성은 꽤 크다. GFT 개발자들 자신들도 고등학교 농구와 관련된 검색어들처럼 독감과는 무관하지만 독감 유행 추이와 큰 상관관계를 보이는, 계절을 타는 검색어들을 제외 했다고 밝힌 바 있다. 개발자들은 이를 빅데이터가 소수의 사례를 과다적합(overfit)하고 있다는 경종으로 여겨야 마땅했다. 특정한 검색어를 그때그때 솎아내는 방식으로는 계절을 타지 않고 유행한 2009년의 A-H1N1 인플루엔자를 예측하지 못했다. 결국 초기 버전의 GFT는 독감을 예측하는 시스템이기도 했지만 겨울을 예측하는 시스템이기도 했던 것이다. GFT 개발자들은 2009년에 알고리듬을 수정했고 이 모델은 2013년 10월에 사소한 수정을 거쳐서 지금까지 이어져 내려오고 있다.

2013년 이전에는 널리 알려지지 않은 사실이지만 GFT는 훨씬 더 오랜 기간 동안 꾸준히 독감 유행 가능성을 과대평가해왔다. [… 통계 수치…]

2009년에 알고리듬을 수정한 이후에도 GFT가 독자적인 독감 예측 시스템으로서 가치가 있는지는 의심스럽다. 2010년의 연구는 GFT가 기존의 CDC(질병관리예방센터) 데이터를 이용한, {2주의 시차를 두는} 단순한 예측법보다도 정확도가 높지 않다는 것을 보여주었다. 설상가상으로 그 이후에는 그 예측법이 정확도에서 GFT를 훨씬 능가했다. 심지어 3주 전의 CDC 데이터도 GFT보다 독감 유행을 더 정확히 예측했다.

안 그래도 독감의 활동을 예측하는 수많은 방법이 있는데 GFT가 쓸모가 있기는 할까? 물론 쓸모가 있다. GFT와 거의 실시간으로 수집한 다른 보건 데이터를 결합하면 더 큰 결실을 얻을 수 있다. 예컨대 GFT와 {시차를 둔} CDC 데이터를 결합하고 그에 따라 GFT를 동적으로 미세조정하면 GFT나 CDC 데이터 만을 활용했을 때보다 더 좋은 결과를 얻을 수 있다.

알고리듬의 변화

모든 경험적 연구는 측정을 토대로 한다. 측정 도구가 실제로 문제의 이론적 구성물을 포착하는가? 측정 수단이 안정적이어서 다른 때와 장소에서 측정한 결과를 비교할 수 있는가? 아무리 너그럽게 봐도 GFT는 독감 유행을 측정하는 도구로서 전혀 안정적이지 않은데 이것은 구글의 검색 알고리듬이 알고리듬 역학의 영향을 받기 때문이다. 알고리듬의 역학이란 개발자들이 서비스를 개선하면서, 혹은 소비자들이 그 서비스를 사용하면서 일으키는 변화를 말한다. 구글의 검색 알고리듬이 거친 여러 변화와 사용자의 사용 방식의 변화는 GFT의 예측에 영향을 미쳤을 가능성이 높다. GFT의 오류에 대한 가장 흔한 해명은 지난 플루 시즌 때 미디어가 괜히 공포감을 부추겼다는 것이다. 이것이 영향을 미쳤을 수는 있지만 이것만으로는 왜 2년 내내 GFT가 그렇게 큰 오차를 보였는지 설명할 수 없다. […]

구글의 검색 알고리듬은 고정된 실체가 아니다. 구글은 끊임없이 검색을 시험하고 개선한다. 예컨대 2012년 6-7월 사이에 구글이 공식 블로그를 통해 발표한 변경 사항만 86가지에 이른다. […]

GFT의 원래 알고리듬을 재현하는 데에는 여러 가지 어려움이 따른다. GFT는 예측에 사용한 45개의 검색어를 명시한 적이 없으며 구글이 발표한 보고서에서 제시한 사례는 {사태를 호도한다.} 구글은 Google Corelate라는 서비스를 제공해서 사용자들이 시간에 따른 검색 데이터를 조회할 수 있게 했지만, 이 데이터는 국가 수준 이하로는 볼 수 없다. 반면 GFT는 지역 수준에서 나타난 상관 관계를 기반으로 개발한 것이다. […]

그럼에도 Google Corelate 서비스로 GFT 시계열과 연관된 검색어와 CDC를 비교하면 흥미로운 결과가 나온다. 특히 독감 치료에 대한 검색과 독감과 감기의 차이를 묻는 검색[의 추이]는 GFT의 오류[ 추이]를 밀접하게 따라 다닌다. 이것은 검색 방식의 상대적인 변화를 “청팀 동학”(Blue Team Dynamics)으로 설명할 수 있음을 시사한다. “청팀 동학”:이란 데이터를 생산하는 알고리듬(따라서 이용자의 이용 방식)이 서비스 제공자의 사업 모델에 맞게 변화하는 것을 말한다. 구글은 2011년 6월에 추가적으로 [추천?] 검색어를 제공하도록 검색 결과를 수정했다고 발표했으며 다음 해 2월에는 “고열”이나 “기침”과 같은 신체 증상을 검색하면 그에 대한 대처법이 나오게 했다고 발표했다. 전자의 결과로 일반적인 독감을 검색하면 독감 치료법이 추천 검색으로 나왔을 것이며, 어쩌면 후자의 결과로 감기와 독감의 차이를 묻는 검색이 늘어났을지도 모른다. [….]

서비스를 개선하기 위해 구글은 데이터를 생성하는 과정도 수정한다. 검색 엔진의 알고리듬은 아마 구글의 사업 모델에 맞게 수정될 것이다. 예컨대 사용자가 유용한 정보를 빨리 찾도록, 혹은 광고 수익을 올리도록 말이다. 다른 사용자의 검색을 기반으로 하는 추천 검색어는 특정한 검색어가 차지하는 비중을 늘릴 것이다. GFT는 검색어가 차지하는 비중을 토대로하기 때문에 검색 엔진의 성능 향상이 뜻하지 않게 GFT의 예측에 영향을 줄 수 있다. 기이하게도 GFT의 작동 방식은 특정한 검색어가 차지하는 비중이 외부적인 사건에만 통계적으로 관계한다고 여긴다. 그러나 외부적인 요인 뿐만 아니라 서비스 제공자가 일으킨 내부적인 요인도 검색 형태를 규정한다.

청색 팀 문제는 비단 구글에만 한정된 문제가 아니다. 트위터나 페이스북과 같은 플랫폼들은 언제나 개량되며 이런 플랫폼에서 데이터를 수집한 연구들은 1년 밖에 지나지 않은 것이라 하더라도 재현 가능성이 상당히 불투명하다.

GFT에서는 문제가 되지 않겠지만 연구자들은 자신이 연구하는 시스템에 대한 “홍팀”(Red Team)의 공격에도 유의해야 한다. 홍팀의 동학은 연구 대상(즉 웹 검색자)들이 자신의 경제적, 정치적 등의목적을 위해 데이터 생성 과정을 조작할 때 작용한다. 트위터 {polling}이 이런 전략의 뚜렷한 예다. 뉴스 미디어가 트위터를 모니터링 한다는 것을 아는 정치 활동가들과 회사들은 자신이 미는 사람이나 제품을 유행시키기 위해 다양한 전술을 구사할 수 있다.

트위터와 페이스북에서는 주식 가격이나 시장에 대한 루머를 퍼뜨리려는 시도가 이루어진다. 아이러니하게도 이런 개방된 정보원을 이욯아는 사람들의 행동을 예측하는 데 성공할 수록 그 {신호, signal}을 조작하고 싶은 유혹도 커진다. […]

[교훈]

[…]

투명성과 재현 가능성: 재현 가능성 문제에 대한 우려가 학계에서 커지고 있다. GFT를 지지하는 문헌들은 이에 대한 합의 중인 표준을 따라오지 못한다. 주요 검색어가 무엇이었는지도 밝혀지지 않았고 {더 큰 규모의 검색 데이터도 제공되지 않았다}. 구글이 외부인에게 자신의 모든 데이터를 공개하는 것은 [개인 정보 문제 때문에 불가능할지도 모른다.] 그러나 거기에서 파생된, 총계 데이터에는 그런 제약이 없다. 게다가 구글의 모든 데이터에 접근할 수 있다고 하더라도 {기존의 연구를 재현하는 것이} 불가능할지도 모른다. {구글이 GFT를 본따서} Google Corelate를 개발한 것은 기특한 일이지만 공개된 기술로는 그들이 발견했다고 주장하는 바를 재현할 수 없다. “실제 독감이 유행한 패턴과 대조해보세요!(이렇게 구글 독감 트렌드를 만들었답니다)”라는 링크를 클릭하면 아이러니하게도 GFT 검색어의 결과를 재현한 모습을 볼 수 없다. 기이하게도 보고서에서 발표한 어떤 검색어들은 GFT난 CDC 데이터 어느 쪽과도 그다지 강한 상관 관계를 보이지 않는다. 구글 측이 실제 검색를 공개하지 않는 데에는 뭔가 석연치 않은 이유가 있는 것 같다.

이것은 두 가지 대의 명분이 걸린 문제다. 우선 과학이란 모두가 함께 쌓아올리는 활동이며 우리가 거인의 어깨에 서려면 연구자들이 계속해서 자기가 쌓아올린 건축물을 평가할 수 있어야 한다. 그리고 지식을 축적하려면 데이터라는 연료가 있어야 한다. 빅데이터 프로젝트의 가치를 높이고 이런 데이터에서 더 실질적인 정보를 뽑아내길 기대하고 있는 연구자들의 네트워크가 있다. GFT의 전망, 즉 전염병 유행의 실상을 더 정확히 파악해 더 많은 생명을 구할 수 있다는 전망은 근본적으로 옳다. 여기서 실제로 유의미한 signal을 얻어낼 수 있다고 모든 연구가 한결같이 시사한다.

구글은 기업이지만 또한 인류의 욕망과 사고와 관계에 대한 데이터를 독점하고 있다. 더 큰 선이 가능하다면 “사악하지 않은” 방식으로 돈을 버는 것만으로는 불충분하다. 한편 이러한 빅데이터 프로젝트와의 협력을 촉진하는 제도적 장치를 마련해야 할 과제가 학계에게 있다. 요즘 학계에는 이런 것이 너무 부족하다.

미지의 것을 이해하기 위해 빅데이터를 활용하기 [… 기존 예측 모델도 국가적 수준에선 잘 작동한다. GFT가 할 수 있는 것은 지역적 수준의 섬세한 데이터]

[알고리듬을 연구하기 … 알고리듬 동학이 연구 대상과 사람들에게 미치는 영향을 고려해야 한다 … ]

[Not Big Data Revolution, but all Data Revolution … 빅데이터가 기존의 통계 분석 방법론을 대체할 수 없다 … ]