구글 맞춤검색(CSE) 서비스 시작

6월 말이 되면 꼭 시작하겠다고 생각한 숙원사업이 있었습니다. 바로 구글 맞춤검색!

레프트21이 서비스하는 글들은 다수가 분석기사입니다. 단신이 다수에 분석기사를 끼우는 일간지들과 차이가 있죠.(당연히, 레프트21은 격주간이니까요.) 레프트21이 제휴한 다함께의 간행물들도 마찬가지입니다. 최근 8년 간 한국의 운동을 알 수 있게 해 주는 주옥같은 자료들이 모여 있죠.

이런 특징을 살리기 위해서 레프트21은 검색을 강조했습니다. 로고 바로 아래쪽에 검색을 배치한 것입니다. 네이버나 다음이야 로고아래 검색창을 두지만 다른 언론사들을 보세요. 로고 바로 아래 검색창이 있는 경우는 별로 없습니다. 조선일보가 오히려 웹에서는 혁신적이죠.

한겨레21 검색 시사인 검색

조선일보 검색

레프트21 홈페이지를 기획한 저는, 웹 전체에서 검색 서비스가 핵심이 돼가는 추세라는 점과 레프트21의 특성이 양질의 자료를 풍부하게 보유하고 있다는 점임을 감안해서 검색을 강조했습니다. 이 기획이 옳았는지는 앞으로 더 긴 기간을 두고 검증해 봐야 할 것입니다.

그런데 검색을 강조한다고 했지만 문제가 있었습니다. 왠걸, 레프트21의 검색엔진(?) ¹은 매우 취약했습니다. 상세검색 ²조차 시간에 쫓겨서 못 달았습니다. 즉, 그동안 레프트21 인덱스 화면의 상태는, ‘허울좋은 검색 강조’였다고 할 수 있습니다. 다양한 검색 기능도 제공하지 못하면서 검색을 한다고 말하는 게 말이 안 된다는 거죠.

그러나 이제는 말할 수 있습니다. 레프트21이 검색을 강조한 홈페이지를 만들었다고 말입니다. 실제로 구글 맞춤검색은 뛰어난 성능으로 레프트21 기사들과 제휴자료들을 검색해줄 것입니다. 이용자가 원하는 내용에 가장 가깝게, 그리고 빠르게 말이죠. 여튼간에 구글이 가진 기술력으로 레프트21 기사들을 검색하는 거니까 일반적인 차원에서는 이거보다 훌륭한 검색을 하기 힘들겠죠. ³

기본 검색과 구글 맞춤검색

그럼 기본 검색과 구글 맞춤검색의 이용법과 장단점을 설명드리도록 하겠습니다.

일단 구글 맞춤검색은 어떻게 사용하나요? Daum의 검색 선택에서 착안한 디자인, 검색창 좌측에 보면 기본 검색이라는 글자가 보일 겁니다. 그걸 클릭해 보십시오. 그러면 기본 검색과 구글 검색 중 하나를 선택할 수 있도록 셀렉트 박스가 뜹니다.

레프트21에서 <a href=

그리고 검색어를 입력한 후 엔터를 치면, 아래처럼 하얀 박스가 생기면서 검색결과가 나옵니다.(추가로 말씀드리면 이건 AJAX라는 최신기술을 이용한 구글의 서비스입니다. ^^ 덩달아 레프트21도 최신기술을 사용하는 게 됐군요. ㅋ 서비스를 가져다가 다른 사이트에서도 이용할 수 있게 하는 것을 API라고 부르죠. 상식으로 알아 두세요.)

레프트21에서 <a href=

그리고 검색 결과를 닫고 예전에 보던 화면으로 되돌리고 싶다면, 아래 그림처럼 검색 버튼 옆에 있는 x버튼을 누릅니다. 버튼 위에 마우스를 올려놓으면 검색결과를 지우는 버튼이라고 안내가 뜨죠?

<a href=

기본 검색의 단점과 구글 검색의 장점

그럼 구글 검색을 사용하면 뭐가 좋길래 사용하는가? 한 마디로 말하면 정확하고 빠르기 때문이죠 뭐. 일단, 정확도가 높다고 판단되는 검색결과를 상위에 띄워주는 겁니다. 사용자가 원하는 것이 무엇인지, 이 문서가 좋은 문서인지 등을 판단하기 위해서 구글은 수만 가지의 기준으로 계산을 한다고 합니다. ⁴ 그리고 이런 수만가지의 계산을 세계에서 가장 성능좋은 구글 서버가 계산합니다. ⁵ 기본 검색보다 월등한 면이죠.

‘기본 검색’의 알고리즘은 단순합니다. 키워드를 입력하면 본문, 제목, 필자를 모조리 훑어봅니다. 맞는 게 있으면 내보냅니다. 6500여 개를 순식간에 읽어보고 결과값을 되돌려보내는 속도가 장난이 아니지만(생각해 보세요. 사람이 읽으면 한 달도 더 걸리겠죠.) 광속이 아니란 점이 불만이고, 동시에 정확도순이 아니라 무조건 최신순이라는 점이 불만스럽습니다.

게다가 대부분 제휴자료의 박스 기사와 레프트21 박스 기사의 일부, 그리고 제휴자료 대부분 사진 캡션과 레프트21 앞부분 사진 캡션을 검색하지 못합니다. 따라서 박스 기사나 캡션을 검색에 포함시켜야 할 경우엔 반드시 구글 맞춤검색을 사용하셔야 합니다.

기본 검색 최대의 장점

그러나 그럼에도 불구, 구글 맞춤검색으로 일원화 하지 못하는 이유는 있습니다.

우선 맞춤검색이 예전에는 모든 기사를 다 잡지 못했었는데, 혹시 그 이유 때문 아닌가 하는 사람도 있을 것입니다. 그런 건 아닙니다. 모든 페이지를 검색엔진에 최적화하기 위해 노력한 결과 99%의 기사가 구글에 잡힙니다. 1%를 확신할 수 없다는 점이 안타깝지만, 뭐 다 잡히는 걸로 봐도 무방합니다.

다만 약점은, 최신 기사를 잘 검색 못한다는 것입니다. 구글이 일단 홈페이지에 들어와서 자료를 읽고 분류를 해야 하기 때문이다. 이런 일을 크롤링이라고 부르고, 크롤링 하는 주체를 검색 로봇이라고 부릅니다.(크롤링은 번역하면 말 그대로 ‘긁어가기’정도 되겠죠.)

그런데 검색엔진이 시도때도 없이 와서 자료를 긁어가면, 서버 트래픽이 폭주할 수도 있습니다. 실제로 네이버의 검색로봇이 처음 일본에 진출했을 때 그런 식으로 크롤링을 했다가 스팸 트래픽으로 오해받은 적이 있습니다. 이 사이트가 매일 업데이트되는 것인지 검색 엔진이 확신할 수도 없습니다. 그래서 아주 유명한 사이트를 제외하면 구글 검색 로봇이 매일 방문하지는 않습니다.(레프트21은 대략 며칠에 한 번 방문하는 것 같습니다.) 그래서 오늘 올라온 기사는 검색에 안 잡힌다는 거죠. 대략 며칠 전 것까지 잡힌다고 생각하시면 됩니다.(그렇다고 일주일 막 이렇진 않습니다. 지금 글을 쓰는 이 시각, 구글은 21시간 전에 레프트21 인덱스 화면을 크롤링했군요. 즉, 21시간 안에 올라온 기사를 제외하고는 다 검색된다는 얘기죠.)

기본검색의 최대 장점은 1분 전에 올린 자료까지 검색이 된다는 점이겠네요. 그리고 1%라도 빠진 기사가 있지 않을까 걱정할 필요 없다는 점도요. 이런 점은 구글 맞춤검색의 장점이 상쇄하고도 남는 면이 있다고 생각하기 때문에 저는 기본검색보다 구글 맞춤검색을 추천합니다.

정리

요즘은 검색이 워낙 일반화됐기 때문에 검색의 엄청난 힘을 사람들이 잘 알지 못하죠. 그러나 앞에서 든 예를 한 번 생각해 보세요. 예전 같았으면 열린 주장과 대안, 월간 다함께, 격주간 다함께를 몇십 센티미터쯤 쌓아놓고 하나씩 뒤졌어야 했을 겁니다. 그런 자료를 평소에 모아놓을 정도로 꼼꼼한 사람이 아니면 양질의 정보를 얻기 힘들었죠. 하지만 지금은 검색의 도움으로 그런 어려움이 상당부분 없어졌습니다.

물론, 인류 지성의 핵심인 책이 웹으로 온전히 옮겨져 있지는 않기 때문에 웹에는 한계가 있습니다.

그럼 이렇게 생각해 보죠. 레프트21에는 양질의 자료가 많습니다.(대략 6500개 정도 되는데, 운동에 관한 분석 글 자료가 이만큼 있는 곳은 많지 않을 거라 봅니다.) 그렇다면 양질의 검색만 있다면, 그 가치는 아주 높아질 것입니다.

저는 바로 그런 가치를 실현하는 웹마스터가 되고 싶습니다.

여담

구글 맞춤검색을 사이트에 다는 데 난관이 많았습니다. 덕분에 대략 10시간, 쉬지않고 일해야 했습니다. 그 전에는 이 정도 시간을 낼 기회가 없었기 때문에 하지 못했는데 기회가 오자마자 곧장 실행했습니다.

Notes:

엔진이라고 할 수준이 아니기 때문에;; ↩
상세검색도 조만간 달 것입니다. ↩
레프트21에 특화된 검색을 한다면 레프트21에 한해서는 뛰어나다고 말할 수 있겠지만, 검색엔진은 웹 개발의 핵심 중 핵심이라고 불리는 영역입니다. 당장은 초보인 저희로서는 좀 힘들겠죠. ^^ ↩
대표적인 게 페이지랭크 알고리즘이라고 부르는 것인데, 다른 곳에서 링크를 많이 한 페이지일수록 양질의 페이지로 판단하는 것이죠. 인용이 자주 되는 논문을 좋은 논문이라고 생각하는 것에서 착안한 구글의 알고리즘이라고 합니다.(믈론 요샌 죄다 이렇게 하겠지만 말이죠.) ↩
구글 서버는 값싼 컴퓨터를 병렬로 이어붙인 것으로 유명하죠. 구글 창업자들이 새로 나왔지만 상용화되지는 않은, 당시 최신 하드웨어 기술을 사용해 만든 게 기초가 됐다고 합니다. 지금도 계속 이렇게 스스로 서버를 증설하기 때문에 구글은 세계 최대의 컴퓨터 제조업체라고 불릴 정도입니다. ↩