구글이 채용한 검색의 원조,
유진 가필드
(Eugene Garfield)
‘구글신’에게 물어보라. 세계인이 가장 많이 애용하는 검색사이트, ‘구글'
(http://www.google.com)에서 검색하라는 말이다. 마치 ‘신’처럼 콕 찍어 필요한 정보를 제공해주기에 구글신(구글+신)이라는 별명이 붙었다. 그런데 구글 검색엔진은 어떻게 족집게처럼 원하는 정보를 알아내는 것일까? 그 해답은 질의어의 성분을 분석해 유명 사이트에 링크된 정도를 추천하는 방식에 있다. 그리고 이 방식의 시작에는 유진 가필드(Eugene Garfield, 1925~현재)가 있다.
1940년대 미국 컬럼비아대 화학과를 졸업한 가필드는 과학자로서 청운의 꿈을 품고 화학실험에 몰두했다. 그러나 몇 차례 폭발 사고를 경험하면서 화학 연구가 자신의 적성에 맞지 않는다고 여겼다.
때마침 미국 존스홉킨스대 의학도서관에서 발주한 ‘의료 논문 최신 리스트’를 만드는 프로젝트에 참여했다가 인생이 바뀌었다. 문헌정보학으로 진로를 바꾸게 된 것이다. 이후 가필드는 문헌을 정리하고 이 정보를 쉽게 찾는 방법에 흥미를 갖기 시작했다. 그리고 화학 관련 문헌들을 정리하고 검색하는 일도 하나의 직업이 될 수 있으리라 생각했다.
가필드는 당시 알려지기 시작한 기계를 이용한 정보 처리로 관심을 옮겼고, 과학 관련 문헌정보를 기계적으로 정리하는 방법에 관한 심포지엄을 개최했다. 이 심포지엄에서 가필드는 ‘법률정보인용집(Shepard’s Citations)’을 접하게 된다.
1873년 처음 만들어진 법률정보인용집은 판례인용색인으로 미국에서 이뤄진 모든 재판과 그 재판에서 인용된 판례에 관한 정보를 담고 있는 자료다. 판례가 중시되는 법조계에서 이 인용집은 반드시 필요한 존재였다. 법률정보인용집과의 만남은 가필드에게 행운이었다. 학술논문의 리스트를 만드는 일은 단순히 기계적으로 문헌을 배열하는 작업이 아니었다. 많은 분량의 문헌을 비판적으로 검토해야 했기 때문에 가필드는 학술문헌을 언어학적으로 분석하면서 일련의 색인 정보를 찾았다. 색인 정보를 제대로 이용하려면 어떤 구조가 필요했는데, 법률정보인용집은 바로 가필드가 찾고 있던 구조로 돼 있었다.
여기서 힌트를 얻은 가필드는 법조계에서 사용하는 법률정보인용집처럼 과학 문헌도 색인으로 만들어야겠다고 결심했다. 그 뒤 그는 이 계획을 컬럼비아대 도서관학과 석사논문으로 작성했고, 1955년 ‘과학에 대한 색인목록; 아이디어의 연관을 통한 문헌의 새로운 차원’이란 제목으로 ‘사이언스(Science)’지에 요약해 발표했다.
그는 기존의 학술 논문이 중요한 개념을 설명하기 위해 독자들에게 원문을 참조하도록 했다. 서지 인용에 의지하는 방식을 벗어나고자 한 것이다. 또 논문정보 검색에서 색인 전문가가 설정한 핵심어(keyword)와 함께 논문의 인용 정보를 함께 이용하는 것이 필요하다는 것을 깨달았다. 이를 위해 가필드는 논문을 통해 예전에 발간된 다른 문헌들에 있을 수 있는 오류나 잘못된 정보를 쉽게 파악할 수 있는 시스템을 만들어야 하며, 무비판적으로 과거의 문헌을 인용하는 단점을 극복해야 한다고 생각했다.
가필드는 문헌을 정리하는 과정에서 어떤 논문은 내용이 훌륭해 다른 연구자들에게 자주 인용되고, 어떤 논문은 내용이 불량해 쓰레기 취급을 받는다는 사실을 목격했다. 이 둘을 구분하기 위해 그는 자주 등장하는 주제어 3만 개의 카드를 만들어 통계를 내다가 ‘인용 순위’라는 방법론을 고안해 냈다.
이 방법론은 문헌의 인용빈도를 추적함으로서 학술 논문의 영향력을 평가하는 방식이다. 상대적인 인용빈도에 따라 논문은 더 높은 영향력 순위를 얻고, 그 논문에 인용한 모든 자료에 다시 더 높은 가중치가 부여된다. 이 같은 아이디어를 바탕으로 1955년 가필드는 전문적인 학술 문헌의 인용색인을 발행하는 과학정보연구소(ISI)라는 회사를 설립했다. 과학정보연구소는 1992년 톰슨 사이언티픽이란 이름으로 활동하다가 2008년부터는 통신회사인 로이터스와 합병되어 톰슨 로이터스란 이름으로 활동하고 있다.
흔히 방송이나 신문에서 ‘SCI(과학인용색인)’급이라고 보도되는 논문들은 정부나 공공기관에서 인증한 것이 아니라 영리를 목적으로 하는 톰슨 로이터스에서 구축하는 데이터베이스에 등재된 논문을 가리키는 것이다. 이 때문에 1961년 SCI의 초기 모습인 유전학인용색인(Genetics Citation Index)이 나오고 1964년 SCI가 상업적인 출판물로 발행됐을 때 연구자들과 대학,국공립 도서관들은 SCI에 거의 관심을 보이지 않았다.
그러나 세월이 흐르면서 과학정보연구소는 사회과학(Social Science Citation Index)과 인문학(Art and Humanities Citation Index)까지 포함하는 인용색인을 만드는 회사로 성장했다. 그러면서 민간기업이 만들어내는 인용색인이 학계의 표준처럼 자리를 잡았다.
뿐만 아니라 가필드의 인용순위 개념은 미국 스탠퍼드대 대학원생인 래리 페이지(Larry Page)와 세르게이 브린(Sergey Brin)에게 영감을 선사했다. 두 사람은 가필드의 핵심어 중심의 검색방법에 착안해 인터넷 사용자가 포탈 검색창에 넣는 ‘질의어’ 성분을 분석해 유명 사이트에 링크된 정도를 추천하는 방식의 검색엔진을 만들었으니 그게 바로 구글이다.
현재 구글의 검색 방법이 아주 완벽한 것은 아니다. 구글은 모든 이용자의 욕구를 만족시키려 했기 때문에 인터넷을 검색어 순위대회로 변질시켰다. 그로 인해 더 작은 분야에 깊은 관심을 갖는 집단은 희생을 떠안게 됐다. 가령 연구자의 숫자는 적어도 핵심적인 연구 분야는 응용학문에 비해 링크가 덜 되기 때문에 포털에 쉽게 노출이 되지 않을 수 있다.
이 글의 많은 내용은 가필드의 홈페이지에서 발췌한 것이다. 그는 ‘문헌정보학자’답게 자신의 연구논문과 인터뷰 기사를 포함해 SCI와 영향력지수(IF)의 탄생에 이르는 모든 내용을 제공하고 있으며 다음과 같이 힘주어 말한다.
“당신이 연구하는 주제와 관련해
핵심내용이 실린 논문이나 책이 있다면,
그 자료가 어떤 문헌에서 인용됐는지 확인하세요.
그래야 당신의 연구분야에서
가장 시급한 주제가 무엇이고
당신이 설계해야 할 실험이 무엇인지
알게 될 것입니다.”
'최신의학정보' 카테고리의 다른 글
[14호] 저작권과 정보공유: CCL을 중심으로 (0) | 2014.06.11 |
---|---|
[13호] Open Access의 현재 (0) | 2014.04.15 |
[11호]「생명윤리 및 안전에 관한 법률」에 따른 IRB 관련 Q&A (0) | 2013.12.11 |
[10호] zotero 한글메뉴얼 업데이트 (0) | 2013.10.14 |
[9호] 연구 품질 평가의 새로운 트렌드 H-index (0) | 2013.08.12 |