구글의 최종 목표는 인공지능 검색

Programming/Etc 2007. 4. 10. 00:46
구글을 위해 온갖 허드렛일을 마다하지 않을 사람을 꼽으라면 크레이그 실버스타인을 들 수 있을 것이다. 실버스타인은 구글의 핵심 멤버이자 기술 책임자이며 검색 분야에서 항상 “나쁜 짓은 하지 말라”는 구호를 외치는 사람으로 알려져 있다.

올해 31세인 실버스타인은 1998년에 스탠포드 대학에서 박사 과정을 밟던 중 서지 브린, 래리 페이지 등 학교 동창들과 함께 근처 차고에서 지금은 전세계적으로 유명해진 검색 엔진을 만들어냈다.

결국 이들의 노력은 성공을 거뒀다. 지금 이 검색 회사는 2000년 이래 IPO를 시행한 IT 업체들 중에서도 가장 큰 인기를 끌고 있으며 조만간 27억달러에 달하는 자금을 끌어모을 수 있을 것으로 기대되고 있다.

IPO 시행에 따라 엄청난 부도 챙기게 되겠지만 이와 별도로 실버스타인은 오랫동안 정말 열심히, 그리고 즐기면서 일한 것으로도 유명하다. 구글의 기술 책임자인 그는 검색이라는 비전을 가지고 사용자들이 실제로 정보에 접속하는 것은 도와주는 제품을 개발하는 임무를 수행중이다.

여기에는 구글 웹사이트를 각 개인에 맞춤화하는 새로운 기술과 무선 기기 활용 방안, 가격 비교 기능, 그리고 무료로 이메일을 1GB 용량까지 보내고 저장하고 관리할 수 있는 서비스 - 이것은 G메일이라고도 알려져 있다 - 등이 있다.

구글의 IPO 신청이 있기 이전에 가진 인터뷰에서 실버스타인은 사생활 옹호론자들의 G메일 반대 움직임과 구글의 문화적 변화, 그리고 페이지랭크(PageRank)에 대한 의존도가 변화하고 있는 현상에 대한 문제 등에 대해 얘기를 나눴다. 페이지랭크는 구글이 유명세를 떨치는데 크게 기여한 수학적 알고리즘이다. 최근 구글은 스탠포드 대학의 페이지랭크 라이선스를 2011년까지 연장한 바 있다.

검색 분야의 역사에 있어 구글이 한 역할에 대해 당신은 어떤 견해를 갖고 있는가?

구글은 사람들이 요구하는 딱 그 시점에 등장했다. 컴퓨터의 출현 이후 사람들은 점점 더 많은 정보를 가질 수 있게 됐다. 따라서 그 많은 정보들을 유용한 것으로 가공하는 우수한 기술을 필요로 했다. 그리고 바로 그때, 구글이 그 접점에 있었던 것이다.

당신은 그간 검색 엔진의 이상적인 모습을 스타트랙에 등장하는 스타쉽 엔터프라이즈가 갖고 있는 지적 능력이라든지 똑똑한 검색 애완동물들이 가득한 세상에 비유하곤 했다. 이에 대해 좀더 말해줄 수 있나?

좋다. 스타쉽 엔터프라이즈나 똑똑한 검색 애완동물에 이은 내 세 번째 생각은 컴퓨터가 도서관의 사서처럼 도움을 주는 것이다. 이것 또한 상당히 재미있다. 도서관 사서들은 검색하기 위해 물론 컴퓨터와 구글도 함께 사용하고 있지만 잘 보면 이들은 검색 작업에 컴퓨터만으로는 불가능한 어떤 지적인 요소를 집어넣고 있다.

결국 우리의 목표는 매우 영리한 컴퓨터를 만들어 상호 대화를 할 때 컴퓨터들로 하여금 실질적으로 더 좋은 검색 결과를 얻을 수 있도록 정보를 잘 활용할 수 있게 하는 것이다. 바로 이것이야말로 구글이 검색의 질을 향상시키기 위해 항상 생각하고 있는 부분이다.

설명한 것과 같은 인공지능적인 검색이 언제 가능해질 것이라고 생각하는가?

인공 지능의 마지막 미개척 분야는 언어 이해라고 본다. 이것이 이뤄진다면 컴퓨터와 대화를 나누는 것이 마치 도서관 사서와 얘기하는 것과 똑같은 경험이 될 것이다. 컴퓨터와 사서는 모두 우리가 살고 있는 이 세계와 우리 자신에 대해 매우 잘 알고 있다는 공통점을 갖게 되기 때문이다.

그러나 둘 간에는 큰 차이점이 있다. 바로 이 부분이 검색 애완동물이 필요한 지점인데 도서관 사서들은 컴퓨터가 완전히 이해할 수 없는 인간의 감정이나 다른 여러 상상속의 세계에 관한 정보들도 이해할 수 있다는 점이다.

언제 가능하냐고 묻는다면 나는 보통 200~300년이 걸릴 것이라고 말한다. 아마 300년보다는 더 짧아지지 않을까? 그러나 만약 200년이 걸리다 해도 어차피 나는 그 당시 살아잇지 않을 것이니까 아무도 나에게 뭐라고 말하진 못할 것이다.

정말 멋진 생각이다

좀 더 말해보자. 30년 내에 방금 언급한 것들이 이뤄질 것이라고 상정해보자. 사실 이런 문제들은 지난 60년대에 인공지능을 연구하던 사람들도 모두 생각했던 부분이다. 그렇다면 지금 우리가 사는 이 시대에 모든 문제가 다 해결됐어야 하지 않는가? 그러나 우리는 인공지능의 궁극적인 목표인 인간의 언어를 이해하기엔 아직 까마득한 수준이다.

몇몇 컴퓨터 연구가들은 페이지랭크가 이제 죽었다고 말한다. 인터넷 광고주들이 자사 사이트의 인기도를 허위로 만들어냄으로써 페이지랭크를 악용하고 있기 때문이라는 것이다. 사실인가? 그렇지 않다면 페이지랭크를 어떻게 수정한 것인가, 아니면 이젠 페이지랭크가 그리 큰 역할을 하지 않는 것인가?

페이지랭크가 죽었다는 주장은 우선 세계를 너무 정적으로 보기 때문에 나온 것이다. 페이지랭크는 언제나 순위 매김 방법 중 하나로 유효할 것이다.

그러나 시간이 가면서 우리가 순위를 매기는 방법에 대해 점점 더 새로운 아이디어를 개발해내고 기존 아이디어를 수정하거나 이 모든 것들을 함께 사용할 수 있는 새로운 방법을 생각해낼 것이기 때문에 우리가 사용하는 이런 모든 기술의 역할도 바뀔 수밖에 없다.

현재 구글에서 페이지링크보다 더 큰 역할을 하고 있는 알고리즘 기술이 있다면?

물론 우리는 현재 다른 기술도 사용하고 있다. 그러나 자세히 언급하는 것은 좀 곤란하다. 개괄적으로 말해보자면 우리는 약 2~3가지 종류의 기술을 사용하고 있다. 하나는 인간의 지능을 이해해 그것을 활용하는 종류다. 우리는 사람들이 어떤 한 페이지를 보고 있다가 다른 페이지로 넘어가기로 결정하는 것이라든지 아니면 그 텍스트가 어떤 것이라고 주석을 다는 행위에서 힌트를 찾아내고 있다.

현재 구글은 몇 대의 서버를 운영하고 있는가? 어떤 사람들은 10만대라고도 하고 어떤 사람들은 만대라고 추산하기도 한다.

몇몇 업계 관계자들은 구글의 컴퓨터 구성이야말로 일급비밀에 속하는 것이라고 하면서 그것만 잘 이용한다면 검색은 단지 한개의 애플리케이션에 불과하다고 말하기도 한다. 그러니까 G메일 같은 것이 가능하다는 것이다. 당신네들의 컴퓨터 구성이 바로 구글의 힘이라는 사람들의 평이 정당하다고 보는가?

재밌는 말이다. 검색의 역사는 실제로도 원래 검색을 위해 개발됐다기보다는 애플리케이션에 추가적으로 포함됐던 검색엔진의 역사에 그 궤를 같이 한다. 알타비스타와 같은 경우에도 원래는 알파 서버의 개념 증명(POC) 용도로 DEC에서 개발한 것이다.

구글에는 상업적 웹 검색 엔진 전용으로 1만대 이상의 컴퓨터를 갖고 있다. 그러나 이것은 물론 검색을 더 잘하기 위해 인프라스트럭처를 개발해온 결과다.

우리는 용이하게 확장시킬 수 있는 그 무언가를 원했다. 웹이 너무나 빨리 성장할 것이라는 사실을 이미 알고 있었기 때문이다. 우리는 컴퓨터만 추가시키면 코드를 새로 작성하지 않고 그 즉시 용량을 늘릴 수 있도록 확장성이 뛰어난 알고리즘을 개발해야만 했다.

이런 생각으로 시작했기 때문에 처음 회사를 설립했을 때는 지금보다 수천배나 작았던 것을 오늘날의 크기까지 키울 수 있었던 것이다.

여기에 우리는 이런 기술들이 많은 정보를 찾는 것과 같은 일상적인 업무에 상당히 유용하다는 것도 알게 됐다. G메일이 아주 좋은 예다. 게다가 이와 같은 정보들은 웹 자체만큼이나 클 수도 있으며 아니면 다 합쳤을 때 웹보다 더 클지도 모른다. 우리는 이런 종류의 정보도 다룰 수 있는 기술적 노하우를 갖고 있다.

현재 어떤 다른 애플리케이션을 개발하고 있는가?

자세히 말할 수는 없다. 일반적인 방향은 이미 위에서 언급한 것과 같다. 그러니까 사람들에게 좀더 많은 정보를 제공한다는 것이다. G메일은 사적인 정보를 검색할 수 있도록 하는 것으로 우리 노력의 첫 번째 실제 결과다.

사생활 옹호론자들부터 시작해 지금은 입법자들에 이르기까지 G메일에 부정적인 반응을 보이는 것을 보며 뭘 느꼈는가?

구글이 사람들의 생활에서 매우 중요한 역할을 하고 있으며 자극을 받는 것도 매우 가치 있다는 점들을 배웠다. 지난번에도 구글이 한 일에 대해 사람들이 흥분했던 것을 기억하고 있다.

바로 우리가 데자닷컴(Deja.com)으로부터 유즈넷(Usenet) 아카이브를 인수했을 때다. 이를 두고 유즈넷 공동체에서는 모두들 이제 유즈넷의 미래는 어떻게 되느냐면서 정보에 접속하는 문제에 대해 큰 우려를 표시했었다.

그러나 시간이 지나면서 상황에 익숙해지자 이들은 제품을 사용해보면서 정말로 좋다는 것을 알게 됐다. 그 사건은 지나갔지만 나는 이번에도 같은 일들이 일어날 것으로 보고 있다. 어떤 회사든지 모든 사람들에게 중요한 이슈로 간주되는 것에는 진지하게 임해야 한다. 나는 구글이 그런 회사라고 생각한다.

서비스는 어떻게 바뀔 것이라고 생각하는가?

어떤 변화가 생길 것이라고 추측하기엔 지금은 너무 이르다.

장기적으로 볼 때 하나의 거대한 검색 공간이 있는 것과 서로 다른 작은 검색 공간들, 그러니까 이 웹사이트에서는 이런 데이터베이스를 그리고 저 회사에서는 이메일 아카이브를 제공하는 식으로 존재하는 것 중 어떤 방식이 더 좋을 것 같은가?

사용자 입장에서는 한 개의 검색 공간을 가지고 싶어 할 것이다. 기술적인 면에서 나는 어느 것이나 상관없다. 나에게 중요한 것은 사용자들이 원하는 정보를 쉽게 얻을 수 있어야 한다는 것이다.

즉 한 공간에서 검색할 수 있어야 한다는 것이며 또한 그 단일한 검색 공간이 아주 영리해서 전세계 수억만 가지의 다른 정보 소스 중 어떤 결과가 적절한지 알아낼 수 있어야 한다는 것이다.

검색 기록이나 등록 데이터, 이메일 문서 등을 한 곳에 놓았을 때 사생활 보호 조치가 필요하다는 것에 대해서는 어떻게 생각하나?

정보를 만들어내고 정보를 소유하고 있는 사람들에게 정보 공개 방식에 대한 결정권이 있다는 것을 잘 알고 있다. 우리는 사람들이 구글을 통해 어떤 식으로 자기네 정보를 내보낼지 제어할 수 있도록 모든 종류의 방법을 제공하고 있다. 이것이 우리의 정책이 될 것이다.

구글의 알고리즘은 확장성이 있는가? 그러니까 예를 들어 당신네의 데이터베이스에 들어있는 데이터가 2배로 늘어나면 검색 결과를 보내주기 위해 단순히 컴퓨터만을 2배로 늘리면 되는 것인가?

우리 알고리즘은 물론 확장된다. 그리고 웹 크기가 2배로 늘어나면 컴퓨팅 기기도 물론 2배로 커져야할 것이다.

기계가 다운되는 특정한 경우가 있는가? 인위적으로 막대한 용량의 데이터를 입력시켜도 크게 상관이 없는가?

내가 아는 한도에서 볼 때 대용량 데이터가 인위적으로 들어와도 잘 돌아간다. 문제가 있을 수도 있겠지만 아직 실제로 그런 일이 일어나진 않았다.

검색 기능이 진보하려면 운영체제에 내장돼야 하며 MS가 개개인에 더 잘 맞는 툴을 만들어낼 수 있다고 생각하는가? 만약 그렇게 된다면 구글은 MS가 수집한 정보에 접속하기를 원하는가?

몇 년 전에 있었던 MS와 넷스케이프 간의 논쟁을 생각해보라. 당시에도 운영체제에 어떤 것이 들어가야 하는지, 들어가서는 안되는지 열띤 논쟁이 있었다. 주로 운영체제가 어떤 것이냐 하는 개념 정의에 관한 논쟁이었다.

사실 나에게 이런 것들은 그다지 흥미를 끌지 못한다. 나의 관심사는 사람들이 필요한 정보를 가능하면 가장 쉽게 얻어야 한다는 것이다.

MS 제품이 2006년도 이전에는 출시되지 않는다는 것을 상기해보자. MS가 검색 분야에서 이른바 FUD 전략을 사용하고 있다고 보는가?

그런 일에 별로 신경쓰지 않는다. MS는 검색이 사람들에게 매우 중요하다고 결론을 내렸고 공개적으로 표명한 적도 있다. 여기엔 우리도 확실하게 동의한다.

동영상이나 오디오 검색 엔진을 만드는데 있어 복잡성은 어느 정도인가?

텍스트가 아닌 정보를 어떻게 설명해야 하는지, 그리고 그런 정보들을 어떻게 활용할 것인지 등이 이런 복잡성에 속한다. 어찌 되든 간에 사람이 그것을 설명해야 하기 때문이다. 물론 쉬운 문제는 아니다. 그러나 오디오나 동영상에도 가능은 하다고 생각한다. 특히 학계에서 이 분야에 매우 큰 관심을 갖고 있다.

그러나 단기적인 문제점들은 그다지 기술적인 부분이 아니다. 이런 컨텐트를 갖고 있는 사람들은 공개를 꺼리고 사람들이 그것을 검색할 수 있도록 내놓으려 하지 않는다.

우리는 사람들의 의견을 존중한다. 언젠가 이런 정보를 웹상에서 검색할 수 있는 좋은 비즈니스 모델이 등장하거나 아무런 불편이 없는 어떤 방법이 나타날 때까지는 이와 관련한 기능을 제공하지 않을 작정이다.

현재 개인 맞춤화 툴들이 등장하고 있다. 아마존의 A9.com과 MSN에서는 각각 다른 기술로 개인화를 구현하고 있다.

구글의 툴은 이를테면 “우리에게 정보를 주면 검색을 도와주겠다”라는 식이다. 반면 다른 회사들은 “당신들의 방법을 배우고 싶다. 그런 이후에 당신을 돕겠다”라는 식이다. 구글의 접근 방식이 어떤 면에서 더 우월한지 설명해 달라.

후자의 경우에는 먼저 배우고 나서 방문자를 돕는다는 주의다. 컴퓨터는 2개의 다른 장소에서 각각 지적인 판단을 내려야한다. 이 방법이 나쁘다거나 전망이 없다는 것은 아니다. 그러나 이 방식을 사용하면 컴퓨터에 더 큰 부담을 준다. 컴퓨터에 당신의 관심사가 무엇인지 말하면 컴퓨터는 그 정보를 가지고 당신이 원하는 것을 찾아주는 정도만 수고하면 된다.

이 두가지 방법은 모두 사람들에게 개별적인 정보를 주자는 같은 목표를 가지고 있다. 다른 것은 단지 어떤 식으로 도달하느냐하는 것뿐이다. 미래에는 이런 검색이 더욱 더 흔해질 것이다.

당신은 구글의 첫번째 직원으로서 구글의 문화가 당신이 처음 시작했을 때와 비교해 어떻게 변했는지 말해줄 수 있는가?

분명히 많이 변했다. 과거에는 회사의 모든 사람들과 알고 지냈지만 지금은 그렇지 못하다는 것이 유감스럽다. 그러나 문화는 달라졌어도 구글의 기저를 이루는 기본 원칙들, 그러니까 제품에 있어서나 하나의 회사로서 내부 운영이 어떤 식으로 이뤄지느냐 하는 면에서는 시작할 때와 그다지 달라진 게 없다. 바로 이 점이 아직도 내가 감동하고 있으며 특히 아직도 구글에 있는 이유 중 하나다.

우리는 아직도 작업 분위기가 즐거워야 한다고 믿는다. 내가 처음에 시작했을 때처럼 지금도 이것은 지켜지고 있다. 구글 사무실에는 하루에도 몇 차례씩 마사지 치료사가 오는데 예전에는 한사람이 왔던 반면 지금은 몇 사람이 한번에 들어와서 마사지를 받고 싶어 하는 직원들에게 마사지를 해준다.

제품 면에서 구글은 매우 기술 중심적인 회사임과 동시에 사용자 경험에 매우 초점을 맞추고 있다. 물론 한 회사를 운영한다는 것은 어려운 일이다. 인터넷 회사로서 5년 반이라는 세월은 결코 짧지 않은 시간이다. 이런 저런 힘든 일이 있었음에도 불구하고 이렇게 늘 일관성 있게 운영되고 있다는 것은 대단한 일이다. 그리고 이 모든 것에 대해 나 자신은 감사하게 생각하고 있다.

출처 :  Stefanie Olsen ( ZDNet Korea )  

2004년 5월에 나온 기사인데 재미있는 내용들이 보이네요...^^

    

설정

트랙백

댓글