“‘강화 학습’ 통해 새 전략 찾았다”

알파고 개발한 구글 딥마인드 CEO 데미스 하사비스, 데이터 풍부하지 않아도 스스로 배우며 발전하는 인공지능의 새 시대 열어

01
구글 딥마인드 CEO 데미스 하사비스가 지난 3월 8일 열린 이세돌 9단과 알파고 대국 기자회견에서 알파고에 대한 설명을 하고 있다.

구글의 힘은 방대한 양의 데이터에서 나온다. 데이터를 어떻게 활용하느냐에 구글의 명운이 좌우될 수 있다. 데이터에 가치를 부여하는 핵심 기술 중 하나가 인공지능(AI)이다. 정보를 분석하고 연구해 새로운 서비스를 창출할 수 있다. 그런 잠재력을 가늠할 수 있는 이벤트가 3월 9~15일까지 열린다. 구글의 자회사 딥마인드가 개발한 알파고와 이세돌 9단의 5번기 바둑 시합이다. 바둑은 그간 인공지능(AI)이 인간을 이길 수 없는 난공불락의 영역으로 인식됐다. 무한 경우의 수가 나오는데다, 한 수의 가치·움직임을 수리적으로 평가하기 어렵기 때문이다. 딥마인드의 데미스 하사비스(40) CEO를 지난 2월 영국 런던의 본사에서 만났다.

언제부터 알파고를 개발했나?

연구를 시작한 것은 약 2년 전, 본격적으로 속도를 낸 게 1년 정도 됐다.

알파고는 수퍼 컴퓨터인가?

하드웨어가 아닌 소프트웨어다. 다만, 방대한 정보를 처리하기 때문에 고성능의 중앙처리장치(CPU)와 그래픽처리장치(GPU) 같은 하드웨어가 필수적이다. 이점에서 일반 소프트웨어와 다르다. 3월 대국은 미국의 구글 클라우드를 이용해 작동한다.

이미 알려진 AI인 IBM 왓슨과 비교하자면?

IBM의 AI는 대단한 기술이다. 딥블루가 세계 최초로 체스에서 인간을 이겼고, 왓슨이 퀴즈쇼 제퍼디에서 우승했다. 왓슨은 방대한 데이터를 토대로 특정 문제를 해결하는 데 특화됐다. 이와 달리 알파고는 데이터가 풍부하지 않아도 자가 학습해 발전할 수 있다. 스스로 배워가면서 응용하고 범용성을 지향한다.

알파고의 기본 알고리즘은 처음 나온 개념인가?

지난해 우리가 선보인 DQN(Deep Q-Network)과 비슷한 원리다. 당시 AI에 게임 ‘스페이스 인베이더’의 규칙을 입력했고, 효과적인 공략법을 스스로 터득하게 했다. 이후 AI는 아타리 등 나머지 48개의 비디오 게임에서도 스스로 공략법을 배워 인간 이상의 점수를 냈다.

왜 바둑을 대상으로 삼았나?

체스는 빠른 계산으로 컴퓨터가 사람을 이길 수 있다. 그러나 바둑은 체스와 비교할 수 없을 정도로 변수가 많다. 무엇보다 사람의 직관·통찰력이 승부에 결정적인 역할을 한다. 그래서 바둑은 AI가 인간을 이길 수 없는 영역으로 인식돼 왔다. 이런 불가능에 도전하고 싶었다. 우리가 이번에 이 9단에게 도전하는 것을 ‘그랜드 챌린지’라고 표현하는 이유다.

바둑을 둘 줄 아는가.

아마추어 1단 정도의 기력이다. 체스 주니어 선수로도 활동했다. 케임브리지대학 컴퓨터공학과를 졸업했고, 런던대학에서 뇌과학 관련 박사학위를 받았다. 이후 MIT·하버드대학에서 머신러닝·딥러닝 관련 박사 후 과정을 거쳤다. 이런 배경이 연구·개발에 도움이 됐다.

알파고가 기세·세력·두터움 같은 바둑 특유의 요소를 인지할 수 있나?

수학적으로 판단할 수 없는 부분이다 보니 알고리즘을 짜는 것이 힘들다. 그것들은 컴퓨터가 알 수 없는 인간 고유의 영역이다.

사람들 간에는 실력차가 클 경우 수십 집 이상으로 상대방을 이길 수 있다. 알파고도 이렇게 할 수 있나.

알파고는 상대방을 이기기 위해 정보를 처리한다. 현재로선 ‘몇 집 차 승리’라는 식의 구체적인 목표를 달성하도록 설계하진 않았다.

그렇다면 상황이 불리할 때 돌을 던지는 것(불계)은 가능한가?

알파고는 판세를 읽고 이길 확률을 계산한다. 이길 확률이 없다고 보면 돌을 던진다.

프로기사의 수에는 대응해도 아마추어의 ‘꼼수’에는 대응하기 어렵다는 지적도 있다.

공식적으로 공개한 것은 판후이와의 대국뿐이지만, 내부적으로는 많은 아마추어와 대국을 치렀다. 실수를 유도하는 수나 엉뚱한 수에도 알파고는 정수로 대응한다.

전문가들은 이세돌 9단의 낙승을 예상한다.

4개월 전 판후이와 대국했을 때의 알파고라면 이세돌에게 질 것이다. 그러나 4개월 간 알파고는 ‘강화 학습’이라는 시행착오 과정을 거쳐 스스로 대국하며 실력을 키웠다. 전문가들이 이 부분을 간과하는 것 같다. 이와 별도로 회사 차원에서 다른 많은 테스트를 수행했다. 판후이와의 대국이 알파고 실력의 전부는 아니다.

체스처럼 AI가 바둑에서 인간을 넘어설까.

5년 정도 지나면 AI가 최정상급 바둑 기사를 넘어서는 날이 올 것이다. 3월 대국에서 이 말이 허언이 아님을 입증하겠다.

바둑은 무한의 경우의 수가 나온다. 알고리즘 짜기가 쉽지 않았을 텐데.

그래서 기존과 다른 방식의 접근이 필요했다. 알파고는 ‘정책망(policy network)’이라는 신경망이 좋은 돌 놓는 위치를 결정하고, ‘가치망(value network)’이라는 다른 신경망이 그 수의 승률을 평가한다. 여기에 최적의 결정을 내리는 ‘몬테카를로 트리 검색(MCTS)’ 알고리즘을 결합했다. 또 수천만 가지의 수를 훈련시키고, ‘강화 학습’을 통해 새로운 전략을 발견했다. 이런 프로세스를 통해 경우의 수를 계속 줄여나가서 최적의 위치를 찾는다.

다른 바둑 프로그램과 비교하자면.

크레이지 스톤, 젠 등 지금까지 나온 가장 우수한 바둑 프로그램과 총 500번의 대국을 치렀다. 딱 한 번 알파고의 실수로 졌다. 물론 이 실수는 반복적인 학습으로 보완했다. 앞으로 바둑 프로그램에 지는 일은 없을 거다.
알파고를 활용한 AI를 다른 어떤 분야에 적용할 수 있을까?

당장 여행 쪽에 활용할 수 있다. AI는 사용자가 기존에 묵었던 숙소 정보와 선호하는 관광지 등을 토대로 여행 일정을 구체적으로 짜줄 것이다. 이뿐 아니라 다른 여러 사회의 난제를 해결하는 데 도움이 될 것이다.

– 런던=손해용 기자