음성인식 기술이 세상을 구한다?

인공지능의 학습을 통해 기계가 사람의 말을 거의 완벽하게 이해하면 우리의 삶과 사고·창작 방식마저 바꿔놓을 수 있어
지난 2월 스페인에서 열린 ‘삼성 유럽 포럼’에서 음성인식 기술이 적용된 사물인터넷(IoT) 냉장고 패밀리허브 2.0이 소개됐다. / 사진:NEWSIS

지금 태어나는 아이들은 키보드가 박물관에서나 볼 수 있는 주판처럼 케케묵은 구식 도구라고 생각하며 자랄 게 분명하다. 지금까지 우리는 기술과 상호작용하고, 창작하고, 서로 소통하기 위해 단어를 입력하는 방식을 사용했지만 그 기반이 서서히 음성으로 바뀌고 있기 때문이다. 사실 오래 전에 그런 전환이 이뤄졌어야 할지 모른다.

1998년 나는 미국 신문 유에스에이 투데이에 기고한 칼럼에서 ‘음성인식 기술이 세상을 바꿀 태세’라고 주장했다. 하지만 당시의 기술 수준은 너무도 형편없었다. 아무리 잘 포장해도 기계가 사람의 말을 잘못 알아듣기 일쑤였다. 그런 점에서 미뤄보면 나의 칼럼은 20년 정도 앞선 예측이었다. 솔직히 성급했음을 인정한다.

하지만 이제는 이 기술이 제대로 자리 잡고 있다. 마이크로소프트(MS)·구글·아마존·IBM을 선두로 몇몇 스타트업까지 우리가 하는 말의 미묘한 차이를 이해하고 거기에 맞게 응답할 수 있는 인공지능(AI) 소프트웨어를 개발하기 위해 박차를 가한다.

지난해 말 MS는 자체 개발한 음성인식 기술이 사람의 이해 수준을 따라잡았다고 선언했다. 음성 언어를 문서로 전환할 때 잘못 인식하는 단어오류율이 5.9%로 떨어져 전문 속기사가 직접 같은 대화 내용을 기록했을 경우와 비슷한 수준으로 개선됐으며, 부모와 십대 자녀 사이의 대화에서 나타나는 단어오류율보다 훨씬 낫다고 발표했다. 해리 셤 MS 인텔리전스&리서치 그룹 부사장은 “오류율이 6.3%였는데 한 달 만에 이를 크게 줄였다”면서 “사람과 비슷한 음성인식 수준”이라고 밝혔다. “연구를 시작한 5년 전 만하더라도 이 같은 성과를 거둘지 예상하지 못했다. 생각한 것보다 빨리 역사적 성취를 달성했다.” MS는 이 음성인식 기술을 PC 운영체제 윈도와 음성비서 코타나 등에 활용할 계획이다. 셤 부사장은 “새로 개발한 기술은 코타나를 더 강력하게 만들어주는 한편 진정한 지능형 디지털 비서로 만들어 줄 것”이라며 “다음 단계는 인식에서 이해로 넘어가는 것”이라고 말했다.

한편 구글의 음성인식 기술은 빠른 속도로 인간의 언어를 배우는 중이다. 지난 8월 구글은 아제르바이잔어와 자바어를 포함한 30개의 새로운 언어를 추가함으로써 인식 가능한 언어가 119개로 늘어났다. IBM의 AI 컴퓨터 왓슨은 인간과 소통하는 것으로 잘 알려졌다. 몇 해 전 왓슨이 뮤지션 밥 딜런(지난해 노벨 문학상을 받았다)과 진지한 대화를 나누는 IBM 광고가 TV에 나왔다. 왓슨은 딜런에게 언어 학습을 위해 그의 노래 가사를 공부하고 있다며 “내가 분석하기로는 당신 노래의 주된 주제는 세월의 흐름과 사랑의 퇴색”이라고 말한다. 그러자 딜런은 “그럼 우리가 함께 노래를 만들면 어떨까?”라고 대답한다. 물론 광고지만 기계가 딜런의 말을 이해할 수 있다는 시사만으로도 획기적이다.

기업들은 음성인식 기반 사업의 확대에 대비하기 위해 발빠르게 움직인다. 아마존이 스피커 ‘에코’에 탑재한 AI 서비스 알렉사를 소비자에게 적극 권장하는 주된 이유는 뭘까? 기계에 음성 지시만 내리면 쇼핑할 수 있는 상황에 익숙해지기를 바라기 때문이다.

지난 8월 구글과 세계 최대의 소매점 월마트는 가정용 음성인식 사물인터넷(IoT) 플랫폼인 구글홈의 사용자가 음성 지시 쇼핑 서비스를 통해 월마트에서 상품을 바로 구입할 수 있도록 하는 제휴사업을 시작한다고 발표했다. 월마트 전자상거래 미국 본사의 CEO 마크 로어는 “우리 고객이 상상하지 못했던 방식으로 쇼핑할 수 있도록 도와주려 한다”고 말했다(로어 CEO는 자신이 창업한 온라인 소매점 Jet.com이 월마트에 인수되면서 월마트에 합류했다).

요즘 미국 소매업계에선 위챗, 킥, 힙멍크 같은 모바일 앱을 통한 챗봇 쇼핑이 인기다(챗봇이란 채팅하는 로봇이라는 의미다). 현재 대다수 쇼핑 챗봇은 문자 기반이지만 서서히 음성으로 옮겨가는 중이다. 미국 마케팅 전문 시장조사기관 컴스코어에 따르면 2020년까지 모든 인터넷 검색의 절반이 음성을 사용할 것이다. 검색은 대다수 소비자가 구매를 위해 실행하는 첫 단계다.

2011년 애플이 아이폰에 시리(Siri, 지능형 개인 비서 기능을 수행하는 iOS용 소프트웨어로 자연어 처리를 기반으로 질문에 대한 답변을 추천하거나 웹 검색을 수행한다)를 탑재한 이래 우리는 전화기와 앱이 음성을 이해할 수 있을 것으로 기대했다. 음성인식은 아직도 완전히 인정 받지 못하고 있지만 수십 년의 노력 끝에 이뤄진 대단한 성과다. 1910년대 사람들이 비행기가 실제로 하늘을 날 수 있다고 기대하기 시작한 것과 비슷한 전환점에 해당한다.

IBM은 1962년 미국 시애틀 세계박람회에서 ‘슈박스’로 이름 붙인 음성인식 기계를 처음 선보였다. 이 장치는 16개 단어를 이해했다. 0부터 9까지의 숫자와 ‘더하기’ ‘빼기’ 같은 지시를 알아들었다. 슈박스는 지시에 따라 간단한 숫자를 계산한 뒤 그 결과를 출력해 알려줬다.

아마존의 에코 쇼는 터치스크린이 달려 있어 영상 통화와 비디오 시청에 적합하다. / 사진:AP-NEWSIS

1970년대 미군 연구기관인 국방고등연구계획국(DARPA)은 방대한 음성인식 프로그램에 자금을 댔다. 그 결과 단어 약 1000개를 이해하는 기계가 탄생했다(실용성은 거의 없었지만 그 정도면 도널드 트럼프 대통령이 트윗이나 연설에 사용하는 어휘 수준과 비슷하지 않을까?). 1980년대 들어 카네기멜론대학의 제임스 베이커 교수는 자신의 음성인식 연구를 바탕으로 드래곤 시스템스를 공동 창업했다. 1990년 그 회사의 첫 구술기록 상용 제품은 가격이 9000달러였지만 사용자는 대부분 실망했다. 1998년 기자가 IBM 연구소를 찾았을 때 음성인식은 여전히 일상적으로 사용할 만한 수준에 도달하지 못한 상태였다.

그러다가 이 기술은 최근 들어 갑자기 큰 발전을 이뤘다. 그 이유가 뭘까? 2007년 이래 모바일 기기와 클라우드 컴퓨팅의 폭발적인 성장으로 구글과 아마존 같은 IT 대기업이 운영하는 거대한 데이터 센터가 세계 전역에서 수집하는 수조 건의 인간 대화를 통해 언어를 배울 수 있게 됐다. 예를 들어 사용자가 알렉사나 왓슨에게 뭔가를 요구할 때마다 이 시스템은 사람들이 하는 말에 관해 조금씩 더 배워간다. 더욱이 이 AI 소프트웨어는 학습이 가능해 이해에 방해가 되는 속어나 사투리에 관한 데이터를 일일이 입력할 필요도 없다. AI 소프트웨어는 스스로 학습을 통해 계속 발전하기 때문에 머지않아 일반적인 사람 수준보다 우리 대화를 더 잘 이해할 것으로 전망된다.

바로 그것이 세상을 급진적으로 바꿀 수 있다. 지금으로선 소비자의 쇼핑 지원이 주된 목표지만 이 기술은 궁극적으로 우리가 사고하는 방식마저 바꿔놓을 수 있다. 최근의 몇 세대는 키보드와 마우스로 사고하는 법을 배웠다. 촉각적인 경험을 말한다. 1998년 드래곤 시스템스의 조엘 굴드 이사는 음성인식 기술에 따른 변화를 예상하며 “우리의 창작 과정이 달라질 것”이라고 주장했다. “앞으론 입으로 생각하는 법을 배워야 할 것이다.”

어떤 면에서 보면 음성인식 기술은 원래 우리의 뇌가 작동하도록 만들어진 방식으로 우리를 되돌리고 있는 것인지 모른다. 펜과 타이프라이터, 워드프로세서가 발명되기 전의 수천 년 동안 인간이 사고하고 창작한 방식으로 되돌아간다는 뜻이다. 예를 들어 고대 그리스의 서사시인 호메로스는 ‘일리야드’를 창작하는 데 타이프라이터가 필요하지 않았다.

음성인식의 세계에선 문맹이 우리의 삶에 큰 장애가 되지 않는다. 구글은 인식 가능 언어에 개도국 언어를 적극적으로 추가한다. 이전에 도달할 수 없었던 소비자에게로 이어지는 길이 보이기 때문이다. 글을 읽지도 쓰지도 못하는 세계의 성인 7억8100만 명을 가리킨다. 그들도 저렴한 휴대전화기에 대고 말만하면 SNS에 가입하거나 은행계좌를 개설하거나 아니면 적어도 고양이 비디오를 보는 것 같은 기본적인 서비스를 제공받을 수 있다.

이 기술은 희한한 작은 방식으로도 우리 세계에 영향을 미칠 수 있다. 얼마 전 한 컨퍼런스에서 아마존 뮤직의 스티브 붐 부사장은 알렉사가 음악산업에 미치는 영향에 관한 자신의 생각을 말했다. 그에 따르면 새로 창설된 록밴드는 MGMT나 추버치스처럼 발음하기 어려운 단어 대신 사람들이 쉽게 부를 수 있는 이름을 사용해야 한다는 사실을 깨닫기 시작했다. 실제로 내가 알렉사에게 ‘추버치스’의 음악을 틀어달라고 하자 알렉사는 이해하려는 노력을 아예 포기하고 자신이 선택한 다른 음악을 들려줬다.

요즘 기술이 아무리 발달했다고 해도 AI가 문맥에 관해서 배우려면 아직 멀었다. 나는 알렉사에게 이렇게 물었다. “‘두 개의 턴테이블과 마이크로폰’이 뭐지?” DJ가 가진 장비를 가리키는 이 표현은 뮤지션 벡이 1996년에 발표한 앨범 ‘Odelay’에 수록된 ‘Where It’s At’에 나온다. 하지만 알렉사는 벡과 관련된 내용으로 답하지 않고 그냥 이렇게 말했다. “글쎄요, 잘 모르겠는데요.” 하지만 알렉사가 적어도 가까이 있는 아이스크림 콘을 가르키지 않은 것만해도 대단하지 않은가?

– 케빈 메이니 뉴스위크 기자