조작 동영상 ‘딥페이크’ 이렇게 식별하라

인터넷에 떠도는 피해자의 눈 뜬 사진을 토대로 만들어 눈 깜빡이는 속도 다르거나 아예 깜빡임 없어
버락 오바마 전 미국 대통령의 얼굴을 내세운 가짜 동영상. 피해자가 한 적이 없는 말을 하는 듯이 조작했다. / 사진:AP-NEWSIS

왓츠앱·페이스북·트위터가 페이크 뉴스의 확산을 막는 엄격한 정책을 도입하는 사이 또 다른 형태의 허위정보가 일반 대중에게 확산되고 있다. ‘딥페이크(deepfakes)’로 알려진 조작된 동영상이다.

얼굴을 바꿔치기해 특정 유명인사나 정치인이 한 적도 없는 언행을 하는 듯이 꾸밀 수 있는 극히 사실적인 동영상이다. 실제 당사자는 그 동영상이 널리 유포될 때까지 무슨 일이 벌어지는지 전혀 감도 잡지 못한다.

그 바탕을 이루는 기술은 심층신경망(deep neural network)에 의존한다. 원본 모델의 언행을 학습해 피해자의 가짜 동영상을 만들어내는 일종의 머신러닝(컴퓨터학습) 기법이다. 신경망이 모방 대상의 말투 등 언동을 파악해 피해자의 얼굴 이미지에 그런 특성을 적용한다. 그에 따라 타깃이 된 피해자가 원본 모델과 똑같이 말하거나 행동하는 동영상이 만들어진다.

딥페이크 동영상은 지난해 11월 처음 등장했다. 그 뒤 몇 개월 사이 많은 사람이 그 기법을 이용해 패러디 동영상뿐 아니라 인기인의 얼굴을 내세운 외설물을 만들어냈다. 딥페이크가 부상하기 전부터 셀렙이나 정치인의 조작된 동영상이 인터넷에 많이 돌아다녔다. 그러나 딥페이크는 가짜일 가능성을 시사하는 단서를 단 하나도 찾아내지 못할 정도로 사실적이다. 올해 미국 중간선거 캠페인 시즌 중 이 기술이 허위 정보 유포 수단으로 활용될 수 있다고 보는 사람이 많은 까닭이다.

이 문제에 맞서 조작된 딥페이크 동영상을 100% 정확하게 가려낼 수 있는 특정한 방법은 없다. 하지만 뉴욕주립대학(올배니)에 있는 컴퓨터비전·머신러닝 연구소 소장인 시웨이 류 연구팀이 일시적인 솔루션을 찾아냈다. 적어도 기술이 더 발전할 때까지는 사용 가능한 단순한 기법이다.

류 소장의 설명에 따르면 이 기법은 동영상 속 조작 피해자가 얼마나 자주 눈을 깜빡이는지가 핵심이다. 평상시 건강한 성인은 2~10초마다 눈을 깜빡이며 한 번 깜빡일 때 10분의 1~10분의 4초 정도가 걸릴 수 있다. 진짜 동영상일 경우 바로 그런 움직임을 보이게 된다. 그러나 동영상이 조작됐을 경우 깜빡이는 속도가 평소와 다르거나 아예 깜빡임이 없게 된다. 류 소장에 따르면 대다수 딥페이크 동영상이 조작 피해자의 얼굴 사진을 다수 입수해 신경망을 훈련시키는 방법으로 제작된다는 데 그 답이 있다.

셀렙과 정치인의 경우 대다수 이미지를 인터넷에서 조달한다. 조작 피해자가 눈을 감고 찍은 사진은 인터넷에 거의 없다. 매체들은 대부분 조작 피해자가 두 눈을 크게 뜨고 찍은 사진을 공개한다. 이것이 신경망에 입력되는 데이터 집합에 영향을 미쳐 눈을 깜빡이는 속도가 다르거나 전혀 깜빡임이 없는 동영상이 만들어질 수 있다. 류 소장이 보통 상황에서의 깜빡이는 속도를 가짜 동영상과 비교했더니 피해자의 깜빡임이 진짜 동영상보다 훨씬 적었다.

류 소장은 깜빡임을 감지하는 또 다른 머신러닝 알고리즘도 개발했다. 주어진 동영상을 프레임 별로 분석해 그 안의 얼굴들이 눈을 떴는지 감았는지를 알아낸다. 이 방식은 이미 감별률이 95%를 웃도는 유망한 결과를 보여줬다. 그러나 기술이 발전함에 따라 딥페이크 제작자들이 이 문제를 우회하는 방법을 찾아내 더 완벽하게 가짜 동영상을 만들어낼 수 있을지도 모른다.

– 슈밤 샤르마 아이비타임즈 기자