당신의 카드 누가 긁었는지 알고리즘은 안다

카드 부정거래 탐지에는 암호화 기능, 머신러닝, 빅데이터 그리고 클라우드 컴퓨팅 등 혁신적인 신흥 IT 기술 총동원돼

부정거래 탐지는 금융·경제로부터 법률과 정보학에 이르기까지 다양한 분야의 상당수 첨단 기술을 수반한다. / 사진:ELISE AMENDOLA-AP-NEWSIS

집에 앉아 개인적인 일을 보고 있을 때 전화가 걸려온다. 신용카드사의 부정거래 탐지팀이라며 방금 거주 도시의 백화점에서 물건을 구입했는지 묻는다. 내 신용카드로 고가의 전자제품을 구입한 사람은 내가 아닌 다른 사람이었다. 실상 신용카드는 오후 내내 내 호주머니 안에 있었다. 그렇다면 은행은 어떻게 이 단 한 건의 구매를 보고 부정사용일 수 있다고 판단한 걸까?

신용카드사는 성격상 불법적인 금융거래 범죄 적발에 큰 이해가 걸려 있다. 연방준비제도이사회(FRB)의 결제조사에 따르면 2012년 미국인의 신용카드 결제액은 262억 달러였다. 그해 부정거래로 인한 손실 추정액은 61억 달러였다. 연방공정신용청구법에선 부정거래에 대한 신용카드 소유주의 책임 한도액을 50달러로 제한해 나머지 잔액에 대한 책임을 신용카드 회사에 떠넘겼다. 분명 부정결제가 신용카드 회사의 수익성에 큰 영향을 미칠 수 있는 구조다. 업계는 신용카드를 취급하는 모든 가맹점에 매년 보안감사를 받도록 하지만 그래도 부정거래를 모두 막지는 못한다.

금융 업계에서 리스크의 측정은 사활이 걸린 문제다. 전반적인 목표는 너무 큰 규모의 피해가 발생하기 전에 부정거래인지 아닌지를 최대한 빨리 알아내는 것이다. 그렇다면 어떤 방법을 쓰는 걸까? 그리고 부정거래범과 금융기관의 군비경쟁에서 누가 앞서가는 걸까?

소비자의 관점에서 부정거래 탐지는 마술처럼 보일 수 있다. 사람은 전혀 보이지 않는데 즉각적으로 이뤄지는 듯하다. 이처럼 매끄럽고 즉각적인 듯한 절차는 금융·경제로부터 법률과 정보학에 이르기까지 다양한 분야의 첨단 기술을 수반한다. 물론 고차원의 추론을 요하지 않는 몇몇 비교적 직접적이고 간단한 탐지 메커니즘도 있다. 일례로 신용카드가 특이한 장소에서 사용될 때 그와 관련해 정확한 우편번호를 제시하지 못하는 경우가 부정거래의 한 가지 좋은 지표가 될 수 있다. 그러나 이런 식의 통상적인 검사를 우회하는 건 사기범에게 일도 아니다. 어쨌든 피해자의 우편번호는 구글 검색만 해도 알아낼 수 있다.

전통적으로 부정거래 탐지는 사람의 개입이 상당히 많이 필요한 데이터 분석 기법에 의존했다. 알고리즘이 의심스러운 거래를 적발해 주의신호를 보내면 최종적으로 인간 담당자가 주의 깊게 검토한 뒤 피해 카드 소유주에게 전화를 걸어 실제로 결제했는지 묻기도 한다. 요즘엔 기업들이 처리해야 하는 거래가 끊임없이 홍수처럼 밀려들기 때문에 빅데이터 분석도구의 도움을 받아야 한다. 머신러닝과 클라우드 컴퓨팅 같은 신흥 기술이 탐지 게임의 차원을 높이고 있다. 머신러닝은 간단히 말해 자율향상 알고리즘을 가리킨다. 특정한 규칙에 따라 컴퓨터가 수행하는 사전에 규정된 절차다. 컴퓨터가 모델을 가동한 뒤 시행착오를 통해 훈련을 시킨다. 그 뒤 금융거래와 관련된 위험 같은 문제를 예측할 수 있다.

부정거래 탐지 목적의 머신러닝 알고리즘은 우선적으로 아주 많은 카드 회원의 정상적인 거래 데이터를 입력하는 방법으로 훈련시켜야 한다. 거래 패턴이 이런 훈련 데이터의 한 예다. 통상적으로 한 주에 한 번 주유를 하고, 2주에 한 번 식료품 쇼핑을 하는 등의 패턴을 보일 수 있다. 알고리즘은 이것이 평소의 거래 패턴임을 익힌다. 이런 미세조정 과정을 거친 후 알고리즘으로 신용카드 거래를 분석 처리한다(실시간 처리가 이상적이다). 그 뒤 알고리즘이 특정 거래가 부정행위일 가능성을 나타내는 확률 통계를 제시한다(가령 97%). 확률 수치가 가령 95%를 넘는 모든 거래를 차단하도록 부정거래 탐지 시스템이 설정됐을 경우 이런 평가가 나오면 판매시점에 즉시 카드 승인이 거부될 수 있다.

알고리즘은 부정거래 여부를 판정하는 데 많은 요인을 고려한다. 예컨대 가맹점의 신뢰도, 시각과 위치 등 카드 소지자의 구매 행태, IP 주소 등이다. 검토하는 데이터가 많을수록 결정이 더 정확해진다. 이런 절차를 이용하면 적시 또는 실시간 부정거래 탐지가 가능해진다. 수천 건의 데이터를 동시에 평가해 몇 분의 1초 만에 판단을 내릴 수 있는 사람은 없다.

전형적인 시나리오는 이렇다. 마트에서 계산대로 가서 카드를 긋는다. 거래시각, 금액, 가맹점 식별번호 그리고 카드 유효기간 같은 거래 세부정보가 카드 발급사로 전송된다. 이 같은 데이터는 이용자의 구매 패턴을 학습한 알고리즘으로 입력된다. 이 특정한 거래가 다수의 과거 구매 시나리오와 세부 데이터로 이뤄지는 행동 패턴에 들어맞는가?

알고리즘은 카드의 사용처가 매주 토요일 아침마다 들르는 레스토랑인지 또는 새벽 3시 같은 기이한 시각에 두 시간 대 시차가 있는 곳의 주유소인지 즉시 파악한다. 거래 패턴에 특이한 점이 없는지도 확인한다. 과거 데이터에는 그런 적이 없었는데 카드의 현금 서비스가 같은 날 갑자기 두 번이나 사용될 경우 이 같은 행동이 부정거래 확률 점수를 높이게 된다. 거래의 부정거래 점수가 특정 한도를 넘어서면 종종 인간의 간단한 검토를 거친 후 알고리즘이 판매시점 시스템에 연락해 거래승인을 거부하도록 요구한다. 온라인 거래도 같은 과정을 거친다.

이런 유형의 시스템에선 인간의 개입이 갈수록 줄어들고 있다. 오히려 부정거래 탐지 사이클에 사람이 너무 깊숙이 개입할 경우 반응시간이 훨씬 길어지기 때문에 실상 방해가 될 수 있다. 그러나 인간이 맡을 만한 역할이 있다. 부정거래의 검증이나 거부된 거래의 후속조치다. 여러 건의 카드 거래가 거부됐을 때 카드를 완전히 효력정지하기 전에 사람이 카드 회원에게 전화를 걸 수 있다.

실상 빅데이터 영역에선 처리할 금융거래의 숫자가 어마어마하다. 그러나 머신러닝은 데이터가 산더미처럼 쌓여야 실력을 발휘한다. 정보가 많을수록 오히려 알고리즘의 정확도가 높아져 오판정(false positives)의 제거에 도움이 된다. 수상하지만 실제로는 합법적인 거래에도 이런 절차가 가동될 수 있다(예컨대 뜻밖의 장소에서 카드가 사용됐을 때). 경고신호가 너무 많은 것도 없는 것만큼 나쁘다.

이만한 양의 데이터를 처리하려면 상당한 규모의 컴퓨팅 용량이 필요하다. 일례로 온라인 결제 플랫폼 페이팔은 어느 한순간에 1억6900만 고객의 계정에 대해 1.1PB(페타바이트)의 데이터를 처리한다. 이처럼 방대한 양의 데이터(예컨대 1PB는 DVD 20여만 장 분량이다)는 알고리즘의 머신러닝에 긍정적인 영향을 미치지만 한 조직의 컴퓨팅 인프라에는 상당한 부담을 줄 수 있다.

그런 배경에서 클라우드 컴퓨팅이 주목 받는다. 사외의 컴퓨팅 자원이 여기서 중요한 역할을 할 수 있다. 클라우드 컴퓨팅은 확장 가능하고 회사 자체 컴퓨팅 용량의 제약을 받지 않는다. 부정거래 탐지는 선한 자와 악한 자 간의 군비 경쟁이다. 현재로선 선한 자들이 세력을 확장하는 듯하다. 칩앤핀(chip and pin, 비밀번호 입력방식) 기술뿐 아니라 암호화 기능, 머신러닝, 빅데이터 그리고 물론 클라우드 컴퓨팅 등의 혁신적인 신흥 IT 기술의 지원을 받는다.

부정거래범은 필시 감시자를 따돌리려 애쓸 것이다. 결제 패러다임 자체의 극적인 변화도 또 다른 걸림돌이다. 요즘엔 휴대전화에 신용카드 정보를 저장해 무선으로 결제가 가능해 새로운 취약점을 드러낸다. 다행히 현재의 부정거래 탐지 기술은 모든 결제 시스템 기술에 대체로 효과적이다.

– 류정우

※ [필자는 펜실베이니아주립대학(알투나 캠퍼스) 정보기술학 부교수다. 이 기사는 온라인 매체 컨버세이션에 먼저 실렸다.]