Dev Stories

'후후' 속 목소리를 지키는 AI, KT 보이스피싱 탐지 2.0 이야기

목소리로 다가오는 새로운 위협


“○○은행 고객센터입니다. 지금 계좌에서 이상 거래가 감지되었는데요…”

1.png


  몇 년 전까지만 해도 보이스피싱은 어눌한 억양과 단순한 대본 때문에 쉽게 눈치챌 수 있는 경우가 많았습니다. 하지만 최근 들어 상황은 급격히 달라졌습니다. 딥페이크(Deepfake) 기술이 일반화되면서, 실제 지인이나 금융기관 상담원의 목소리를 그대로 흉내 내는 정교한 사기가 등장한 것이죠. 단순한 사회공학적 기법을 넘어, 이제는 AI가 생성한 목소리가 범죄에 악용되는 시대가 된 것입니다.

  KT는 이런 새로운 위협에 대응하기 위해 AI 보이스피싱 탐지 서비스 2.0을 선보였습니다. 이 서비스는 국내 최초로 화자 인식(Speaker Recognition)과 딥보이스 탐지(Deep-voice Detection) 기술을 실시간 통화 환경에 접목하여, 사전에 보이스피싱 피해를 막아내는 역할을 합니다.

AI 보이스피싱 탐지 서비스의 진화

  KT는 이미 2023년부터 ‘AI 보이스피싱 탐지 1.0’을 통해 보이스피싱 방어 체계를 구축해왔습니다. 이 초기 버전은 주로 대화 맥락과 키워드를 분석하여 의심 통화를 탐지하는 방식이었습니다. 하지만 범죄자들의 수법이 빠르게 고도화되면서, 단순한 텍스트 분석만으로는 충분하지 않았습니다.

  이에 따라 2024년, KT는 과학기술정보통신부와 개인정보보호위원회의 규제샌드박스 승인을 받아 범죄자 음성 데이터를 활용한 화자 인식 기술과, 합성 음성까지 판별하는 딥보이스 탐지 기술을 추가 개발하기 시작했습니다. 그리고 2025년 7월, 드디어 “보이스피싱 탐지 2.0”이라는 이름으로 상용화에 성공했습니다.

화자 인식, ‘그놈목소리’를 기억하다
  보이스피싱은 재범률이 높은 범죄입니다. 행정안전부에 따르면, 2023년 보이스피싱 음성 데이터 1만2323개 분석 결과, 한 사람이 34회까지 보이스피싱 범죄에 가담한 경우도 있었습니다. 이 사실에 기반하여, KT는 수사 기관에서 보이스피싱 범죄에 연루된 조직의 음성을 모아놓은 ‘그놈목소리’ 데이터베이스를 활용하기로 했습니다.
2.png


  KT의 화자 인식 기술은 목소리 속에 숨어 있는 성문(Voiceprint) 정보를 분석하여, 단순히 음성 톤이나 억양을 구분하는 수준이 아니라 사람마다 고유하게 나타나는 발성 기관의 물리적 특징을 읽어내는 고도화된 AI 모델입니다. 이 모델을 통해 발신자의 목소리 특징을 분석하고, 이를 ‘그놈목소리’ 데이터 베이스에서 미리 추출한 범죄자들의 목소리 특징과 비교하여 유사도를 구하여 승인/거절 여부를 결정합니다. 이를 통해, 범죄자가 어떤 대본을 읽든, 어떤 억양을 흉내 내든 상관없이 목소리 그 자체로 정체를 파악할 수 있습니다. 말하자면, 지문 대신 목소리를 지문처럼 활용하는 셈입니다.

딥보이스 탐지, AI가 만들어낸 목소리를 가려내다

  화자 인식이 기존의 범죄자 목소리를 판별한다면, 딥보이스 탐지는 새롭게 합성된 목소리를 가려내는 역할을 합니다.

  딥보이스 탐지는 인간의 귀로는 거의 구분하기 어려운 합성 음성의 미세한 왜곡을 잡아냅니다. 예를 들어, AI 음성 합성은 파형을 생성하는 과정에서 특유의 불연속성이나 주파수 대역의 비정상적인 분포를 남깁니다. KT의 AI 모델은 이런 특징을 학습해 “진짜 목소리인지, 합성된 목소리인지”를 빠르게 식별합니다.
3.png


  딥보이스 탐지 모델의 구성도는 화자 인식 모델과 거의 유사합니다. 하지만 이 모델은 다양한 Text-to-Speech, 음성 변조 (Voice Conversion) 모델을 통해 합성된 딥보이스를 학습 데이터로 사용합니다. 모델은 딥 보이스만이 가진 특징을 분석하여 입력된 음성이 실제 음성인지 합성된 음성인지 판별하기 위한 점수로 최종 변환시킨 후, 이를 통해 최종 승인/거절 여부를 결정합니다.

  이 기술은 이미 2024년 국민건강보험공단의 AI 음성 인증 서비스에서 검증된 바 있습니다. 당시 합성 음성을 활용한 보안 위협을 효과적으로 걸러내며 높은 정확도를 입증했고, 이번 보이스피싱 탐지 서비스에 최적화된 형태로 적용된 것입니다.

“후후” 앱 속 실시간 방패

  보이스피싱 탐지 2.0은 누구나 쉽게 사용할 수 있습니다. 삼성 갤럭시 S23 이상 단말기를 사용하는 고객이라면, 별도의 통신사 구분 없이 후후(Whowho) 앱을 통해 서비스를 경험할 수 있습니다.

  실제 통화가 진행되는 동안 AI가 음성을 실시간으로 분석하며, 위험 징후가 포착되면 곧바로 화면에 알림을 띄웁니다. 사용자는 1단계(주의, 오렌지)와 2단계(위험, 레드) 경고를 통해 상황을 인지할 수 있고, 심각한 경우 통화를 중단하도록 안내받습니다. 이는 단순히 경고 메시지를 넘어서, 사용자의 즉각적인 행동 변화를 유도하는 실질적 장치입니다.

성과로 증명된 기술력

  KT는 2025년 상반기에만 약 1,460만 건의 통화 데이터를 분석하며 서비스를 시험했습니다. 그 결과, 91.6%의 탐지 정확도를 기록했고, 이를 통해 약 710억 원 규모의 피해를 사전에 예방한 것으로 추산됩니다.

  초기 버전 대비 1.3% 포인트 상승한 수치지만, 보이스피싱 범죄의 특성을 고려하면 이 차이는 매우 큽니다. 수십만 건의 통화 중 단 몇 퍼센트의 차이만으로도 수백 명의 피해자를 보호할 수 있기 때문입니다.

  KT는 앞으로 95% 이상의 탐지 정확도를 달성하고, 연간 2,000억 원 이상의 피해를 예방한다는 목표를 세우고 있습니다.

앞으로의 과제와 전망

  보이스피싱은 끊임없이 진화하는 범죄입니다. AI가 발전할수록 범죄자들이 활용하는 기술도 함께 정교해집니다. 따라서 KT의 보이스피싱 탐지 서비스 역시 지속적으로 고도화될 필요가 있습니다.

  합성 음성 기술은 해마다 현실과 구분하기 어려울 만큼 발전하고 있습니다. 최근에는 저품질 음성 데이터 몇 초만으로도 특정인의 목소리를 합성할 수 있는 기술이 등장하고 있습니다. 따라서 탐지 모델은 더 다양한 합성 기법을 학습하고, 미세한 음향적 차이까지 식별할 수 있도록 고도화해야 합니다.

  또한 보이스피싱 탐지는 실시간으로 이뤄져야 합니다. 모델의 성능이 아무리 높더라도, 탐지 속도가 느리면 실제 피해를 막기 어렵습니다. 따라서 AI 모델을 경량화하여 모바일 단말기에서 최대한 빠르게 동작하도록 하고, 단말기에 영향을 최소화할 수 있도록 모델의 크기를 줄이는 연구가 필요합니다.

마치며

  보이스피싱은 더 이상 “나와는 상관없는 범죄”가 아닙니다. 누구나 타깃이 될 수 있고, 그 피해는 순식간에 일어납니다. KT의 보이스피싱 탐지 2.0은 화자 인식과 딥보이스 탐지라는 첨단 AI 기술을 바탕으로, 우리가 일상 속에서 안심하고 통화할 수 있는 환경을 만들어가고 있습니다.
  
  “목소리를 지킨다”는 것은 곧 신뢰를 지킨다는 의미입니다. KT의 여정은 이제 시작일 뿐입니다. 앞으로도 AI와 보안이 결합한 다양한 혁신이 우리의 일상을 더 안전하게 바꿔갈 것입니다.

출처

김지원

Speech AI Researcher