Dev Stories

AI기반 IP코어망 장애 선감지 서비스 개발


  안녕하세요, KT에서 IP코어망 장애 선감지 서비스를 개발하는 신성진입니다. 이번 글에서는 AI 기반 이상 감지 모델 개발 과정에서 기술혁신부문과 NW부문이 밀착 협업한 경험을 소개드리려 합니다.


1. IP 코어망 장애, 사전에 감지하고 빠르게 대응하기

  IP 코어망에서 대형 장애가 발생하면 많은 이용자들에게 영향을 미치고 복구에 오랜 시간이 걸립니다. 장애를 사전에 감지하여 조치 시간을 단축할 수 있다면 고객 불편을 크게 줄일 수 있을 것입니다. 본 과제의 목표는 AI 기반의 이상 징후 선감지를 통해 장애 알람 발생 전에 사전에 장애 조짐을 포착하고, 자동화된 원인 분석 및 대응으로 평균 복구 시간을 크게 단축하는 것이었습니다. 이를 위해 D-Model 팀(기술혁신부문)과 AI운용혁신팀(네트워크부문)이 협업하여, 데이터, 네트워크 도메인 지식, AI 모델링을 유기적으로 결합하는 새로운 시도를 진행했습니다. 이 글에서는 IP 유선 코어망 네트워크 장애 선감지 프로젝트를 수행하며 얻은 기술적 인사이트와 부서 간 협업 경험을 정리합니다.


preview10085515347.png


2. 성공 요인: 데이터×도메인×AI의 유기적 결합

  IP 코어망은 전국에 분산된 대규모 네트워크로, Enterprise Core Router (ECR)와 Service Edge Router (SER) 같은 핵심 장비들로 구성됩니다. 기업용 ECR 한 대에는 수백 개 기업이, 가정용 SER 한 대에는 수만 명의 가입자가 연결되어 있어, 단일 장비 장애도 광범위한 영향을 줄 수 있습니다. 하지만 장애 발생 빈도는 매우 낮아 데이터를 통한 이상 탐지 모델을 만들기가 쉽지 않았습니다.

  이러한 문제를 해결하기 위해 AI 기술에만 의존하기보다는 현업의 경험과 노하우를 적극 활용하는 접근 방식을 택했습니다. 즉, 단순히 데이터만으로는 불충분하기 때문에 네트워크 운용 전문가들이 현장에서 쌓아온 풍부한 도메인 지식을 모델링 과정에 통합했습니다. 그 결과 데이터가 부족한 상황에서도 신뢰할 수 있는 이상 탐지 모델을 만들 수 있었는데요.

  이번 프로젝트의 성공을 이끈 핵심은 데이터, 도메인 지식, AI 모델링 기술이 철근, 콘크리트, 설계도처럼 유기적으로 맞물려 단단한 구조를 이뤘다는 점입니다. 아무리 튼튼한 철근(데이터)과 콘크리트(도메인 지식)가 있어도, 이를 효과적으로 엮는 설계도(AI 모델링 기술)가 없다면 건물은 무너지기 쉽습니다. 이번 프로젝트는 현업이 오랜 시간 쌓아온 지식을 기반으로, 그 위에 AI라는 혁신적 기술을 정교하게 설계함으로써 진정한 의미의 ‘안정성과 혁신’을 동시에 확보할 수 있었습니다.


connetnec45647783.png


  먼저 데이터 측면에서, 코어망 운용에 사용되는 거의 모든 종류의 데이터를 한 데 모았습니다. Simple Network Management Protocol (SNMP) 기반의 장비 관련 정보, 라우팅 관리 시스템 기반의 정보, 장비 log 기반의 이벤트 로그, Netflow 기반의 트래픽 정보, 고객 단말 관리 시스템 기반의 정보, 고객 VoC 데이터 등 유선 네트워크 전반을 커버하는 다양한 데이터를 통합했습니다. 이렇게 모인 데이터는 상호 보완적인 역할을 했습니다. 예를 들어 장비 log나 VoC, 라우팅 로그는 각각 100% 신뢰도로 중요한 이벤트를 나타내는 반면, 트래픽 데이터는 노이즈가 있을 수 있지만 대용량으로 계절성 패턴까지 드러날 정도로 풍부한 정보를 제공합니다. 또한 일부 이벤트는 발생 자체만으로도 문제인 것도 있었습니다. 예를 들어 장비 log 경고 메시지가 발생하면 무조건 이상 상황으로 간주할 수 있으므로, 이런 이벤트는 단순 규칙으로도 감지하여 바로 모델에 반영했습니다. 이처럼 다양한 데이터 출처를 확보하고 신뢰도 높은 이벤트와 패턴성 데이터를 모두 활용한 것이 토대가 되었습니다.

  다음으로 도메인 지식 측면에서는, 네트워크 현장 전문가들의 축적된 경험과 노하우가 대폭 접목되었습니다. 네트워크 분야에서 수십 년간 축적된 운영 지식은 AI 모델이 무엇을 학습해야 할지 방향을 잡아주었습니다. 프로젝트 초기에 네트워크운용 부서와 현장 마이스터들이 과거 수년간 발생했던 대표 장애 여러 건을 분석하여 관련된 핵심 이상징후 Feature들을 선정하고 장애와의 연관성을 정리해주었습니다. 또한 기존에 알려진 여러 이상 징후 이벤트(예: 과거 장애의 전조 현상, 관제 알람, 현장 점검 결과 등)를 한데 모아 “데이터 + 조건문” 형태로 정리하고, 그 중대도에 따라 등급화해주었습니다. 현업 전문가들이 “이런 패턴이면 위험 신호”라고 알려준 셈이고, 이를 기반으로 AI 모델의 방향성이 결정되었습니다. 특히 현장 전문가들은 우선적으로 주목해야 할 Feature가 무엇인지, 어떤 상황에서 오경보가 발생하는지 등을 수시로 피드백하여 모델이 현실적으로 유의미한 이상을 찾도록 가이드했습니다. 예를 들어 현장 마이스터 분들은 “N주 이상 안 나오던 새로운 종류의 Syslog가 튀어나오면 이상 징후”라는 현장 감각을 공유해주어, 해당 조건을 특별 모니터링하는 새로운 Feature로 모델에 추가하기도 했습니다.

  마지막으로 AI 모델링 기술 측면에서는 분석 기법을 고도화 했습니다. 단순 임계치 기반 규칙뿐만 아니라 머신러닝 알고리즘을 도입하여 이상탐지 모델을 고도화했습니다. 지도학습을 하기에는 레이블된 장애 사례가 거의 없기 때문에, 비지도 학습과 반지도 학습 기법들을 적극 검토했습니다. Matrix Profile, Symbolic Aggregate approXimation, Isolation Forest, Variational Auto Encoder 등 다양한 비지도 학습 기반 이상탐지 알고리즘을 활용하여 대부분 정상인 데이터 속에서 소수의 이상 패턴을 식별하고 군집화했습니다. 또한 현업 지식으로 정의된 Known 이상 이벤트들은 규칙 기반 탐지로 구현하여 Feature로 피드하고, 나머지 부분을 ML 모델이 보완하는 규칙기반+ML 혼합형 접근을 취했습니다. 이를 통해 사람이 사전에 규칙으로 정의하지 못한 새로운 이상 징후까지도 모델이 자동으로 학습하여 찾아내도록 했습니다.

  이처럼 Data + Domain + AI가 유기적으로 합쳐지면서, 단독으로는 불가능했던 수준의 성능과 신뢰도를 확보할 수 있었습니다.

3. 협업 문화: 부서 간 경계를 넘는 열린 협력

  D-Model팀(기술혁신부문)과 AI운용혁신팀(네트워크부문)이 함께 프로젝트를 성공시키기 위해서는 조직 문화적 장벽을 허무는 협업 방식이 중요했습니다. 서로 전문 분야가 다른 만큼 지속적인 동기화와 소통이 성과를 좌우했는데요. 프로젝트 팀은 “지연 없는 동기화”를 모토로 삼아, 매일 모든 팀원이 자신의 계획, 진행 상황, 문제점을 투명하게 공유했습니다. 구체적으로 매일 아침 데일리 스크럼 회의를 통해 “오늘 할 일”을 공유하고, 업무 중간중간 팀즈(Teams) 채널을 활용해 “현재 막힌 문제”, “처리 완료한 작업”을 실시간으로 알렸습니다. 이러한 짧은 주기의 소통을 통해 문제 발생 시 즉각적으로 관련자가 도움을 주고받을 수 있었고, 지연을 최소화했습니다.

  협업 도구의 효과적인 활용도 문화를 뒷받침했습니다. 예를 들어, Confluence 상에 공동 작업 공간을 만들어 개발 진행 상황과 산출물을 수시로 올렸습니다. 중요한 점은 “완성된 결과만 올리지 말고 중간 결과라도 공유한다”는 팀 원칙이었습니다. 이를 통해 PM과 관련자들이 진행 중인 내용을 미리 파악하고 피드백하거나 지원이 필요한 지점을 조기에 도울 수 있었습니다.

  팀원들 사이에서는 상호 존중과 신뢰 형성도 중요한 문화였습니다. 작은 성과에도 서로 이모지(👍)로 피드백을 보내며 사기를 북돋우고, 공유된 이슈에는 체크 표시로 확인했음을 나타내 빠뜨리는 일이 없도록 했습니다. PM은 팀의 싱크(sync) 상태를 항상 모니터링하여 만약 일정 지연이나 누락이 감지되면 즉각적으로 1:1 대화를 이용하여 조율했습니다. 이러한 빠르고 솔직한 커뮤니케이션 문화 덕분에 부서 간 협업임에도 불구하고 마치 한 팀처럼 유기적으로 움직일 수 있었습니다. 네트워크 전문가들은 AI팀의 어려움을 이해하고 도와주었고, AI개발자들도 네트워크 현장의 관점을 배우며 공동의 목표를 향해 정렬될 수 있었습니다.

4. 주요 도전과 해결 방법

이 프로젝트를 진행하며 직면했던 주요 도전과, 이를 어떻게 해결했는지 분야별로 정리해보겠습니다.

4-1. 레이블링 및 평가 체계 확립

  •  도전 : AI 모델을 훈련하려면 정답 레이블이 필요한데, 네트워크 장애는 발생 건수가 매우 적어 지도학습에 쓸 데이터가 거의 없습니다. 자칫 잘못하면 모델이 “모든 상태가 정상”이라고만 학습해도 높은 정확도가 나와버리는, 이른바 불균형 레이블 문제에 직면하게 됩니다. 또한 “이상”과 “정상”에 대한 명확한 정의를 마련하는 것도 초기 과제였습니다.
  •  해결 : 레이블 부족 문제를 해결하기 위해 Active Learning과 유사한 접근을 도입했습니다. 우선 현장 전문가들의 도움을 받아 ‘이상’이라고 확실히 말할 수 있는 이벤트들을 모아서 초기 레이블로 삼았습니다.


step345468798.png


  Step 1 : 이상 레이블 확보 단계에서는 VoC 데이터와 기존 경보 알람 및 현장 마이스터들의 경험을 활용했습니다. 큰 장애는 작은 이상 징후에서 시작되는 경우가 많고, 가장 확실한 작은 이상은 고객 VoC라는 현장의 판단이 있었기에, VoC 데이터에서 빈번히 나타난 사례를 이상 사례로 분류했습니다. 또한 다년간 운영되며 축적된 경보 이력과 현장 전문가의 노하우로부터, 과거 장애로 이어졌던 패턴들을 뽑아 레이블에 추가했습니다.

  Step 2 : 이상 패턴 분석 및 임계치 도출 단계에서는, 이렇게 확보한 이상 레이블들이 발생했을 당시의 각종 Feature 패턴을 분석하여 초기 임계치(threshold)를 설정했습니다. 네트워크 현업부서와 협의하여 특히 코어가 되는 주요 지표들부터 우선순위를 정해 하나씩 이상 패턴 범위를 규명해나갔습니다. 예를 들어 VoC가 발생한 시점 전후로 트래픽, CPU 사용률, 에러 로그 등의 시계열 데이터를 살펴 해당 기간에만 나타나는 비정상 변동폭을 계량화하고, 그 값을 임계치로 정하는 방식입니다. 이러한 과정은 초기에는 수작업과 경험에 의존했지만, 점차 데이터가 쌓이면서 통계적 기법과 스마트 탐색 알고리즘으로 임계치를 자동 최적화하는 방향으로 발전시켰습니다(예: Bayesian Optimization, 유전 알고리즘 등을 활용한 임계치 탐색).

  Step 3 : 마지막으로 모델이 산출한 이상 탐지 결과를 평가하는 체계를 구축했습니다. Precision(정밀도)과 Recall(재현율) 등 ML 모델의 성능 지표를 도입하여, 얼마나 신뢰할 수 있는 경보를 만들어내는지 측정했습니다.

4-2. 오탐 개선: 정밀도 향상을 위한 3단계 접근법

  •   도전 : 이상 탐지 모델의 숙명적인 과제는 오탐(False Positive)과 미탐(False Negative)을 어떻게 줄이느냐입니다. 앞서 언급했듯이 오탐이 연속적으로 발생하면 현장에서 경보를 무시하게 되고, 드물게 일어나는 중대한 장애를 한 번이라도 놓치면 신뢰도가 추락합니다. 초기 모델을 적용했을 때도 새로운 ML기반 접근은 미묘한 이상도 잡아내는 대신 오탐률이 다소 높아지는 경향을 보였습니다. 네트워크현장에서는 “허위 경보가 너무 잦으면 실무자가 결국 보지 않게 된다”는 우려를 표했고, 모델 개발자 입장에서는 “너무 보수적으로 하면 이상을 놓칠 수 있다”는 입장이어서 적정 균형을 찾는 노력이 필요했습니다.
  •   해결 : 정밀도(Precision)를 높이면서도 재현율(Recall)을 크게 떨어뜨리지 않기 위해 세 단계로 접근했습니다.

    anomal1545245343..png




      첫 번째 단계에서는 단일 Feature 기반 이상 탐지를 수행했습니다. 이는 사람이 몸 상태가 좋지 않을 때 기침, 열, 몸살 같은 개별 증상을 체크하는 것과 같습니다. 이 단계에서는 각 Feature별 이상탐지 모델을 개발하여 기초적인 이상 징후들을 식별했습니다.

      둘째는 Feature 조합 기반의 탐지 로직입니다. 이는 마치 동네 병원에서 여러 가지 증상을 종합해 문진과 진료의뢰서를 작성하여 대학 병원을 가야 할지 결정하는 것과 유사합니다. 이상 탐지가 단일 지표만으로는 경보를 발생시키지 않고, 여러 지표가 동시에 이상인 경우에만 True Positive로 판단하도록 도메인 지식을 활용했습니다. 현장 전문가들이 경험적으로 쌓아온 지식을 규칙화한 것으로, 예를 들어 단순 트래픽 증가만으로는 이상을 판단하지 않지만, 패킷 드롭 증가 + 특정 에러 로그 + VoC 접수가 동시에 발생하면 실제 장애 가능성을 높게 평가했습니다. 이러한 다중 조건을 통해 오탐의 상당수를 걸러낼 수 있었습니다.

      셋째는 원인 분석 Agent를 활용하여 실제 장애 여부를 확정하는 단계로, 마치 대학병원에서 정밀한 검사(CT, MRI)를 통해 최종 질병을 확진하는 과정과 같습니다. Agent는 탐지된 이상 이벤트 주변의 네트워크에 “원격 접속”하여 로그와 상태를 종합 분석하고 장애 가능성을 판단했습니다. 분석 결과 의미 있는 징후로 판단되면 "조치 필요" 알람으로 승격했고, 무의미한 이상이라면 운영자가 참고만 할 수 있도록 낮은 우선순위로 처리했습니다. 이런 3단계의 점진적 필터링 체계를 통해 AI 모델이 놓치지 않고 탐지(Recall 중시)한 후 Agent가 최종 정밀도를 책임지며 현장의 요구에 맞는 정밀도(Precision)를 높이고 오탐을 최소화하는 효과를 달성했습니다.


4-3. Drift 대응: MLOps를 통한 지속적 모델 고도화

  • 도전 : 네트워크 환경은 시간에 따라 변화하기 때문에, 한 번 좋은 모델을 만들어도 계속 그대로일 수는 없습니다. 트래픽 패턴은 계절·이용행태 변화에 따라 달라지고, 장비 펌웨어 업그레이드나 구성 변경으로 로그 양상도 바뀔 수 있습니다. 따라서 시간이 지남에 따라 모델 성능이 서서히 저하되는 Concept Drift가 발생할 우려가 있습니다. 이를 방치하면 처음엔 잘 동작하던 이상 탐지 모델이 나중에는 유의미하지 않은 경보를 내거나 중요한 이상을 놓치는 상황이 생길 수 있습니다.

mlops453678786.png

  •   해결 : 이러한 데이터 Drift/모델 열화에 대응하기 위해 MLOps 체계를 적극 도입하였습니다. MLOps란 ML 모델의 개발부터 배포, 운영, 모니터링, 재학습까지의 전 과정을 자동화하고 지속적으로 관리하는 프레임워크입니다. 본 프로젝트에서는 초반부터 MLOps 파이프라인을 구축하여, 모델이 배포된 후에도 주기적으로 성능을 모니터링하고 필요시 자동으로 재학습되도록 설계했습니다. 구체적으로는 모델이 출력하는 이상 탐지 결과에 대해 현장 피드백(예: 잘 탐지했는지, 오탐이었는지)을 수집하고, 이를 정량화한 평가 지표를 실시간으로 대시보드화했습니다. 만약 Precision이나 Recall 추이가 설정된 임계치 아래로 떨어지거나, 오탐이 특정 기간 연속 발생하는 등의 패턴이 감지되면 재학습 사이클이 자동 트리거되도록 했습니다. 재학습 시에는 최신 누적 데이터를 반영하여 모델 파라미터를 다시 최적화하고, 업데이트된 모델을 배포한 뒤에도 A/B 테스트를 거쳐 성능 향상 여부를 검증하도록 설계하였습니다. 

      또한 동적 임계치 조정 메커니즘도 구현했습니다. 앞서 데이터 통합 단계에서 계절성과 주기성을 분석한 결과를 활용하여, 시간대별로 다른 임계치를 두거나 네트워크 구조 변화에 따라 자동으로 임계 값을 재산정하는 로직을 적용했습니다. 예를 들어 새 장비가 증설되어 트래픽 용량이 늘어나면 그에 맞춰 트래픽 이상 임계치를 상향 조정하고, 반대로 이용자 패턴 변화로 어느 지표의 전반적 평균치가 상승하면 이상 판단 기준도 함께 상향 조정하는 식입니다. 이 과정 역시 현업의 검증을 거쳐야 하지만, 기본적인 계산은 시스템이 해 주기 때문에 운영부서의 튜닝 부담을 크게 덜었고, 모델이 환경 변화에 적응하도록 만들었습니다.

  마지막으로, 지속적인 현장 피드백 루프를 운영하고자 합니다. 분기별로 기술혁신부문과 네트워크부문이 함께 모여 지난 기간의 성능과 장애 예방 사례를 리뷰하고, 개선 사항을 논의합니다. 예를 들어 새로운 유형의 장애가 발생하면 해당 사례를 분석하여 모델에 반영하고, 현장에서 “특정 이상 패턴은 실무상 크게 중요하지 않았다”라고 하면 과감히 탐지 조건에서 제외하는 식입니다. 이런 인간과 시스템의 공동 진화 프로세스를 통해 시간이 지날수록 더욱 정교하고 똑똑한 선감지 서비스로 발전하는 것을 목표로 합니다. 과거에는 새로운 기술을 일단 개발하고 나면 유지보수가 안 되어 사장되는 경우가 많았지만, 본 서비스는 MLOps 기반의 자동화된 관리체계 덕분에 지속적으로 개선/운영되고 있다는 점에서 의의가 있습니다.


맺음말

  이번 IP 코어망 선감지 프로젝트를 통해 데이터와 도메인 지식, 그리고 AI 모델링의 유기적인 결합이 실제 산업 현장의 복잡한 문제 해결에 얼마나 중요한 역할을 하는지 확인할 수 있었습니다. 단순히 최신 AI 기술에만 의존하지 않고, 현장 전문가들의 풍부한 경험과 지식을 적극적으로 반영함으로써 신뢰도 높은 이상 감지 시스템을 구축할 수 있었습니다.

  프로젝트 전 과정에서 기술혁신부문과 네트워크부문이 긴밀하게 협업하며, 장애 레이블링, 오탐 최소화, Drift 대응 등 여러 실질적인 과제들을 단계적으로 해결해나갔습니다. 특히 부서 간 소통과 신뢰를 바탕으로 한 빠른 피드백 문화가 프로젝트 성공의 중요한 기반이 되었습니다.

  아울러, 현장 피드백과 MLOps 기반의 자동화된 운영 체계를 통해 모델의 성능을 지속적으로 개선할 수 있었고, 사람과 시스템이 함께 진화해 나가는 선순환 구조를 만들 수 있었습니다.

  물론 남은 과제와 향후 계획도 있습니다. 추후에는 실제 현장에서 완전 자율적인 장애 대응까지 나아가기 위해, 탐지된 이상에 대해 자동으로 조치할 수 있는 시스템까지 구현하고자 합니다. 또한, 현재 유선 코어망에 국한된 선감지 서비스를 무선 및 액세스망 등 다른 도메인으로 확대하는 방안도 검토하고 있습니다. 이를 위해 각 도메인에 맞는 데이터와 장애 특성을 추가로 학습하고, 최적화된 모델링을 새롭게 설계할 계획입니다. 더 나아가 예방 정비 영역까지 AI 선감지 기술을 확장하여, 장애 발생 이전에 부품 교체나 트래픽 우회 등 사전 예방 조치를 추천하는 단계로 발전시키는 것도 목표입니다. 궁극적으로는 “통신망의 자율운영(Autonomous Network)” 실현을 위한 핵심 기술로서, AI 기반 선감지 및 원인분석 프레임워크를 지속적으로 고도화할 예정입니다.

  이번 프로젝트를 통해 AI와 네트워크 운용의 접목이 가져올 수 있는 효과를 실제로 체감하였으며, 동시에 협업의 중요성도 다시 한 번 깊이 느낄 수 있었습니다. 처음에는 서로의 분야를 잘 몰랐던 두 조직이었지만, 공동의 목표 아래 소통하고 협력하며 의미 있는 결과를 만들어낸 과정 자체가 큰 자산이 되었습니다. 이 글이 유사한 도전을 하는 분들께 작은 인사이트와 용기가 되기를 바라며, 앞으로도 KT의 다양한 기술 부서 간 협업을 통해 더 혁신적인 성과들이 이어지길 기대합니다.


함께한 사람들

  이번 프로젝트는 D-Model팀(기술혁신부문), AI운용혁신팀(네트워크부문), AX기술지원팀 팀들과 마이스터 분들이 긴밀하게 협력하여 함께 수행하였습니다. D-Model팀에서는 권력환, 신성진, 공지환, 임수진, 심훈용, 이도연, 장지호, 김남우, 남현서, 김보민, 김소영, 오승희 님이 함께 했고, AI운용혁신팀에서는 이호송, 김경열, 김승주, 김준혁, 정태진, 김민섭, 박주연, 이성현, 채동윤, 신민준 님이 참여해주셨습니다. AX기술지원팀의 전상영 님, 강남NW 운용본부의 이현정 마이스터, 전남전북NW 운용본부 유성덕 마이스터, 충남충북NW 운용본부 윤지현 마이스터 님도 본 과제에 기여해 주셨습니다. Biz Data Science Project 시절, 심현미, 하유이, 김하빈, 이동현 님께서 도와주셨습니다. 각 팀이 가진 전문성과 노하우를 바탕으로 유기적인 협업이 이루어졌기에, 이번 선감지 프로젝트가 성공적으로 진행될 수 있었습니다.


신성진

네트워크 박사로서, 네트워크 데이터와 AI를 융합해 문제를 해결하고, 실질적인 인사이트를 바탕으로 가치 있는 서비스를 개발하고 있습니다.