Dev Stories

KDD 2025 학회 참석 후기

  안녕하세요. DI Lab D-Quality팀 한소은입니다. 저는 2025년 8월 3일부터 7일까지 캐나다 토론토에서 열린 KDD 2025 (Knowledge Discovery and Data Mining) 학회에 참석하였습니다. 이번 KDD EAI workshop에 AI Safety와 관련된 연구를 발표할 기회를 얻었고, 동시에 전 세계 연구자들과 기업의 최신 기술 동향을 접할 수 있었습니다. 이번 글을 통해 제가 발표한 연구 내용을 간단히 소개하고, 학회 참석 후기를 공유드리고자 합니다.

KDD 학회 소개

  KDD(Knowledge Discovery and Data Mining) 학회는 데이터 사이언스인공지능 분야에서 세계적으로 가장 권위 있는 학회 중 하나입니다. 1989년에 첫 워크숍이 시작된 이후, 세계적인 국제 학회로 자리 잡으면서 현재는 ACM SIGKDD(Association for Computing Machinery Special Interest Group on Knowledge Discovery and Data Mining)에서 주관하고 있습니다. 

  이 학회는 데이터마이닝, 머신러닝·AI 연구 발표뿐만 아니라 최신 동향과 산업 적용 사례를 다루고 있어 학계와 산업계 모두에서 중요한 학회로 평가받고 있습니다. 구글, 마이크로소프트, 메타, 아마존, 오픈AI 등 글로벌 빅테크 기업도 적극적으로 참여하여 새로운 협력 기회를 만드는 자리입니다.

1.jpg

사진 출처: KDD 2025 공식 홈페이지

2.png

연구 논문 소개

  저는 지난 팀에서 진행한 AI Safety 업무를 기반으로 “SURE: Framework for Safety to Construct Trustworthy AI“라는 논문을 발표했습니다. 본 연구는 AI Safety 확보를 위한 체계적이고 유기적으로 통합된 프레임워크 SURE를 제안합니다.다양한 분야에서 LLM 활용이 증가하며 전 세계적으로 AI Safety 확보에 대한 관심이 높아졌습니다. 그러나 국가, 문화, 기업 정책에 따라 안전 기준이 달라 학습 데이터 확보가 어렵다는 한계가 있었습니다. 

  AI Safety 확보를 위한 학습 데이터를 효과적으로 구축하기 위해, 먼저 AI Safety를 위협하는 적대적 프롬프트(red-teaming prompt)를 분류하고, 적대적 프롬프트를 생성하였습니다. 그리고 적대적 프롬프트에 대한 바람직한 AI 응답 템플릿을 정의하여 모델 응답의 안전성을 평가하는 체계를 확립했습니다. 마지막으로 SURE를 통해 구축된 SFT, Preference 데이터로 모델을 학습한 결과, 적대적 프롬프트에 대해 안전한 응답을 생성함을 실험을 통해 확인하였습니다.
 
3.png

인상 깊었던 연구

1. ChineseEcomQA: A Scalable E-commerce Concept Evaluation Benchmark for Large Language Models

  본 논문은 전자상거래(e-commerce) 도메인에서 LLM의 개념 이해 및 질의응답(QA) 능력을 평가하는 벤치마크 ChineseEcomQA를 소개합니다. LLM이 전자상거래 등 다양한 분야에 적용되면서, 사실과 다른 정보를 생성하거나, 실무 시나리오에 취약한 한계가 도메인 특화 평가 지표의 필요성을 키웠습니다. 따라서 이 연구는 전자상거래 분야에서 LLM의 이해 능력을 평가하기 위한 평가 항목을 정의하고 QA 평가데이터 구성 방안을 제시했습니다

핵심 내용:
  • 전자상거래 도메인의 주요 개념을 정의하고 분류
  • 전자상거래 주요 개념을 기반으로 표준화된 QA 평가 벤치마크 구축
  • 확장성이 높은 도메인 별 벤치마크 구축 프로세스를 제안

KT 적용 인사이트:
  • 각 도메인별 주요 개념 정의와 분류 필요성
  • 도메인 특화 성능과 범용 성능의 균형 중요성
  • 도메인별 실무 시나리오를 반영한 평가 프레임워크 설계로 실효성 확보

2. Revolutionizing Database QA with Large Language Models: Comprehensive Benchmark and Evaluation

  본 논문은 데이터베이스 질의응답(DBQA) 분야에서 LLM의 능력을 체계적으로 평가하는 대규모 벤치마크(DQABench)와 평가 프레임워크(DQTestbed)를 소개합니다. DQABench는 실제 운영 환경과 유사한 고난이도 QA 데이터를 포함합니다. 또한, DBQA 능력과 도구 통합 등 세부 기술을 종합적으로 평가하는 모듈형 평가 플랫폼 DQATestbed를 제시합니다. 이 연구는 전문 분야 LLM 활용 시 자동화 및 지능화 평가 기준을 제공하여 관련 분야 활성화에 기여합니다.

핵심 내용:
  • 다양한 평가 데이터를 확보하기 위해 질문 유형(General QA/Product-specific QA/Instance-specific QA)을 분류하고, 대규모 벤치마크 DQABench 구축
  • 실제 응용 능력을 체계적으로 평가하는 모듈형 평가 플랫폼 DQATestbed 개발
  • 평가 파이프라인 및 지표 설계 체계화

KT 적용 인사이트:
  • 현실적인 난이도를 반영한 실무 중심의 평가데이터 필요성
  • 학습과 튜닝을 통해 중형 모델도 상위 모델과 유사한 성능 상회 가능성 확인
  • 최종 응답 평가 뿐만 아니라, 일관성과 정확성을 위한 end-to-end 평가 필요성

Canada 도시탐방

  학회 일정 이후, 토론토를 탐방하는 시간도 가질 수 있었습니다. 토론토 도심은 고풍스러운 건축물과 최신식 빌딩이 조화를 이루며 독특하고 매력적인 분위기를 자아냈습니다.

4.png


  토론토 주요 관광 명소이자 세계 3대 폭포 중 하나인 나이아가라 폭포도 방문했습니다. 거대한 물줄기에서 자연의 위대함을 느낄 수 있었습니다. 돌아오는 길에 현지 브루어리에 들러 흑맥주와 캐나다 대표 음식인 푸틴(Poutine)도 맛보았습니다.


55.png

마치며

  이번 KDD 학회 출장을 통해 가장 인상 깊었던 점은 최신 연구 동향을 빠르게 접할 수 있었다는 것입니다. 전 세계의 다양한 연구자들이 발표한 논문과 포스터들을 직접 접하며, 현재 학계와 산업계에서 어떤 기술과 주제가 주목받고 있는지를 생생하게 느낄 수 있었습니다. 

  특히, 순수 학술 연구뿐만 아니라 실제 산업 현장과 응용을 고려한 세션들이 인상적이었는데, 이를 통해 현재 진행 중인 업무에도 큰 도움이 되는 유용한 인사이트를 얻을 수 있었습니다. 또한, 세계 각국에서 모인 열정적인 연구자들이 활발하게 발표하고 토론하는 모습을 보면서 보다 폭넓은 시야를 갖게 되어 매우 의미있는 시간이었다고 생각합니다.

한소은

저는 도메인 특화 모델 평가 업무를 담당하고 있습니다.