Dev Stories

CVPR 2025 학회 참석 및 논문 발표 후기

  안녕하세요, Gen AI Lab 최해윤입니다. 


  저는 6월 11일 부터 15일까지 미국 테네시주 내슈빌에서 열린 CVPR 2025 (IEEE/CVF Conference on Computer Vision and Pattern Recognition)에 참석하여 연구 성과를 발표하고, 최신 기술 동향을 파악할 기회를 가졌습니다. 컴퓨터 비전 분야의 최고 권위를 자랑하는 CVPR은 매년 수천 편의 연구가 발표되고, 글로벌 기업들이 비전 AI의 현재와 미래를 논하는 자리입니다. 이번 글에서는 현장에서 직접 보고 들은 내용을 바탕으로, 급변하는 컴퓨터 비전 분야의 흐름과 제가 발표한 연구의 의미, 그리고 학회 외적으로 경험한 현지 문화까지 종합적으로 공유드리고자 합니다.  

1.png

1. 학회 소개

  CVPR은 컴퓨터 비전 및 패턴 인식 분야의 최고 권위를 자랑하는 학회입니다. 이번 CVPR 2025는 기록적인 참가 규모와 함께 주목할 만한 통계들을 보여주었습니다. 역대 최다인 13,008편의 논문이 제출되었고, 이 중 2,872편이 채택되어 약 22%의 채택률(Acceptance rate)를 기록했습니다. 특히 올해는 저자 국적 기준으로 중국 (50%), 미국(18%), 한국(5%) 순으로 한국인 저자가 세 번째로 많은 비중을 차지하고 있다는 사실이 매우 놀랍고 자랑스럽기도 했습니다.


  연구 주제별로는 이미지/비디오 생성, 3D 비전, 멀티모달 학습 순으로 많은 논문이 발표되어, 관련 기술들이 학계의 주요 화두임을 다시 한번 확인할 수 있었습니다. 특히 이번 학회의 베스트 페이퍼로는 VGGT: Visual Geometry Grounded Transformer가 선정되었습니다. 이 논문은 Oxford와 Meta AI 연구팀의 공동 연구로, 3D 재구성 문제를 기존의 최적화 기반 방식에서 딥러닝 기반의 단일 네트워크로 해결하는 새로운 접근 방식을 제시하여 큰 주목을 받았습니다.


  2D 이미지의 한계를 넘어, 3D 데이터를 기반으로 현실 세계를 이해하고 재구성하는 연구가 폭발적으로 증가하고 있으며, VGGT가 올해의 베스트 논문으로 선정되었다는 것 역시 이러한 흐름을 방증합니다. 앞으로 자율주행, 로봇 공학, VR/AR 등 현실과의 상호작용이 중요한 분야에서 3D AI는 핵심 기술로 자리매김할 것이며, 이번 CVPR은 그 시작을 알리는 중요한 자리였다는 생각이 들었습니다.


그림2.png


2. 연구 논문 소개: Exploiting Deblurring Networks for Radiance Fields

  이번 학회에서 저는 Exploiting Deblurring Networks for Radiance Fields라는 제목의 연구를 발표했습니다. 본 연구는 Neural Radiance Fields (NeRF) 및 3D Gaussian Splatting (3DGS) 기술이 블러(Blur)가 심한 이미지에서도 고품질 3D 장면을 재구성할 수 있도록 돕는 새로운 접근 방식을 제안합니다. 기존 NeRF와 3DGS는 선명한 입력 이미지에 의존하여 3D 장면을 생성하지만, 실제 환경에서는 블러가 흔히 발생하여 재구성 품질을 저해하는 문제가 있었습니다.


  이 문제를 해결하기 위해, 이미 잘 알려진 디블러링 네트워크(Deblurring Networks)의 강력한 데이터 기반 디블러링 능력을 Radiance Fields 학습 과정에 효과적으로 통합하는 방법을 모색했습니다. 특히, 다음 두 가지 핵심 기법을 제안하여 기술의 완성도를 높였습니다. 첫째, RF(Radiance Field)-guided deblurring 이라는 고유한 디블러링 기법을 개발하여, 3D 정보를 기반으로 더욱 정교하게 블러를 제거하도록 설계했습니다. 둘째, 디블러링과 3D 재구성 및 렌더링을 번갈아 수행하는 반복적(iterative) 프레임워크를 구축함으로써 디블러링 성능과 3D 재구성 품질을 지속적으로 향상시켰습니다. 또한 본 연구에서 제안한 방법은 Voxel Grid나 3D Gaussian과 같은 다양한 장면 표현 방식과 호환되어 확장성이 높고, 다른 프레임워크에 쉽게 적용될 수 있다는 장점을 가집니다. 마지막으로, 블러가 있는 3D 재구성 연구를 위한 최초의 대규모 합성 데이터셋인 BlurRF-Synth과 블러가 주로 저조도 환경에서 발생한다는 점에 착안해, 머신비전 카메라를 활용하여 직접 구축한 저조도 환경 실제 평가 데이터셋 BlurRF-Real을 함께 공개했습니다. 실험 결과, 기존 기술 대비 뛰어난 성능을 보였을 뿐만 아니라, 훈련 시간을 획기적으로 단축하여 효율성 또한 입증했습니다.


  포스터 발표 세션에서 많은 연구자들과 깊이 있는 토론을 나눌 수 있었고, 특히 저희 연구가 실제 환경에서의 NeRF 및 3DGS 적용 가능성을 크게 확장할 수 있다는 점에서 큰 관심을 받았습니다. 이는 자율주행, 가상현실, 로봇 공학 등 다양한 응용 분야에서 블러에 강인한 3D 재구성 기술의 필요성이 증대되고 있음을 시사한다고 생각합니다.


그림3.png


* 논문 링크: Exploiting Deblurring Networks for Radiance Fields (CVPR 2025)                                              

3. 주요 키노트 소개: Meta와 Google이 바라보는 AI의 현재와 미래

  이번 CVPR 2025에서는 기술의 최전선에 있는 글로벌 기업들의 키노트가 큰 주목을 받았습니다. 특히 Meta와 Google의 발표를 보기 위해 많은 사람들이 키노트에 참석했습니다.

Meta: 거대 AI 모델, Llama 4의 탄생

  Meta의 키노트 발표는 Llama 4 모델이 텍스트를 넘어 인간의 시각적 세계를 이해하는 언어 모델로 진화하는 단계를 보여준다고 강조했습니다. 이번 Llama 4의 핵심은 '혼합 전문가(Mixture-of-Experts, MoE)' 아키텍처입니다. 이는 모든 매개변수(parameter)를 사용하는 기존 모델과 달리, 특정 작업에 특화된 전문가(expert)들을 필요한 시점에만 활성화하여 훨씬 효율적으로 모델을 확장하고 훈련시킬 수 있는 기술입니다.


  Meta는 이러한 아키텍처를 기반으로 두 가지 규모의 모델을 집중적으로 다뤘습니다.

  • Llama 4 Scout: 170억 개의 활성 매개변수와 16개의 전문가를 가진 모델로, 효율적인 추론과 빠른 응답 속도에 최적화되었습니다.

  • Llama 4 Maverick: 170억 개의 활성 매개변수와 128개의 전문가를 가진 모델로, 이미지, 비디오, 음성 등 다양한 데이터를 자연스럽게 처리할 수 있습니다.


  두 모델 모두 텍스트, 이미지, 비디오 데이터까지 함께 학습한 '네이티브 멀티모달' 모델로, 이러한 멀티모달 능력은 '초기 융합(Early Fusion)'이라는 훈련 방식으로 가능했습니다. Llama 4는 각기 다른 모달리티(언어, 시각, 오디오)에서 들어오는 정보를 훈련 초기 단계부터 하나의 벡터로 결합하여 학습합니다. 이는 마치 인간이 세상을 여러 감각으로 동시에 인지하는 방식과 유사하며, 그 결과 더 깊이 있는 맥락과 추론 능력을 갖추게 됩니다. 이러한 모델이 32,000개의 H100 GPU를 활용한 대규모 훈련을 통해 개발되었음을 밝히며, AI 개발 경쟁의 치열함을 다시 한번 보여주었습니다. 또한, 지도 학습, 강화 학습 등 다양한 '후처리(Post-training)' 과정을 거쳐 모델의 안전성과 성능을 최적화했음을 강조했습니다. 두 모델은 모두 오픈 가중치(Open Weight)로 공개되어 Hugging Face 및 Meta 공식 사이트를 통해 모델 활용이 가능합니다.


  더불어, 아래 사진에서 볼 수 있듯이 Llama 4 개발에 전념한 수백 명의 연구원과 엔지니어들의 이름이 담긴 슬라이드가 스크린을 가득 채웠습니다. 이는 하나의 모델을 만들기 위해 얼마나 거대한 인적, 물적 자원이 투입되었는지 실감하게 하는 인상적인 순간이었습니다.


meta.jpg


Google: Gemini Robotics, 범용 AI 로봇의 시작

  Google DeepMind의 키노트는 AI가 가상 세계를 넘어 물리적 세계에서 어떻게 작동하는지를 보여주었습니다. 발표의 핵심은 "AI가 물리적 노동을 혁신할 것(AI will revolutionize physical labor)이라는 비전이었습니다. 특히 로봇이 인간의 시연을 보고 배우거나, 실제 데이터를 통해 학습하며 복잡한 행동을 익히는 사례를 보여주는데, 이는 로봇이 더 이상 정해진 프로그램만 따르는 것이 아니라, 스스로 학습하고 실시간으로 상황에 적응하는 '범용 AI'로 진화하고 있음을 보여주는 장면이었습니다.


  Google은 전통적인 자동화가 유연적이지 못하고, 정적이며, 제한된 환경에서만 작동하는 데 반해, AI 로봇은 직관적이고 적응성이 뛰어나며 안전하게 인간과 협력할 수 있다고 강조했습니다. AI 로봇이 정원 가꾸기, 제조, 건설 등 다양한 분야에서 사람과 함께 일하는 미래 모습을 생생하게 보여주며, AI가 단순 반복 노동을 넘어 복잡한 물리적 환경을 다룰 수 있게 될 것임을 시사했습니다.


  이러한 비전을 실현하기 위해 Google은 다음과 같은 필요 조건을 제시했습니다.

  • 범용 로봇은 범용적인 '체화된 지능(embodied intelligence)'을 필요로 합니다. 이는 로봇이 특정 작업만 수행하는 것이 아니라, 다양한 상황에 유연하게 대처할 수 있는 보편적인 지능을 갖춰야 함을 의미합니다.

  • 로봇을 효과적으로 훈련시키는 새로운 방법이 필요합니다. Google은 강력한 비전-언어 모델(VLM)과 소량의 행동 데이터를 결합하는 것만으로도 숙련되고 일반적인 로봇 제어가 가능함을 밝혔습니다.


  이 모든 것은 Gemini 모델의 탁월한 역량 덕분에 가능하다고 주장합니다. Gemini는 상호작용성(interactivity), 멀티모달 이해, 긴 문맥 추론, 공간 추론, 실시간 멀티모달성 등 여러 능력을 갖추고 있어 로봇의 '뇌' 역할을 완벽하게 수행하며, 로봇은 Gemini를 통해 주변 사물을 인식하고, 인간의 자연어 명령을 이해하며, 복합적인 작업을 수행할 수 있다고 이야기합니다. 현재, 실제 로봇 공학자들이 Gemini Robotics의 '신뢰성 테스트 프로그램(trusted tester program)'에 참여할 수 있도록 안내하고 있으며, 연구가 실제 산업으로 빠르게 확장될 것임을 예고했습니다.


google.jpg


4. 기업 부스 투어

  학회장 곳곳에 마련된 기업 부스들은 정말 다양한 볼거리를 제공했습니다. 이론적 발표가 아닌, AI가 실제로 구현된 모습을 직접 눈으로 확인할 수 있는 시연들이 많았습니다. 가장 인상 깊었던 건 역시 다양한 로봇들이었습니다. 소형 사족보행 로봇부터 사람처럼 생긴 휴머노이드 로봇까지, 여러 로봇이 직접 나와서 움직이는 모습을 볼 수 있었습니다. 시연 영상들에서는 로봇들이 굉장히 정교하고 안정적으로 움직이는 모습이 인상 깊었습니다. 유니트리(Unitree) 로봇의 가격이 16,000달러부터 시작한다고 명시되어 있어, 로봇 기술이 점차 현실적인 비용으로 접근 가능해지고 있음을 엿볼 수 있었습니다.


  또한, 컴퓨터 비전 기술의 최신 성과들을 직접 경험하는 재미도 컸습니다. YOLOv11 데모 에서는 실시간으로 객체를 정확하고 빠르게 감지하는 모습을 보며, 벌써 11버전까지 나왔다는 사실에 기술 발전 속도에 다시 한번 놀라기도 했습니다. 특히, 올해는 Meta와 ByteDance 등 여러 글로벌 기업의 부스에서 텍스트 기반 이미지 생성 및 편집을 직접 체험해볼 수 있게 했는데, 사용자가 직접 촬영한 이미지까지 입력으로 사용할 수 있게 데모를 구성했다는 점에서 그들의 기술에 대한 자신감을 느낄 수 있었습니다. 이러한 부스들은 학회에서 논의된 첨단 기술이 어떻게 일상에 적용될 수 있는지 그 가능성을 보여주는 좋은 예시였습니다.


기업부스.png

5. 음악의 도시, 내슈빌

  내슈빌에서의 CVPR 2025는 학회 외적으로도 기억에 남는 경험이었습니다.


  독특한 도시의 상징, '배트맨 건물': 내슈빌 도심을 걷다 보면 단연 눈에 띄는 건물이 있었습니다. 공식 명칭은 AT&T 빌딩이지만, 양 끝에 뾰족한 귀 모양이 있어 '배트맨 건물'이라는 별명으로 더 유명합니다. 밤이 되면 건물 꼭대기에 조명이 켜져 마치 고담시티의 상징처럼 보였습니다.


  음악의 도시 내슈빌: 내슈빌은 '뮤직 시티'라는 별명답게 도시 전체에 컨트리 음악의 정서가 가득했습니다. 길거리 공연자들의 멋진 연주가 곳곳에서 펼쳐졌고, 늦은 저녁까지 라이브 음악이 울려 퍼지는 바(Bar)와 라이브 클럽들이 활기를 띠었습니다. 학회 일정을 마치고 동료 연구자들과 함께 라이브 음악을 감상하며 하루의 피로를 풀었습니다. 음악이 일상 속에 자연스럽게 녹아 있는 모습이 인상 깊었습니다.


  남부의 정서와 음식: 미국 남부 특유의 따뜻하고 개방적인 분위기를 느낄 수 있었습니다. 특히, 바비큐와 핫 치킨 등 내슈빌의 대표적인 남부 음식을 맛보는 즐거움도 컸습니다. 매콤하면서도 풍부한 맛의 핫 치킨은 한국인의 입맛에도 잘 맞아 여러 번 찾아 먹게 되었습니다.


그림6.png

맺음말

  이번 CVPR 2025 참석은 단순한 기술 컨퍼런스를 넘어, AI와 컴퓨터 비전이 실제 세상과 어떻게 맞닿고 있는지를 몸소 체감한 경험이었습니다. 생성형 AI, 3D 비전, 로보틱스라는 핵심 키워드들이 단순히 이론적 가능성에 머무르지 않고, 자율주행·AR/VR·의료영상·로보틱스 같은 현실 문제를 풀어내는 도구로 자리 잡아가고 있다는 점이 인상 깊었습니다. 


  앞으로도 Gen AI Lab의 연구가 이 거대한 흐름 속에서 단순히 논문에 머무르지 않고, 사람과 사회에 가닿는 기술로 이어질 수 있도록 꾸준히 탐구하겠습니다. 이번 경험을 발판 삼아, 저 역시 그 혁신의 최전선에서 작은 기여라도 이어갈 수 있도록 노력하겠습니다.

최해윤

Gen AI Lab에서 3D 공간 복원 및 멀티모달 LLM 관련 선행 연구를 담당하고 있습니다.