
어떤 팀에서 일하고 계신가요?
저는 KT Language AI팀에서 근무하고 있습니다. 저희 팀은 대규모 언어모델(LLM) Mi:dm의 학습 전 과정을 책임지고 있습니다. 사전학습(Pre-training), 사후학습(Supervised Fine-Tuning), 강화학습(Reinforcement Learning)까지 모델의 성능을 결정짓는 핵심 단계들을 설계하고 운영하며, 최근에는 멀티모달 확장, 지식증강(RAG), 효율적 파인튜닝(LoRA, QLoRA) 등 최신 트렌드도 적극 반영하고 있습니다.
구체적으로 어떤 업무를 맡고 계신가요?
저는 사전학습 데이터 총괄을 담당합니다. Pre-training 단계는 LLM의 ‘기본기’를 만드는 과정으로, 모델이 다양한 주제와 고품질 데이터를 학습해야 합니다. 특히 한국어 LLM의 경우 영어 대비 데이터가 절대적으로 부족하기 때문에 데이터 확보 전략이 모델 성능을 좌우합니다. 저는 데이터 리서치·수집·정제·합성까지 전 과정을 설계하고, 학습 파이프라인에 반영하는 역할을 맡고 있습니다.
지금까지 어떤 커리어를 걸어오셨나요?
2011년 KT에 입사해 네트워크 운용과 보안 컨설팅을 담당했습니다. 2020년 사내 AI 개발 인력 양성 프로그램을 계기로 AI 분야로 전환했고, 이후 (구)융합기술원 AI연구소에서 NLP 모델 개발을 시작했습니다. 초기에는 AICC·요약 모델을 담당했고, 이후 데이터 전략과 응용 태스크를 맡았습니다. 작년부터는 사전학습 데이터 설계에 집중하고 있습니다.
이 일을 하며 가장 큰 보람을 느낄 때는 언제인가요?
우리가 만든 데이터로 학습된 모델이 의도한 대로 답변하거나, 예상치 못한 창의적 결과를 보여줄 때 큰 보람을 느낍니다. 단기적으로는 Mi:dm이 국내에서 인정받는 모델로 자리 잡는 것이 목표이고, 장기적으로는 AI 전문가로서 글로벌 경쟁력을 갖추는 것이 꿈입니다.
이 직무를 잘 수행하기 위해 어떤 역량이 필요할까요?
끊임없는 학습과 실험이 필수입니다. LLM 분야는 하루가 다르게 발전합니다. 최근에는 데이터 정제 자동화, 합성 데이터 생성(AI-generated synthetic data), 안전성 강화(Alignment)가 핵심 트렌드입니다. 이런 변화를 빠르게 흡수하고, 실무에 적용하는 능력이 중요합니다.

가장 기억에 남는 프로젝트는 무엇인가요?
가장 인상 깊었던 프로젝트는 Mi:dm 개발입니다. 국내 최고 성능의 한국어 LLM을 목표로 대규모의 인원이 투입된 프로젝트였죠. 당시 가장 큰 도전은 한국어 데이터의 절대적 부족이었습니다. 이를 해결하기 위해 법률, 금융, 의료, IT 등 다양한 전문 도메인의 데이터를 강화했으며, 부족한 부분은 합성 데이터를 생성해 보완했습니다. 또한 데이터 정제 자동화 프로세스를 구축해 품질 스코어링, 중복 제거, 유해 콘텐츠 필터링을 체계적으로 진행했습니다. 이 프로젝트는 단순한 데이터 수집을 넘어 최신 산업 트렌드를 실무에 적용한 경험이었습니다.
협업 과정에서 갈등이 생길 때는 어떻게 해결하시나요?
학습 일정이 촉박해 압박이 컸지만, 팀원들과 공통 목표를 명확히 공유하고, 우선순위 기반 의사결정으로 문제를 풀었습니다. 특히 데이터 품질과 일정 사이에서 균형을 찾는 것이 중요했습니다.
예비 동료에게 전하고 싶은 말이 있다면요?
저희는 AI 모델 개발의 최전선에 있는 팀입니다. 쉽지 않은 도전이지만, 그만큼 배울 수 있는 기회가 많습니다. Mi:dm을 함께 만들어 가며, 한국적 AI의 미래를 열어봅시다!
