GLM-5: 대형 모델이 '자기 코드 작성'을 배우다, Vibe Coding에서 Agentic Engineering으로의 도약
GLM-5: 대형 모델이 '자기 코드 작성'을 배우다, Vibe Coding에서 Agentic Engineering으로의 도약
❝
🎯 한 문장 요약: 지프 AI는 칭화대학교와 협력하여 744B 파라미터의 GLM-5 모델을 출시하였으며, DeepSeek Sparse Attention(DSA)을 통해 주의 계산량을 압축하고, 전 비동기 강화 학습(Async RL)을 통해 긴 작업 훈련 효율성을 해결하며, 다단계 후 훈련 프로세스를 통해 대형 모델이 '분위기 코딩'(Vibe Coding)에서 독립적으로 실제 엔지니어링 프로젝트를 수행할 수 있는 '지능형 엔지니어'(Agentic Engineering)로 진화하도록 하였습니다.
왜 이 논문이 필요한가?
Andrej Karpathy는 2025년 초에 흥미로운 개념인 Vibe Coding을 제안하였습니다. 이는 자연어로 요구 사항을 설명하고, '느낌'으로 AI에게 코드를 작성하게 하면 된다는 뜻입니다. 이는 현재 AI 프로그래밍의 주류 경험입니다: 당신이 한 문장을 말하면 모델이 코드를 생성해 주며, 결과는 운에 달려 있습니다.
하지만 문제가 생겼습니다: 진정한 소프트웨어 엔지니어링은 '코드 작성'만으로는 간단하지 않습니다. 진정한 엔지니어는 프로젝트 아키텍처를 이해하고, 오류를 디버깅하며, 의존성을 관리하고, 모듈 간 협업을 처리해야 합니다. 이러한 것들은 '한 번의 프롬프트로 코드 한 줄'로 해결할 수 있는 것이 아닙니다. GLM-5 논문이 하고자 하는 것은 모델이 '코드를 작성하는 도우미'에서 '전체 프로젝트를 독립적으로 해결할 수 있는 엔지니어'로 변모하는 것입니다.
이는 작은 목표가 아닙니다. 이를 달성하기 위해 지프 팀은 모델 아키텍처, 훈련 프로세스, 강화 학습 알고리즘에서 많은 혁신을 이루었습니다. 이 해석은 이러한 기술적 세부 사항을 분해하여 설명할 것입니다.
핵심 기여: 세 가지 주요 기여
세부 사항에 들어가기 전에 GLM-5의 세 가지 핵심 기여를 정리해 보겠습니다:
| 기여 | 해결한 문제 | 핵심 아이디어 | | --- | --- | --- | | DSA 희소 주의 | 128K 긴 컨텍스트의 계산 비용 폭발 | 중요한 토큰을 동적으로 선택하고, 관련 없는 토큰을 건너뛰어 1.5-2배의 연산력 절약 | | 비동기 강화 학습 프레임워크 | 긴 작업 RL 훈련 중 GPU의 많은 유휴 상태 | 생성과 훈련을 완전히 분리하고, 파이프라인 방식으로 병렬 처리 | | 다단계 후 훈련 프로세스 | 추론, 코딩, 지능형 등 여러 능력을 동시에 고려하기 어려움 | SFT → 추론 RL → 지능형 RL → 일반 RL, 능력을 점진적으로 추가 |
모델 아키텍처: MoE의 뼈대 위에서 '감소'하기
기본 구성
GLM-5는 Mixture-of-Experts(MoE) 아키텍처를 채택하였으며, 총 파라미터는 744B이지만, 추론 시 약 40B 파라미터만 활성화됩니다. 이러한 '크고 희소한' 설계는 업계의 공감대를 형성하였습니다 - DeepSeek-V3/R1, Qwen3도 유사한 경로를 따릅니다.
DSA는 어떻게 작동하는가?
DSA의 핵심 아이디어는 비유를 통해 이해할 수 있습니다: 도서관에서 자료를 찾고 있다고 상상해 보세요. 표준 주의는 도서관의 모든 책을 한 번씩 뒤져보고, 어떤 것이 유용한지를 결정하는 것과 같습니다. 반면 DSA는 경험이 풍부한 도서관 사서와 같습니다 - 먼저 번개 색인기(Lightning Index)를 사용하여 책장 제목을 빠르게 스캔하고, 몇 개의 관련 지역을 잠금한 후, 그 지역의 구체적인 단락만 정독합니다.
훈련 프로세스: 네 단계의 '몬스터 사냥'
GLM-5의 훈련 프로세스는 이 논문의 핵심 부분으로, 사전 훈련과 후 훈련의 두 가지 주요 단계로 나뉩니다.
사전 훈련 단계
- 데이터 규모: 27T 토큰, 데이터 혼합 비율에는 웹페이지, 코드, 학술 논문, 서적 등이 포함됩니다.
- 컨텍스트 확장: 중기 훈련을 통해 컨텍스트를 4K에서 200K로 점진적으로 확장하며, RoPE 주파수 조정을 사용합니다.
- 냉각 단계: 사전 훈련의 마지막에 더 높은 품질의 데이터로 '정제'를 수행합니다.
후 훈련 네 단계
이것은 GLM-5의 가장 특징적인 부분입니다. GLM-5는 네 번의 훈련을 진행하였습니다:
- 감독 미세 조정(SFT): 고품질의 지시 데이터로 미세 조정합니다.
- 추론 강화 학습(Reasoning RL): 수학 및 코드 추론 작업에서 RL 훈련을 수행합니다.
- 지능형 강화 학습(Agentic RL): 이것이 핵심 혁신입니다.
- 일반 강화 학습(General RL): 더 넓은 일반 작업에서 RL을 수행합니다.
비동기 강화 학습: GPU가 더 이상 '놀지 않게'
전통적인 RL 훈련은 동기화 방식입니다: 데이터를 수집하고 → 보상을 계산하고 → 모델을 업데이트하고 → 다시 수집합니다. 이는 작업 시간이 짧은 경우에는 문제가 없지만, 지능형 작업은 종종 수십 단계의 상호작용이 필요합니다.
실험 결과 심층 해석
주요 기준 비교
| 기준 | GLM-5 | DeepSeek-V3.2 | Claude Opus 4.5 | Gemini 3 Pro | GPT-5.2 | MMLU-Pro | | --- | --- | --- | --- | --- | --- | --- | | 78.0 | 75.9 | 78.0 | 74.3 | 76.1 | | | | GPQA-Diamond | 71.7 | 68.4 | 67.1 | 63.6 | 70.5 | | | BrowseComp | 57.1 | 32.0 | 26.3 | 25.1 | 46.9 | |
요약
GLM-5 논문은 정보량이 매우 많습니다. 구체적인 숫자를 떠나서, 이 논문이 전달하는 핵심 정보는: 대형 모델의 다음 전장은 '작업 수행'이며 단순히 '질문에 답하는 것'이 아니다.
경쟁 측면에서 GLM-5는 중국 AI 팀이 대형 모델 최전선 연구에서 경쟁력을 입증하였습니다.
논문 정보
- 제목: GLM-5: Vibe Coding에서 Agentic Engineering으로
- 기관: 지프 AI & 칭화대학교
- 링크: https://arxiv.org/abs/2602.15763

