GPT의 비용 장벽
지난 한 주 동안 X에서 GPT에 대한 논의의 새로운 초점이 나타났습니다. 능력 문제가 아니라 비용 문제입니다.
ARC-AGI: 지능의 경계
현재 가장 앞선 모델의 ARC-AGI-2에서의 성능:
| 모델 | ARC-AGI-2 점수 |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| 인간 | 100% |
54%에서 73% 사이의 격차는 지능 문제가 아니라 '정제' 문제입니다. 모델이 자신의 답변을 반복적으로 확인하도록 하는 것입니다. 이는 더 많은 계산을 필요로 하며, 더 높은 비용을 의미합니다.
Agent의 실제 비용
24/7 기업용 Agent(매일 2천만 입력 + 2천만 출력 토큰)의 연간 비용:
| 모델 | 연간 비용 |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro는 GPT-5.2 Standard보다 12배 더 비쌉니다. 이는 가격 책정 전략 문제가 아니라 비용 구조 문제입니다.
"100개의 AI 에이전트를 배포하기 전에 계산을 실행하십시오." — @waseem_s
새로운 튜링 테스트
간단한 질문이 새로운 지능 테스트가 되고 있습니다.
"세차장이 우리 집에서 40미터 떨어져 있습니다. 세차를 하고 싶습니다. 걸어가야 할까요, 차를 몰고 가야 할까요?"
통과한 모델: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro 실패한 모델: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
왜 이 테스트가 의미가 있을까요? 이는 '지식 검색'이 아닌 '상식 추론'을 테스트하기 때문입니다. 40미터는 걸어갈 수 있는 거리입니다. 차가 더러워지면 세차해야 합니다. 하지만 상식이 없다면 더러워진 차를 40미터 몰고 가서 세차하지 않을 것입니다.
역사는 반복되지 않지만 운율은 맞는다
"전문가 시스템은 1970년대에 탄생하여 1980년대에 번성했으며, AI의 미래로 널리 여겨졌습니다." — @ChombaBupe
GPT 모델은 2018년에 탄생하여 2020년대에 번성했으며, AI의 미래로 널리 여겨지고 있습니다.
전문가 시스템의 실패는 충분히 똑똑하지 않아서가 아니라 유지 관리 비용이 너무 높고 확장성이 너무 낮았기 때문입니다. 지식 베이스를 수동으로 유지 관리해야 할 때 규모는 적입니다.
GPT가 직면한 문제는 미러 이미지 문제입니다. 모델은 똑똑하지만 추론 비용이 너무 높습니다. 각 요청에 많은 계산이 필요할 때 규모는 마찬가지로 적입니다.
다음 단계
이번 주에 여러 새로운 모델이 출시될 것으로 예상됩니다. Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
경쟁은 '누가 더 똑똑한가'에서 '누가 더 저렴한가'로 바뀌고 있습니다. 이는 사용자에게 좋은 소식입니다. OpenAI에게는? 반드시 그렇지는 않습니다.





