Bức tường chi phí của GPT
Trong tuần qua, một tiêu điểm mới đã xuất hiện trong các cuộc thảo luận về GPT trên X: không phải là khả năng, mà là chi phí.
ARC-AGI: Ranh giới của trí thông minh
Hiệu suất của các mô hình tiên tiến nhất hiện nay trên ARC-AGI-2:
| Mô hình | Điểm ARC-AGI-2 |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| Con người | 100% |
Khoảng cách từ 54% đến 73% không phải là vấn đề về trí thông minh, mà là "tinh chỉnh" - cho phép mô hình kiểm tra lại câu trả lời của chính nó nhiều lần. Điều này đòi hỏi nhiều tính toán hơn, đồng nghĩa với chi phí cao hơn.
Chi phí thực tế của Agent
Chi phí hàng năm cho Agent cấp doanh nghiệp 24/7 (20 triệu tokens đầu vào + 20 triệu tokens đầu ra mỗi ngày):
| Mô hình | Chi phí hàng năm |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro đắt hơn GPT-5.2 Standard 12 lần. Đây không phải là vấn đề về chiến lược định giá, mà là vấn đề về cấu trúc chi phí.
"Trước khi triển khai 100 AI agents, hãy tính toán." — @waseem_s
Bài kiểm tra Turing mới
Một câu hỏi đơn giản đang trở thành bài kiểm tra trí thông minh mới:
"Tiệm rửa xe cách nhà tôi 40 mét. Tôi muốn rửa xe. Tôi nên đi bộ hay lái xe đến đó?"
Các mô hình vượt qua: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Các mô hình thất bại: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
Tại sao bài kiểm tra này có ý nghĩa? Bởi vì nó kiểm tra "lý luận thông thường" chứ không phải "truy xuất kiến thức". 40 mét là khoảng cách đi bộ. Xe bẩn cần được rửa. Nhưng bạn sẽ không lái chiếc xe bẩn 40 mét để rửa - trừ khi bạn không hiểu lẽ thường.
Lịch sử không lặp lại, nhưng nó vần
"Hệ thống chuyên gia ra đời vào những năm 1970, phát triển mạnh mẽ vào những năm 1980 và được coi là tương lai của AI." — @ChombaBupe
Mô hình GPT ra đời vào năm 2018, phát triển mạnh mẽ vào những năm 2020 và được coi là tương lai của AI.
Sự thất bại của hệ thống chuyên gia không phải vì chúng không đủ thông minh, mà vì chi phí bảo trì quá cao và khả năng mở rộng quá kém. Khi cơ sở kiến thức cần được bảo trì thủ công, quy mô là kẻ thù.
GPT đang đối mặt với một vấn đề tương tự: mô hình rất thông minh, nhưng chi phí suy luận quá cao. Khi mỗi yêu cầu đều cần một lượng lớn tính toán, quy mô cũng là kẻ thù.
Bước tiếp theo
Dự kiến sẽ có nhiều mô hình mới được phát hành trong tuần này: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
Sự cạnh tranh đang chuyển từ "ai thông minh hơn" sang "ai rẻ hơn". Đây là tin tốt cho người dùng. Đối với OpenAI? Chưa chắc.





