Bức tường chi phí của GPT

Trong tuần qua, một tiêu điểm mới đã xuất hiện trong các cuộc thảo luận về GPT trên X: không phải là khả năng, mà là chi phí.

ARC-AGI: Ranh giới của trí thông minh

Hiệu suất của các mô hình tiên tiến nhất hiện nay trên ARC-AGI-2:

Mô hình	Điểm ARC-AGI-2
GPT-5.2 Pro	~54%
GPT-5.2 Refine	~73%
Con người	100%

Khoảng cách từ 54% đến 73% không phải là vấn đề về trí thông minh, mà là "tinh chỉnh" - cho phép mô hình kiểm tra lại câu trả lời của chính nó nhiều lần. Điều này đòi hỏi nhiều tính toán hơn, đồng nghĩa với chi phí cao hơn.

Chi phí thực tế của Agent

Chi phí hàng năm cho Agent cấp doanh nghiệp 24/7 (20 triệu tokens đầu vào + 20 triệu tokens đầu ra mỗi ngày):

Mô hình	Chi phí hàng năm
Palmyra X5	~$48K
GPT-5.2 Standard	~$57K
Gemini 2.5 Pro	~$82K
Claude Sonnet 4.5	~$131K
Claude Opus 4.6	~$219K
GPT-5.2 Pro	~$690K

GPT-5.2 Pro đắt hơn GPT-5.2 Standard 12 lần. Đây không phải là vấn đề về chiến lược định giá, mà là vấn đề về cấu trúc chi phí.

"Trước khi triển khai 100 AI agents, hãy tính toán." — @waseem_s

Bài kiểm tra Turing mới

Một câu hỏi đơn giản đang trở thành bài kiểm tra trí thông minh mới:

"Tiệm rửa xe cách nhà tôi 40 mét. Tôi muốn rửa xe. Tôi nên đi bộ hay lái xe đến đó?"

Các mô hình vượt qua: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Các mô hình thất bại: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5

Tại sao bài kiểm tra này có ý nghĩa? Bởi vì nó kiểm tra "lý luận thông thường" chứ không phải "truy xuất kiến thức". 40 mét là khoảng cách đi bộ. Xe bẩn cần được rửa. Nhưng bạn sẽ không lái chiếc xe bẩn 40 mét để rửa - trừ khi bạn không hiểu lẽ thường.

Lịch sử không lặp lại, nhưng nó vần

"Hệ thống chuyên gia ra đời vào những năm 1970, phát triển mạnh mẽ vào những năm 1980 và được coi là tương lai của AI." — @ChombaBupe

Mô hình GPT ra đời vào năm 2018, phát triển mạnh mẽ vào những năm 2020 và được coi là tương lai của AI.

Sự thất bại của hệ thống chuyên gia không phải vì chúng không đủ thông minh, mà vì chi phí bảo trì quá cao và khả năng mở rộng quá kém. Khi cơ sở kiến thức cần được bảo trì thủ công, quy mô là kẻ thù.

GPT đang đối mặt với một vấn đề tương tự: mô hình rất thông minh, nhưng chi phí suy luận quá cao. Khi mỗi yêu cầu đều cần một lượng lớn tính toán, quy mô cũng là kẻ thù.

Bước tiếp theo

Dự kiến sẽ có nhiều mô hình mới được phát hành trong tuần này: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.

Sự cạnh tranh đang chuyển từ "ai thông minh hơn" sang "ai rẻ hơn". Đây là tin tốt cho người dùng. Đối với OpenAI? Chưa chắc.

Bức tường chi phí của GPT

ARC-AGI: Ranh giới của trí thông minh

Chi phí thực tế của Agent

Bài kiểm tra Turing mới

Lịch sử không lặp lại, nhưng nó vần

Bước tiếp theo

You Might Also Like

Hướng dẫn chỉnh sửa Claude Code Buddy: Cách nhận thú cưng huyền thoại phát sáng

Obsidian đã ra mắt Defuddle, đưa Obsidian Web Clipper lên một tầm cao mới

OpenAI đột ngột công bố "ba trong một": Trình duyệt + lập trình + ChatGPT hợp nhất, nội bộ thừa nhận đã đi sai đường trong năm qua

2026, không còn ép bản thân 'kỷ luật'! Làm tốt 8 việc nhỏ này, sức khỏe tự nhiên đến

Những bà mẹ cố gắng giảm cân nhưng không thành công, chắc chắn đều mắc phải điều này

Hướng dẫn vận hành ổn định AI Browser 24 giờ