جدار تكلفة نماذج GPT
في الأسبوع الماضي، ظهر محور تركيز جديد في المناقشات حول نماذج GPT على X: ليس القدرة، بل التكلفة.
ARC-AGI: حدود الذكاء
أداء النماذج الأكثر تطوراً حالياً في ARC-AGI-2:
| النموذج | درجة ARC-AGI-2 |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| الإنسان | 100% |
الفجوة بين 54% و 73% ليست مشكلة ذكاء، بل هي "تحسين" - جعل النموذج يفحص إجاباته بشكل متكرر. هذا يتطلب المزيد من الحسابات، مما يعني تكلفة أعلى.
التكلفة الحقيقية للوكيل
التكلفة السنوية لوكيل مؤسسي يعمل على مدار الساعة طوال أيام الأسبوع (20 مليون رمز إدخال + 20 مليون رمز إخراج يومياً):
| النموذج | التكلفة السنوية |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro أغلى بـ 12 مرة من GPT-5.2 Standard. هذه ليست مشكلة استراتيجية تسعير، بل هي مشكلة هيكل تكلفة.
"قبل نشر 100 وكيل ذكاء اصطناعي، قم بإجراء العمليات الحسابية." — @waseem_s
اختبار تورينج الجديد
سؤال بسيط يتحول إلى اختبار ذكاء جديد:
"يقع محل غسيل السيارات على بعد 40 متراً من منزلي. أريد غسل سيارتي. هل يجب أن أمشي أم أقود السيارة؟"
النماذج التي اجتازت الاختبار: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro النماذج التي فشلت في الاختبار: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
لماذا هذا الاختبار مهم؟ لأنه يختبر "الاستدلال المنطقي السليم" بدلاً من "استرجاع المعرفة". 40 متراً هي مسافة مشي. السيارة متسخة وتحتاج إلى غسل. لكنك لن تقود سيارة متسخة لمسافة 40 متراً لغسلها - إلا إذا كنت لا تفهم المنطق السليم.
التاريخ لا يعيد نفسه، لكنه يتماشى
"ولدت الأنظمة الخبيرة في السبعينيات، وازدهرت في الثمانينيات، واعتبرت على نطاق واسع مستقبل الذكاء الاصطناعي." — @ChombaBupe
ولدت نماذج GPT في عام 2018، وازدهرت في عام 2020، وتعتبر على نطاق واسع مستقبل الذكاء الاصطناعي.
لم يكن فشل الأنظمة الخبيرة بسبب عدم كفايتها من حيث الذكاء، بل بسبب ارتفاع تكاليف صيانتها وضعف قابليتها للتوسع. عندما تحتاج قاعدة المعرفة إلى صيانة يدوية، يصبح الحجم هو العدو.
تواجه GPT مشكلة معكوسة: النموذج ذكي، لكن تكلفة الاستدلال مرتفعة للغاية. عندما يتطلب كل طلب الكثير من الحسابات، يصبح الحجم هو العدو أيضاً.
الخطوات التالية
من المتوقع إصدار العديد من النماذج الجديدة هذا الأسبوع: Gemini 3.1 Pro، Claude Sonnet 5، GPT-5.3، DeepSeek V4، Qwen 3.5.
تتحول المنافسة من "من هو الأذكى" إلى "من هو الأرخص". هذه أخبار جيدة للمستخدمين. بالنسبة لـ OpenAI؟ ليس بالضرورة.





