جدار تكلفة نماذج GPT

في الأسبوع الماضي، ظهر محور تركيز جديد في المناقشات حول نماذج GPT على X: ليس القدرة، بل التكلفة.

ARC-AGI: حدود الذكاء

أداء النماذج الأكثر تطوراً حالياً في ARC-AGI-2:

النموذج	درجة ARC-AGI-2
GPT-5.2 Pro	~54%
GPT-5.2 Refine	~73%
الإنسان	100%

الفجوة بين 54% و 73% ليست مشكلة ذكاء، بل هي "تحسين" - جعل النموذج يفحص إجاباته بشكل متكرر. هذا يتطلب المزيد من الحسابات، مما يعني تكلفة أعلى.

التكلفة الحقيقية للوكيل

التكلفة السنوية لوكيل مؤسسي يعمل على مدار الساعة طوال أيام الأسبوع (20 مليون رمز إدخال + 20 مليون رمز إخراج يومياً):

النموذج	التكلفة السنوية
Palmyra X5	~$48K
GPT-5.2 Standard	~$57K
Gemini 2.5 Pro	~$82K
Claude Sonnet 4.5	~$131K
Claude Opus 4.6	~$219K
GPT-5.2 Pro	~$690K

GPT-5.2 Pro أغلى بـ 12 مرة من GPT-5.2 Standard. هذه ليست مشكلة استراتيجية تسعير، بل هي مشكلة هيكل تكلفة.

"قبل نشر 100 وكيل ذكاء اصطناعي، قم بإجراء العمليات الحسابية." — @waseem_s

اختبار تورينج الجديد

سؤال بسيط يتحول إلى اختبار ذكاء جديد:

"يقع محل غسيل السيارات على بعد 40 متراً من منزلي. أريد غسل سيارتي. هل يجب أن أمشي أم أقود السيارة؟"

النماذج التي اجتازت الاختبار: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro النماذج التي فشلت في الاختبار: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5

لماذا هذا الاختبار مهم؟ لأنه يختبر "الاستدلال المنطقي السليم" بدلاً من "استرجاع المعرفة". 40 متراً هي مسافة مشي. السيارة متسخة وتحتاج إلى غسل. لكنك لن تقود سيارة متسخة لمسافة 40 متراً لغسلها - إلا إذا كنت لا تفهم المنطق السليم.

التاريخ لا يعيد نفسه، لكنه يتماشى

"ولدت الأنظمة الخبيرة في السبعينيات، وازدهرت في الثمانينيات، واعتبرت على نطاق واسع مستقبل الذكاء الاصطناعي." — @ChombaBupe

ولدت نماذج GPT في عام 2018، وازدهرت في عام 2020، وتعتبر على نطاق واسع مستقبل الذكاء الاصطناعي.

لم يكن فشل الأنظمة الخبيرة بسبب عدم كفايتها من حيث الذكاء، بل بسبب ارتفاع تكاليف صيانتها وضعف قابليتها للتوسع. عندما تحتاج قاعدة المعرفة إلى صيانة يدوية، يصبح الحجم هو العدو.

تواجه GPT مشكلة معكوسة: النموذج ذكي، لكن تكلفة الاستدلال مرتفعة للغاية. عندما يتطلب كل طلب الكثير من الحسابات، يصبح الحجم هو العدو أيضاً.

الخطوات التالية

من المتوقع إصدار العديد من النماذج الجديدة هذا الأسبوع: Gemini 3.1 Pro، Claude Sonnet 5، GPT-5.3، DeepSeek V4، Qwen 3.5.

تتحول المنافسة من "من هو الأذكى" إلى "من هو الأرخص". هذه أخبار جيدة للمستخدمين. بالنسبة لـ OpenAI؟ ليس بالضرورة.

جدار تكلفة نماذج GPT

ARC-AGI: حدود الذكاء

التكلفة الحقيقية للوكيل

اختبار تورينج الجديد

التاريخ لا يعيد نفسه، لكنه يتماشى

الخطوات التالية

You Might Also Like

Claude Code Buddy تعديل الدليل: كيفية الحصول على حيوان أليف أسطوري لامع

أوبسيديان أطلقت Defuddle، ورفعت أوبسيديان ويب كليبر إلى مستوى جديد

OpenAI فجأة تعلن عن "ثلاث في واحد": دمج المتصفح + البرمجة + ChatGPT، والاعتراف داخليًا بأن العام الماضي كان خاطئًا

2026، لا تضغط على نفسك لتكون "منضبطًا"! قم بهذه 8 أشياء بسيطة، وستأتي الصحة بشكل طبيعي

الأمهات اللواتي يبذلن جهدًا لفقدان الوزن ولا ينجحن، بالتأكيد يعانين هنا

دليل تشغيل متصفح الذكاء الاصطناعي على مدار 24 ساعة