GPT کی لاگت کی دیوار
گزشتہ ہفتے، X پر GPT کے بارے میں بحث کا ایک نیا مرکز سامنے آیا: قابلیت نہیں، بلکہ لاگت۔
ARC-AGI: ذہانت کی سرحد
اس وقت سب سے جدید ماڈلز کی ARC-AGI-2 پر کارکردگی:
| ماڈل | ARC-AGI-2 سکور |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| انسان | 100% |
54% سے 73% کے درمیان فرق ذہانت کا مسئلہ نہیں ہے، یہ "ریفائن" ہے - ماڈل کو اپنے جوابات کو بار بار چیک کرنے دینا۔ اس کے لیے زیادہ حساب کتاب کی ضرورت ہے، جس کا مطلب ہے زیادہ لاگت۔
ایجنٹ کی حقیقی لاگت
24/7 انٹرپرائز گریڈ ایجنٹ (روزانہ 20 ملین ان پٹ + 20 ملین آؤٹ پٹ ٹوکنز) کی سالانہ لاگت:
| ماڈل | سالانہ لاگت |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro، GPT-5.2 Standard سے 12 گنا زیادہ مہنگا ہے۔ یہ قیمتوں کا تعین کرنے کی حکمت عملی کا مسئلہ نہیں ہے، یہ لاگت کے ڈھانچے کا مسئلہ ہے۔
"Before you deploy 100 AI agents, run the math." — @waseem_s "100 AI ایجنٹس کو تعینات کرنے سے پہلے، حساب کتاب کر لیں۔" — @waseem_s
نیا ٹیورنگ ٹیسٹ
ایک سادہ سوال ذہانت کا نیا ٹیسٹ بن رہا ہے:
"کار واش کی دکان میرے گھر سے 40 میٹر دور ہے۔ میں کار دھونا چاہتا ہوں۔ مجھے پیدل جانا چاہیے یا گاڑی چلا کر؟"
کامیاب ماڈلز: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro ناکام ماڈلز: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
یہ ٹیسٹ کیوں معنی خیز ہے؟ کیونکہ یہ "عام فہم استدلال" کی جانچ کرتا ہے نہ کہ "علم کی بازیافت" کی۔ 40 میٹر پیدل چلنے کا فاصلہ ہے۔ گاڑی گندی ہے اور اسے دھونے کی ضرورت ہے۔ لیکن آپ گندی گاڑی کو 40 میٹر چلا کر دھونے نہیں جائیں گے - جب تک کہ آپ کو عام فہم نہ ہو۔
تاریخ دہرائی نہیں جاتی، لیکن اس میں قافیہ ہوتا ہے
"Expert systems were born in the 1970s, flourished in the 1980s, and were widely regarded as the future of AI." — @ChombaBupe "ماہر نظام 1970 کی دہائی میں پیدا ہوئے، 1980 کی دہائی میں پروان چڑھے، اور انہیں بڑے پیمانے پر AI کا مستقبل سمجھا جاتا تھا۔" — @ChombaBupe
GPT ماڈل 2018 میں پیدا ہوئے، 2020 کی دہائی میں پروان چڑھے، اور انہیں بڑے پیمانے پر AI کا مستقبل سمجھا جاتا ہے۔
ماہر نظام کی ناکامی اس لیے نہیں ہوئی کہ وہ کافی ذہین نہیں تھے، بلکہ اس لیے کہ دیکھ بھال کی لاگت بہت زیادہ تھی اور توسیع پذیری بہت کم تھی۔ جب نالج بیس کو دستی طور پر برقرار رکھنے کی ضرورت ہوتی ہے، تو سائز دشمن ہوتا ہے۔
GPT کو ایک آئینہ دار مسئلے کا سامنا ہے: ماڈل ذہین ہیں، لیکن استدلال کی لاگت بہت زیادہ ہے۔ جب ہر درخواست کے لیے بہت زیادہ حساب کتاب کی ضرورت ہوتی ہے، تو سائز بھی دشمن ہوتا ہے۔
اگلا قدم
اس ہفتے کئی نئے ماڈلز کے جاری ہونے کی توقع ہے: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5۔
مقابلہ "کون زیادہ ذہین ہے" سے "کون زیادہ سستا ہے" کی طرف بڑھ رہا ہے۔ یہ صارفین کے لیے اچھی خبر ہے۔ OpenAI کے لیے؟ ضروری نہیں۔





