GPT کی لاگت کی دیوار

گزشتہ ہفتے، X پر GPT کے بارے میں بحث کا ایک نیا مرکز سامنے آیا: قابلیت نہیں، بلکہ لاگت۔

ARC-AGI: ذہانت کی سرحد

اس وقت سب سے جدید ماڈلز کی ARC-AGI-2 پر کارکردگی:

ماڈل	ARC-AGI-2 سکور
GPT-5.2 Pro	~54%
GPT-5.2 Refine	~73%
انسان	100%

54% سے 73% کے درمیان فرق ذہانت کا مسئلہ نہیں ہے، یہ "ریفائن" ہے - ماڈل کو اپنے جوابات کو بار بار چیک کرنے دینا۔ اس کے لیے زیادہ حساب کتاب کی ضرورت ہے، جس کا مطلب ہے زیادہ لاگت۔

ایجنٹ کی حقیقی لاگت

24/7 انٹرپرائز گریڈ ایجنٹ (روزانہ 20 ملین ان پٹ + 20 ملین آؤٹ پٹ ٹوکنز) کی سالانہ لاگت:

ماڈل	سالانہ لاگت
Palmyra X5	~$48K
GPT-5.2 Standard	~$57K
Gemini 2.5 Pro	~$82K
Claude Sonnet 4.5	~$131K
Claude Opus 4.6	~$219K
GPT-5.2 Pro	~$690K

GPT-5.2 Pro، GPT-5.2 Standard سے 12 گنا زیادہ مہنگا ہے۔ یہ قیمتوں کا تعین کرنے کی حکمت عملی کا مسئلہ نہیں ہے، یہ لاگت کے ڈھانچے کا مسئلہ ہے۔

"Before you deploy 100 AI agents, run the math." — @waseem_s "100 AI ایجنٹس کو تعینات کرنے سے پہلے، حساب کتاب کر لیں۔" — @waseem_s

نیا ٹیورنگ ٹیسٹ

ایک سادہ سوال ذہانت کا نیا ٹیسٹ بن رہا ہے:

"کار واش کی دکان میرے گھر سے 40 میٹر دور ہے۔ میں کار دھونا چاہتا ہوں۔ مجھے پیدل جانا چاہیے یا گاڑی چلا کر؟"

کامیاب ماڈلز: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro ناکام ماڈلز: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5

یہ ٹیسٹ کیوں معنی خیز ہے؟ کیونکہ یہ "عام فہم استدلال" کی جانچ کرتا ہے نہ کہ "علم کی بازیافت" کی۔ 40 میٹر پیدل چلنے کا فاصلہ ہے۔ گاڑی گندی ہے اور اسے دھونے کی ضرورت ہے۔ لیکن آپ گندی گاڑی کو 40 میٹر چلا کر دھونے نہیں جائیں گے - جب تک کہ آپ کو عام فہم نہ ہو۔

تاریخ دہرائی نہیں جاتی، لیکن اس میں قافیہ ہوتا ہے

"Expert systems were born in the 1970s, flourished in the 1980s, and were widely regarded as the future of AI." — @ChombaBupe "ماہر نظام 1970 کی دہائی میں پیدا ہوئے، 1980 کی دہائی میں پروان چڑھے، اور انہیں بڑے پیمانے پر AI کا مستقبل سمجھا جاتا تھا۔" — @ChombaBupe

GPT ماڈل 2018 میں پیدا ہوئے، 2020 کی دہائی میں پروان چڑھے، اور انہیں بڑے پیمانے پر AI کا مستقبل سمجھا جاتا ہے۔

ماہر نظام کی ناکامی اس لیے نہیں ہوئی کہ وہ کافی ذہین نہیں تھے، بلکہ اس لیے کہ دیکھ بھال کی لاگت بہت زیادہ تھی اور توسیع پذیری بہت کم تھی۔ جب نالج بیس کو دستی طور پر برقرار رکھنے کی ضرورت ہوتی ہے، تو سائز دشمن ہوتا ہے۔

GPT کو ایک آئینہ دار مسئلے کا سامنا ہے: ماڈل ذہین ہیں، لیکن استدلال کی لاگت بہت زیادہ ہے۔ جب ہر درخواست کے لیے بہت زیادہ حساب کتاب کی ضرورت ہوتی ہے، تو سائز بھی دشمن ہوتا ہے۔

اگلا قدم

اس ہفتے کئی نئے ماڈلز کے جاری ہونے کی توقع ہے: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5۔

مقابلہ "کون زیادہ ذہین ہے" سے "کون زیادہ سستا ہے" کی طرف بڑھ رہا ہے۔ یہ صارفین کے لیے اچھی خبر ہے۔ OpenAI کے لیے؟ ضروری نہیں۔

GPT کی لاگت کی دیوار

ARC-AGI: ذہانت کی سرحد

ایجنٹ کی حقیقی لاگت

نیا ٹیورنگ ٹیسٹ

تاریخ دہرائی نہیں جاتی، لیکن اس میں قافیہ ہوتا ہے

اگلا قدم

You Might Also Like

Claude Code Buddy ترمیم گائیڈ: چمکدار لیجنڈری پالتو جانور کیسے حاصل کریں

Obsidian نے Defuddle متعارف کرایا، Obsidian Web Clipper کو ایک نئے عروج پر لے گیا

OpenAI اچانک اعلان کرتا ہے "تین میں ایک": براؤزر + پروگرامنگ + ChatGPT کا انضمام، اندرونی طور پر تسلیم کیا کہ پچھلے سال غلط راستہ اختیار کیا گیا

2026، خود کو "خود نظم" کرنے پر مجبور نہ کریں! یہ 8 چھوٹے کام کریں، صحت خود بخود آئے گی

وہ مائیں جو وزن کم کرنے کی کوشش کر رہی ہیں لیکن کامیاب نہیں ہو پا رہی ہیں، یقیناً یہاں پھنس گئی ہیں

AI Browser 24 گھنٹے مستحکم چلانے کی رہنمائی