กำแพงต้นทุนของ GPT

ในช่วงสัปดาห์ที่ผ่านมา การสนทนาเกี่ยวกับ GPT บน X ได้มุ่งเน้นไปที่ประเด็นใหม่: ไม่ใช่ความสามารถ แต่เป็นต้นทุน

ARC-AGI: ขอบเขตของสติปัญญา

ประสิทธิภาพของโมเดลที่ล้ำสมัยที่สุดในปัจจุบันบน ARC-AGI-2:

โมเดล	คะแนน ARC-AGI-2
GPT-5.2 Pro	~54%
GPT-5.2 Refine	~73%
มนุษย์	100%

ช่องว่างระหว่าง 54% ถึง 73% ไม่ใช่ปัญหาด้านสติปัญญา แต่เป็นเรื่องของ "การปรับแต่ง" – การทำให้โมเดลตรวจสอบคำตอบของตัวเองซ้ำๆ ซึ่งต้องใช้การคำนวณมากขึ้น หมายถึงต้นทุนที่สูงขึ้น

ต้นทุนที่แท้จริงของ Agent

ต้นทุนรายปีของ Agent ระดับองค์กรที่ทำงานตลอด 24 ชั่วโมงทุกวัน (20 ล้านอินพุต + 20 ล้านเอาต์พุตโทเค็นต่อวัน):

โมเดล	ต้นทุนรายปี
Palmyra X5	~$48K
GPT-5.2 Standard	~$57K
Gemini 2.5 Pro	~$82K
Claude Sonnet 4.5	~$131K
Claude Opus 4.6	~$219K
GPT-5.2 Pro	~$690K

GPT-5.2 Pro มีราคาแพงกว่า GPT-5.2 Standard ถึง 12 เท่า นี่ไม่ใช่ปัญหาเรื่องกลยุทธ์การกำหนดราคา แต่เป็นปัญหาเรื่องโครงสร้างต้นทุน

"Before you deploy 100 AI agents, run the math." — @waseem_s "ก่อนที่คุณจะใช้งาน AI agent 100 ตัว ให้คำนวณตัวเลขก่อน" — @waseem_s (คำแนะนำให้คำนวณต้นทุนก่อนใช้งาน AI agent จำนวนมาก)

การทดสอบทัวริงแบบใหม่

คำถามง่ายๆ กำลังกลายเป็นการทดสอบสติปัญญาแบบใหม่:

"ร้านล้างรถอยู่ห่างจากบ้านฉัน 40 เมตร ฉันอยากล้างรถ ฉันควรเดินหรือขับรถไป?"

โมเดลที่ผ่าน: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro โมเดลที่ไม่ผ่าน: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5

ทำไมการทดสอบนี้ถึงมีความหมาย? เพราะมันทดสอบ "การให้เหตุผลเชิงสามัญสำนึก" ไม่ใช่ "การดึงข้อมูลความรู้" 40 เมตรคือระยะทางที่เดินได้ รถสกปรกต้องล้าง แต่คุณจะไม่ขับรถสกปรก 40 เมตรไปล้าง – เว้นแต่คุณจะไม่เข้าใจสามัญสำนึก

ประวัติศาสตร์จะไม่ซ้ำรอย แต่จะคล้องจองกัน

"Expert systems were born in the 1970s, flourished in the 1980s, and were widely regarded as the future of AI." — @ChombaBupe "ระบบผู้เชี่ยวชาญถือกำเนิดขึ้นในทศวรรษ 1970 เจริญรุ่งเรืองในทศวรรษ 1980 และได้รับการยกย่องอย่างกว้างขวางว่าเป็นอนาคตของ AI" — @ChombaBupe

โมเดล GPT ถือกำเนิดขึ้นในปี 2018 เจริญรุ่งเรืองในทศวรรษ 2020 และได้รับการยกย่องอย่างกว้างขวางว่าเป็นอนาคตของ AI

ความล้มเหลวของระบบผู้เชี่ยวชาญไม่ใช่เพราะฉลาดไม่พอ แต่เป็นเพราะต้นทุนการบำรุงรักษาสูงเกินไปและขยายขนาดได้ไม่ดี เมื่อฐานความรู้ต้องการการบำรุงรักษาด้วยตนเอง ขนาดก็คือศัตรู

GPT กำลังเผชิญกับปัญหาที่เป็นภาพสะท้อน: โมเดลฉลาด แต่ต้นทุนการให้เหตุผลสูงเกินไป เมื่อทุกคำขอต้องการการคำนวณจำนวนมาก ขนาดก็เป็นศัตรูเช่นกัน