กำแพงต้นทุนของ GPT
ในช่วงสัปดาห์ที่ผ่านมา การสนทนาเกี่ยวกับ GPT บน X ได้มุ่งเน้นไปที่ประเด็นใหม่: ไม่ใช่ความสามารถ แต่เป็นต้นทุน
ARC-AGI: ขอบเขตของสติปัญญา
ประสิทธิภาพของโมเดลที่ล้ำสมัยที่สุดในปัจจุบันบน ARC-AGI-2:
| โมเดล | คะแนน ARC-AGI-2 |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| มนุษย์ | 100% |
ช่องว่างระหว่าง 54% ถึง 73% ไม่ใช่ปัญหาด้านสติปัญญา แต่เป็นเรื่องของ "การปรับแต่ง" – การทำให้โมเดลตรวจสอบคำตอบของตัวเองซ้ำๆ ซึ่งต้องใช้การคำนวณมากขึ้น หมายถึงต้นทุนที่สูงขึ้น
ต้นทุนที่แท้จริงของ Agent
ต้นทุนรายปีของ Agent ระดับองค์กรที่ทำงานตลอด 24 ชั่วโมงทุกวัน (20 ล้านอินพุต + 20 ล้านเอาต์พุตโทเค็นต่อวัน):
| โมเดล | ต้นทุนรายปี |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro มีราคาแพงกว่า GPT-5.2 Standard ถึง 12 เท่า นี่ไม่ใช่ปัญหาเรื่องกลยุทธ์การกำหนดราคา แต่เป็นปัญหาเรื่องโครงสร้างต้นทุน
"Before you deploy 100 AI agents, run the math." — @waseem_s "ก่อนที่คุณจะใช้งาน AI agent 100 ตัว ให้คำนวณตัวเลขก่อน" — @waseem_s (คำแนะนำให้คำนวณต้นทุนก่อนใช้งาน AI agent จำนวนมาก)
การทดสอบทัวริงแบบใหม่
คำถามง่ายๆ กำลังกลายเป็นการทดสอบสติปัญญาแบบใหม่:
"ร้านล้างรถอยู่ห่างจากบ้านฉัน 40 เมตร ฉันอยากล้างรถ ฉันควรเดินหรือขับรถไป?"
โมเดลที่ผ่าน: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro โมเดลที่ไม่ผ่าน: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
ทำไมการทดสอบนี้ถึงมีความหมาย? เพราะมันทดสอบ "การให้เหตุผลเชิงสามัญสำนึก" ไม่ใช่ "การดึงข้อมูลความรู้" 40 เมตรคือระยะทางที่เดินได้ รถสกปรกต้องล้าง แต่คุณจะไม่ขับรถสกปรก 40 เมตรไปล้าง – เว้นแต่คุณจะไม่เข้าใจสามัญสำนึก
ประวัติศาสตร์จะไม่ซ้ำรอย แต่จะคล้องจองกัน
"Expert systems were born in the 1970s, flourished in the 1980s, and were widely regarded as the future of AI." — @ChombaBupe "ระบบผู้เชี่ยวชาญถือกำเนิดขึ้นในทศวรรษ 1970 เจริญรุ่งเรืองในทศวรรษ 1980 และได้รับการยกย่องอย่างกว้างขวางว่าเป็นอนาคตของ AI" — @ChombaBupe
โมเดล GPT ถือกำเนิดขึ้นในปี 2018 เจริญรุ่งเรืองในทศวรรษ 2020 และได้รับการยกย่องอย่างกว้างขวางว่าเป็นอนาคตของ AI
ความล้มเหลวของระบบผู้เชี่ยวชาญไม่ใช่เพราะฉลาดไม่พอ แต่เป็นเพราะต้นทุนการบำรุงรักษาสูงเกินไปและขยายขนาดได้ไม่ดี เมื่อฐานความรู้ต้องการการบำรุงรักษาด้วยตนเอง ขนาดก็คือศัตรู
GPT กำลังเผชิญกับปัญหาที่เป็นภาพสะท้อน: โมเดลฉลาด แต่ต้นทุนการให้เหตุผลสูงเกินไป เมื่อทุกคำขอต้องการการคำนวณจำนวนมาก ขนาดก็เป็นศัตรูเช่นกัน
ขั้นตอนต่อไป
คาดว่าจะมีการเปิดตัวโมเดลใหม่หลายตัวในสัปดาห์นี้: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5
การแข่งขันกำลังเปลี่ยนจาก "ใครฉลาดกว่า" เป็น "ใครถูกกว่า" นี่เป็นข่าวดีสำหรับผู้ใช้ สำหรับ OpenAI? อาจจะไม่





