Tembok Biaya GPT
Dalam seminggu terakhir, diskusi tentang GPT di X telah memunculkan fokus baru: bukan kemampuan, tetapi biaya.
ARC-AGI: Batas Kecerdasan
Performa model tercanggih saat ini di ARC-AGI-2:
| Model | Skor ARC-AGI-2 |
|---|---|
| GPT-5.2 Pro | ~54% |
| GPT-5.2 Refine | ~73% |
| Manusia | 100% |
Selisih antara 54% dan 73% bukanlah masalah kecerdasan, melainkan "Penyempurnaan"—membuat model berulang kali memeriksa jawabannya sendiri. Ini membutuhkan lebih banyak komputasi, yang berarti biaya lebih tinggi.
Biaya Sebenarnya dari Agent
Biaya tahunan untuk Agent tingkat perusahaan 24/7 (20 juta token input + 20 juta token output per hari):
| Model | Biaya Tahunan |
|---|---|
| Palmyra X5 | ~$48K |
| GPT-5.2 Standard | ~$57K |
| Gemini 2.5 Pro | ~$82K |
| Claude Sonnet 4.5 | ~$131K |
| Claude Opus 4.6 | ~$219K |
| GPT-5.2 Pro | ~$690K |
GPT-5.2 Pro 12 kali lebih mahal daripada GPT-5.2 Standard. Ini bukan masalah strategi penetapan harga, tetapi masalah struktur biaya.
"Sebelum Anda menerapkan 100 agen AI, hitunglah." — @waseem_s
Tes Turing Baru
Sebuah pertanyaan sederhana menjadi tes kecerdasan baru:
"Tempat cuci mobil berjarak 40 meter dari rumah saya. Saya ingin mencuci mobil. Haruskah saya berjalan atau mengemudi?"
Model yang lulus: GPT-5.2 Thinking, Opus 4.6, Gemini 3 Pro Model yang gagal: GPT-5.2 Instant, GPT-4o, Haiku 4.5, Sonnet 4.5
Mengapa tes ini bermakna? Karena tes ini menguji "penalaran akal sehat" daripada "pengambilan pengetahuan". 40 meter adalah jarak berjalan kaki. Mobil kotor perlu dicuci. Tetapi Anda tidak akan mengendarai mobil kotor sejauh 40 meter untuk dicuci—kecuali jika Anda tidak memiliki akal sehat.
Sejarah Tidak Berulang, Tetapi Berima
"Sistem pakar lahir pada tahun 1970-an, berkembang pesat pada tahun 1980-an, dan secara luas dianggap sebagai masa depan AI." — @ChombaBupe
Model GPT lahir pada tahun 2018, berkembang pesat pada tahun 2020-an, dan secara luas dianggap sebagai masa depan AI.
Kegagalan sistem pakar bukan karena kurang cerdas, tetapi karena biaya pemeliharaan yang terlalu tinggi dan skalabilitas yang buruk. Ketika basis pengetahuan perlu dipelihara secara manual, skala adalah musuh.
GPT menghadapi masalah serupa: modelnya cerdas, tetapi biaya penalaran terlalu tinggi. Ketika setiap permintaan membutuhkan banyak komputasi, skala juga menjadi musuh.
Langkah Selanjutnya
Minggu ini diperkirakan akan ada beberapa model baru yang dirilis: Gemini 3.1 Pro, Claude Sonnet 5, GPT-5.3, DeepSeek V4, Qwen 3.5.
Persaingan beralih dari "siapa yang lebih pintar" menjadi "siapa yang lebih murah". Ini adalah kabar baik bagi pengguna. Untuk OpenAI? Belum tentu.





