Usanifu wa Mawakala Wanne wa Grok 4.2: Mafanikio au Kurudi Nyuma?

★ xAI imetoa toleo la umma la Grok 4.2. Mabadiliko makuu: kutoka kwa modeli moja hadi mfumo wa ushirikiano wa mawakala wanne.

Hii si sasisho la taratibu. Huu ni uandishi upya wa usanifu.

Usanifu wa Mawakala Wanne

Grok 4.2 haijibu maswali kama modeli moja tena. Ni "mawakala" wanne wanaobishana ndani kwanza, kisha kukupa jibu:

Grok (Kapteni): Kuratibu mikakati na matokeo ya jumla
Harper: Kutoa taarifa za wakati halisi kupitia mtiririko wa data wa X
Benjamin: Kuhakikisha ukamilifu wa kimantiki
Mwakala wa Nne: Anawajibika kwa ubunifu na mawazo tofauti

"Grok 4.20 evolves from a single model into a native four-agent council, executing a production-grade collaboration on every complex query." — @MU_sings

Hii inasikika vizuri. Swali ni: inafanya kazi?

Maoni ya Watumiaji Yaliyogawanyika

Hapa ndipo mahali pa kuvutia zaidi kuhusu Grok 4.2 - tathmini za watumiaji zinaonyesha mgawanyiko mkubwa.

Tathmini Chanya:

"The new Grok 4.2 seems to be based and unbiased at last." — @realbeandog

"Grok is the only AI to emphatically say 'No'" when asked 'Is the US on stolen land?' — @KatieMiller

Huu ndio msimamo tofauti wa Grok: haijaribu kuwa "isiyoegemea upande wowote". Ina mwelekeo wazi - kwa maneno ya wafuasi, hii inaitwa "based".

Tathmini Hasi:

"Grok 4.2 Review: 4x slower, 4x dumber. This is a massive step backward and everyone involved needs to be ashamed." — @JuanSanchez0x0

"grok 4.2 doesnt seem that great" — @nicdunz

Kiini cha ukosoaji ni: utaratibu wa mjadala wa mawakala wanne husababisha majibu ya polepole, na ubora wa jibu la mwisho haujaboreshwa. Wakati akili bandia nne zinajadili kwanza kabla ya kukupa jibu, unasubiri kwa muda mrefu, lakini matokeo unayopata si lazima yawe bora.

Hili ni tatizo la msingi la muundo: usanifu tata haumaanishi matokeo bora.

Ahadi ya "Kujifunza Haraka"

Taarifa ya Elon Musk:

"Grok 4.2 is expected to be about an order of magnitude smarter and faster than the current Grok 4 once its public beta wraps up next month."

Neno muhimu ni "once its public beta wraps up". Toleo la sasa ni la umma, na toleo la mwisho litakuwa na uboreshaji wa ukubwa.

Hii ni mkakati mzuri wa usimamizi wa matarajio: kwanza toa toleo lenye utata, ahidi kuwa litaboresha katika siku zijazo, na kukusanya maoni ya watumiaji ili kurudia haraka.

akaunti rasmi ya xAI pia ilisisitiza hili:

"Unlike prior versions of Grok, 4.2 is able to learn rapidly, so there will be improvements every week with release notes."

Sasisho za kila wiki. Hii ni mabadiliko kutoka kwa modeli tuli hadi mfumo endelevu wa kujifunza.

Ulinganisho na Washindani

Katika vipimo vya kulinganisha, mfululizo wa Grok una faida zake:

"Grok 4 is still state-of-the-art on ARC-AGI-2 among frontier models. 15.9% for Grok 4 vs 9.9% for GPT-5." — François CholletARC-AGI-2 ni jaribio la kufikiri la dhahania lililoundwa na François Chollet, ambalo linachukuliwa kuwa kipimo muhimu cha uwezo wa AI wa kujumlisha. Grok 4 inaongoza katika jaribio hili.

Lakini vipimo vya msingi na matumizi ya kila siku ni mambo mawili tofauti.

Msanidi programu alishiriki mtiririko wake wa kazi:

"Nilimwona mtu akiandika msimbo leo. Kichupo cha 1 ChatGPT. Kichupo cha 2 Gemini. Kichupo cha 3 Claude. Kichupo cha 4 Grok. Kichupo cha 5 DeepSeek. Aliuliza kila AI swali lile lile, alisubiri kwa subira, kisha akabandika kila jibu kwenye faili 5 tofauti za Python. Alibonyeza endesha kwenye zote tano. Alichagua bora zaidi." — @Adidotdev

Hii ndiyo hali halisi ya soko la AI kwa sasa: hakuna mfalme kamili. Wasanidi programu hutumia mifumo mingi kwa wakati mmoja, kila moja ikitumika kwa faida zake.

Kizingiti cha Usajili

Upatikanaji wa Grok 4.2:

"Inahitaji usajili wa Premium+ au SuperGrok." — @grok

Hii si bure. Ili kutumia Grok ya hivi karibuni kwenye X, unahitaji kulipia usajili. Hii inaweka Grok kama bidhaa ya hali ya juu, lakini pia inapunguza msingi wake wa watumiaji.

Linganisha na AI zingine:

ChatGPT: Toleo la bure linapatikana na GPT-4o, watumiaji wa Plus wanapata vipengele vya hali ya juu zaidi
Claude: Toleo la bure linapatikana na Sonnet, watumiaji wa Pro wanapata Opus
Grok: Lazima uwe na Premium+ ili utumie toleo la hivi karibuni

Hii ni mkakati wa utofautishaji: Grok haitafuti idadi kubwa ya watumiaji, lakini inalenga kundi maalum la watumiaji - wale ambao wako tayari kulipia msimamo wa "based" na data ya wakati halisi ya X.

Gharama ya "Based"

Moja ya pointi kuu za uuzaji za Grok ni "kutokuwa sahihi kisiasa" - au, haifanyi usawazishaji mkali wa usalama kama AI zingine.

"Grok ndiyo AI pekee inayosema kwa mkazo 'Hapana' kwa maswali fulani nyeti kisiasa."

Hii inaleta maswali mawili:

Je, jibu hili "linalotokana na ukweli" ni kweli ukweli? Au inakidhi tu upendeleo wa kundi maalum la watumiaji?
Uaminifu wa AI ukoje wakati ina msimamo wazi? Kutokuwa na upande si kamilifu, lakini upendeleo ulio wazi pia una tatizo.

Hili si suala la kiufundi, ni suala la falsafa ya muundo wa bidhaa. xAI ilichagua njia tofauti - kutotengeneza AI "salama lakini ya kuchosha", lakini kutengeneza AI "yenye mtazamo lakini inaweza kuwa na matatizo".

Umuhimu wa Usanifu wa Wakala Nyingi

Ukiacha msimamo wa kisiasa wa Grok, usanifu wa wakala nne wenyewe unastahili majadiliano makini.

Mfumo wa wakala nyingi si dhana mpya katika utafiti wa AI. Wazo kuu ni: kuruhusu "wataalam" kadhaa maalum kushirikiana ni bora zaidi kuliko mfumo mkuu wa jumla.

Kinadharia, hii inatatua matatizo kadhaa:

Utaalamu: Kila wakala anaweza kuzingatia aina maalum ya kazi
Uthibitishaji msalaba: Wakala kadhaa wanaweza kuangaliana kwa makosa
Uimara: Hitilafu ya wakala mmoja haisababishi kushindwa kwa ujumla

Lakini katika mazoezi, inaleta matatizo mapya:

Ucheleweshaji: Wakala wote wanne wanapaswa kushughulikia, inachukua muda mrefu
Gharama za uratibu: Jinsi ya kufanya wakala wanne washirikiane kwa ufanisi ni tatizo ambalo halijatatuliwa
Ugumu wa utatuzi: Wakati matokeo si mazuri, ni vigumu kujua ni hatua gani ilikwenda vibaya

Mrejesho wa mapema wa Grok 4.2 unaonyesha kuwa matatizo haya bado hayajatatuliwa vizuri.

Jaribio la Soko la Hisa

Jaribio la kuvutia:

"Tulipa rundo la AI $100K katika soko la hisa ili kuona kama zinaweza kupita S&P 500. Hadi sasa Grok 4 imeongezeka kwa 3.7% wakati wa jaribio ikipita faida ya +2.4% ya S&P 500." — @ralliesaiJaribio hili bado linaendelea, na ni mapema mno kutoa hitimisho. Lakini linaonyesha hali ya matumizi: AI kama chombo saidizi cha maamuzi ya uwekezaji.\n\n## Mstari wa Chini\n\nGrok 4.2 ni sasisho lenye utata.\n\Usanifu wa mawakala wengi ni jaribio la ujasiri, lakini maoni ya watumiaji wa mapema yanaonyesha kuwa kuna matatizo katika utekelezaji. Inakuwa ngumu zaidi haraka, lakini ugumu haumaanishi bora.\n\nMsimamo wa \