Usanifu wa Mawakala Wanne wa Grok 4.2: Mafanikio au Kurudi Nyuma?
Usanifu wa Mawakala Wanne wa Grok 4.2: Mafanikio au Kurudi Nyuma?
★ xAI imetoa toleo la umma la Grok 4.2. Mabadiliko makuu: kutoka kwa modeli moja hadi mfumo wa ushirikiano wa mawakala wanne.
Hii si sasisho la taratibu. Huu ni uandishi upya wa usanifu.
Usanifu wa Mawakala Wanne
Grok 4.2 haijibu maswali kama modeli moja tena. Ni "mawakala" wanne wanaobishana ndani kwanza, kisha kukupa jibu:
- Grok (Kapteni): Kuratibu mikakati na matokeo ya jumla
- Harper: Kutoa taarifa za wakati halisi kupitia mtiririko wa data wa X
- Benjamin: Kuhakikisha ukamilifu wa kimantiki
- Mwakala wa Nne: Anawajibika kwa ubunifu na mawazo tofauti
"Grok 4.20 evolves from a single model into a native four-agent council, executing a production-grade collaboration on every complex query." — @MU_sings
Hii inasikika vizuri. Swali ni: inafanya kazi?
Maoni ya Watumiaji Yaliyogawanyika
Hapa ndipo mahali pa kuvutia zaidi kuhusu Grok 4.2 - tathmini za watumiaji zinaonyesha mgawanyiko mkubwa.
Tathmini Chanya:
"The new Grok 4.2 seems to be based and unbiased at last." — @realbeandog
"Grok is the only AI to emphatically say 'No'" when asked 'Is the US on stolen land?' — @KatieMiller
Huu ndio msimamo tofauti wa Grok: haijaribu kuwa "isiyoegemea upande wowote". Ina mwelekeo wazi - kwa maneno ya wafuasi, hii inaitwa "based".
Tathmini Hasi:
"Grok 4.2 Review: 4x slower, 4x dumber. This is a massive step backward and everyone involved needs to be ashamed." — @JuanSanchez0x0
"grok 4.2 doesnt seem that great" — @nicdunz
Kiini cha ukosoaji ni: utaratibu wa mjadala wa mawakala wanne husababisha majibu ya polepole, na ubora wa jibu la mwisho haujaboreshwa. Wakati akili bandia nne zinajadili kwanza kabla ya kukupa jibu, unasubiri kwa muda mrefu, lakini matokeo unayopata si lazima yawe bora.
Hili ni tatizo la msingi la muundo: usanifu tata haumaanishi matokeo bora.
Ahadi ya "Kujifunza Haraka"
Taarifa ya Elon Musk:
"Grok 4.2 is expected to be about an order of magnitude smarter and faster than the current Grok 4 once its public beta wraps up next month."
Neno muhimu ni "once its public beta wraps up". Toleo la sasa ni la umma, na toleo la mwisho litakuwa na uboreshaji wa ukubwa.
Hii ni mkakati mzuri wa usimamizi wa matarajio: kwanza toa toleo lenye utata, ahidi kuwa litaboresha katika siku zijazo, na kukusanya maoni ya watumiaji ili kurudia haraka.
akaunti rasmi ya xAI pia ilisisitiza hili:
"Unlike prior versions of Grok, 4.2 is able to learn rapidly, so there will be improvements every week with release notes."
Sasisho za kila wiki. Hii ni mabadiliko kutoka kwa modeli tuli hadi mfumo endelevu wa kujifunza.
Ulinganisho na Washindani
Katika vipimo vya kulinganisha, mfululizo wa Grok una faida zake:
"Grok 4 is still state-of-the-art on ARC-AGI-2 among frontier models. 15.9% for Grok 4 vs 9.9% for GPT-5." — François CholletARC-AGI-2 ni jaribio la kufikiri la dhahania lililoundwa na François Chollet, ambalo linachukuliwa kuwa kipimo muhimu cha uwezo wa AI wa kujumlisha. Grok 4 inaongoza katika jaribio hili.
Lakini vipimo vya msingi na matumizi ya kila siku ni mambo mawili tofauti.
Msanidi programu alishiriki mtiririko wake wa kazi:
"Nilimwona mtu akiandika msimbo leo. Kichupo cha 1 ChatGPT. Kichupo cha 2 Gemini. Kichupo cha 3 Claude. Kichupo cha 4 Grok. Kichupo cha 5 DeepSeek. Aliuliza kila AI swali lile lile, alisubiri kwa subira, kisha akabandika kila jibu kwenye faili 5 tofauti za Python. Alibonyeza endesha kwenye zote tano. Alichagua bora zaidi." — @Adidotdev
Hii ndiyo hali halisi ya soko la AI kwa sasa: hakuna mfalme kamili. Wasanidi programu hutumia mifumo mingi kwa wakati mmoja, kila moja ikitumika kwa faida zake.
Kizingiti cha Usajili
Upatikanaji wa Grok 4.2:
"Inahitaji usajili wa Premium+ au SuperGrok." — @grok
Hii si bure. Ili kutumia Grok ya hivi karibuni kwenye X, unahitaji kulipia usajili. Hii inaweka Grok kama bidhaa ya hali ya juu, lakini pia inapunguza msingi wake wa watumiaji.
Linganisha na AI zingine:
- ChatGPT: Toleo la bure linapatikana na GPT-4o, watumiaji wa Plus wanapata vipengele vya hali ya juu zaidi
- Claude: Toleo la bure linapatikana na Sonnet, watumiaji wa Pro wanapata Opus
- Grok: Lazima uwe na Premium+ ili utumie toleo la hivi karibuni
Hii ni mkakati wa utofautishaji: Grok haitafuti idadi kubwa ya watumiaji, lakini inalenga kundi maalum la watumiaji - wale ambao wako tayari kulipia msimamo wa "based" na data ya wakati halisi ya X.
Gharama ya "Based"
Moja ya pointi kuu za uuzaji za Grok ni "kutokuwa sahihi kisiasa" - au, haifanyi usawazishaji mkali wa usalama kama AI zingine.
"Grok ndiyo AI pekee inayosema kwa mkazo 'Hapana' kwa maswali fulani nyeti kisiasa."
Hii inaleta maswali mawili:
-
Je, jibu hili "linalotokana na ukweli" ni kweli ukweli? Au inakidhi tu upendeleo wa kundi maalum la watumiaji?
-
Uaminifu wa AI ukoje wakati ina msimamo wazi? Kutokuwa na upande si kamilifu, lakini upendeleo ulio wazi pia una tatizo.
Hili si suala la kiufundi, ni suala la falsafa ya muundo wa bidhaa. xAI ilichagua njia tofauti - kutotengeneza AI "salama lakini ya kuchosha", lakini kutengeneza AI "yenye mtazamo lakini inaweza kuwa na matatizo".
Umuhimu wa Usanifu wa Wakala Nyingi
Ukiacha msimamo wa kisiasa wa Grok, usanifu wa wakala nne wenyewe unastahili majadiliano makini.
Mfumo wa wakala nyingi si dhana mpya katika utafiti wa AI. Wazo kuu ni: kuruhusu "wataalam" kadhaa maalum kushirikiana ni bora zaidi kuliko mfumo mkuu wa jumla.
Kinadharia, hii inatatua matatizo kadhaa:
- Utaalamu: Kila wakala anaweza kuzingatia aina maalum ya kazi
- Uthibitishaji msalaba: Wakala kadhaa wanaweza kuangaliana kwa makosa
- Uimara: Hitilafu ya wakala mmoja haisababishi kushindwa kwa ujumla
Lakini katika mazoezi, inaleta matatizo mapya:
- Ucheleweshaji: Wakala wote wanne wanapaswa kushughulikia, inachukua muda mrefu
- Gharama za uratibu: Jinsi ya kufanya wakala wanne washirikiane kwa ufanisi ni tatizo ambalo halijatatuliwa
- Ugumu wa utatuzi: Wakati matokeo si mazuri, ni vigumu kujua ni hatua gani ilikwenda vibaya
Mrejesho wa mapema wa Grok 4.2 unaonyesha kuwa matatizo haya bado hayajatatuliwa vizuri.
Jaribio la Soko la Hisa
Jaribio la kuvutia:
"Tulipa rundo la AI $100K katika soko la hisa ili kuona kama zinaweza kupita S&P 500. Hadi sasa Grok 4 imeongezeka kwa 3.7% wakati wa jaribio ikipita faida ya +2.4% ya S&P 500." — @ralliesaiJaribio hili bado linaendelea, na ni mapema mno kutoa hitimisho. Lakini linaonyesha hali ya matumizi: AI kama chombo saidizi cha maamuzi ya uwekezaji.\n\n## Mstari wa Chini\n\nGrok 4.2 ni sasisho lenye utata.\n\Usanifu wa mawakala wengi ni jaribio la ujasiri, lakini maoni ya watumiaji wa mapema yanaonyesha kuwa kuna matatizo katika utekelezaji. Inakuwa ngumu zaidi haraka, lakini ugumu haumaanishi bora.\n\nMsimamo wa \





