Fjögurra umboðsmanna arkitektúr Grok 4.2: Framför eða afturför?

★ xAI hefur gefið út Grok 4.2 almenningsprófunarútgáfuna. Kjarnabreytingin: Frá einni líkan yfir í samstarfskerfi fjögurra umboðsmanna.

Þetta er ekki smám saman uppfærsla. Þetta er endurskrifun á arkitektúr.

Fjögurra umboðsmanna arkitektúr

Grok 4.2 er ekki lengur eitt líkan sem svarar spurningum. Það eru fjórir „umboðsmenn“ sem ræða fyrst innbyrðis og gefa þér síðan svarið:

Grok (fyrirliði): Samræmir stefnu og alhliða úttak
Harper: Veitir rauntíma upplýsingar í gegnum X rauntímagagnastrauma
Benjamin: Tryggir rökrétta nákvæmni
Fjórði umboðsmaður: Ber ábyrgð á sköpunargáfu og dreifðri hugsun

"Grok 4.20 evolves from a single model into a native four-agent council, executing a production-grade collaboration on every complex query." — @MU_sings

Þetta hljómar flott. Spurningin er: Virkar það?

Skiptar skoðanir notenda

Þetta er áhugaverðasti þátturinn við Grok 4.2 - notendaeinkunnir eru afar skiptar.

Jákvæðar umsagnir:

"The new Grok 4.2 seems to be based and unbiased at last." — @realbeandog

"Grok is the only AI to emphatically say 'No'" when asked 'Is the US on stolen land?' — @KatieMiller

Þetta er aðgreiningarstaða Grok: Það reynir ekki að vera „hlutlaust“. Það hefur skýra afstöðu - með orðum stuðningsmanna, þetta er kallað „based“.

Neikvæðar umsagnir:

"Grok 4.2 Review: 4x slower, 4x dumber. This is a massive step backward and everyone involved needs to be ashamed." — @JuanSanchez0x0

"grok 4.2 doesnt seem that great" — @nicdunz

Kjarni gagnrýninnar er: Umræðukerfi fjögurra umboðsmanna leiðir til hægari viðbragða og gæði lokasvarsins batna ekki. Þegar fjórir gervigreindar ræða fyrst saman áður en þeir gefa þér svar, þá bíðurðu lengur, en niðurstaðan er ekki endilega betri.

Þetta er grundvallaratriði í hönnun: Flókin arkitektúr jafngildir ekki betri framleiðslu.

Loforðið um „hratt nám“

Yfirlýsing Elon Musk:

"Grok 4.2 is expected to be about an order of magnitude smarter and faster than the current Grok 4 once its public beta wraps up next month."

Lykilorðið er „once its public beta wraps up“. Núverandi útgáfa er almenningsprófun, lokútgáfan mun hafa stórstígar framfarir.

Þetta er snjöll stefna til að stýra væntingum: Gefa fyrst út umdeilda útgáfu, lofa að hún muni batna í framtíðinni og safna um leið notendaviðbrögðum til að endurtaka hratt.

Opinber reikningur xAI lagði einnig áherslu á þetta:

"Unlike prior versions of Grok, 4.2 is able to learn rapidly, so there will be improvements every week with release notes."

Vikulegar uppfærslur. Þetta er umskipti frá kyrrstæðu líkani yfir í stöðugt námkerfi.

Samanburður við keppinauta

Í viðmiðunarprófum hefur Grok serían sína eigin kosti:

"Grok 4 is still state-of-the-art on ARC-AGI-2 among frontier models. 15.9% for Grok 4 vs 9.9% for GPT-5." — François CholletARC-AGI-2 er abstrakt röksemdarpróf hannað af François Chollet, sem er talið vera mikilvægur mælikvarði á almenna getu gervigreindar. Grok 4 er leiðandi í þessu prófi.

En grunnpróf og dagleg notkun eru tvennt ólíkt.

Þróunaraðili deildi vinnuflæði sínu:

"I saw a guy coding today. Tab 1 ChatGPT. Tab 2 Gemini. Tab 3 Claude. Tab 4 Grok. Tab 5 DeepSeek. He asked every AI the same question, patiently waited, then pasted each response into 5 different Python files. Hit run on all five. Pick the best one." — @Adidotdev

Þetta er raunveruleikinn á núverandi gervigreindarmarkaði: það er enginn algjör meistari. Þróunaraðilar nota mörg líkön samtímis og nýta sér styrkleika hvers og eins.

Aðgangshindranir áskriftar

Aðgangur að Grok 4.2:

"Requires Premium+ or SuperGrok subscription." — @grok

Þetta er ekki ókeypis. Til að nota nýjustu útgáfuna af Grok á X þarftu að greiða fyrir áskrift. Þetta staðsetur Grok sem hágæðavöru, en takmarkar einnig notendahópinn.

Samanburður við aðra gervigreind:

ChatGPT: Ókeypis útgáfan hefur aðgang að GPT-4o, Plus notendur hafa aðgang að háþróaðri eiginleikum
Claude: Ókeypis útgáfan hefur aðgang að Sonnet, Pro notendur hafa aðgang að Opus
Grok: Krefst Premium+ til að nota nýjustu útgáfuna

Þetta er aðgreiningarstefna: Grok sækist ekki eftir hámarksfjölda notenda, heldur ákveðnum notendahópi - þeim sem eru tilbúnir að borga fyrir "based" afstöðu og rauntímagögn frá X.

Kostnaðurinn við "Based"

Einn af helstu sölupunktum Grok er "pólitískur óréttlæti" hans - eða öllu heldur, að hann framkvæmir ekki eins stranga öryggisstillingu og önnur gervigreind.

"Grok is the only AI to emphatically say 'No'" to certain politically sensitive questions.

Þetta vekur tvær spurningar:

Er þetta "staðreyndamiðaða" svar í raun staðreynd? Eða er það bara að þóknast fordómum ákveðins notendahóps?
Hversu áreiðanleg er gervigreind þegar hún hefur skýra afstöðu? Hlutleysi er ekki fullkomið, en skýr hlutdrægni er líka vandamál.

Þetta er ekki tæknilegt vandamál, heldur heimspekilegt vandamál varðandi vöruhönnun. xAI valdi aðgreiningarleið - að búa ekki til "örugga en leiðinlega" gervigreind, heldur "gervigreind með afstöðu en hugsanlega vandamál".

Mikilvægi fjölmiðla arkitektúrs

Að sleppa pólitískri afstöðu Grok, þá er fjölmiðla arkitektúrinn sjálfur verðugur umræðu.

Fjölmiðlakerfi er ekki nýtt hugtak í gervigreindarannsóknum. Kjarnahugmyndin er: að láta marga sérhæfða "sérfræðinga" vinna saman er árangursríkara en almennt líkan.

Í kenningu leysir þetta nokkur vandamál:

Sérhæfing: Hver miðlari getur einbeitt sér að ákveðnum tegundum verkefna
Krossstaðfesting: Margir miðlarar geta athugað villur hver hjá öðrum
Traustleiki: Villa hjá einum miðlara leiðir ekki til heildarbilunar

En í reynd leiðir það til nýrra vandamála:

Seinkun: Allir fjórir miðlararnir þurfa að vinna úr, sem tekur lengri tíma
Samræmingarkostnaður: Hvernig á að láta fjóra miðlara vinna saman á áhrifaríkan hátt er óleyst vandamál
Erfitt að villuleita: Þegar niðurstöðurnar eru slæmar er erfitt að vita hvaða hlekkur olli vandamálinu

Snemma endurgjöf á Grok 4.2 bendir til þess að þessi vandamál hafi ekki verið leyst vel ennþá.

Hlutabréfamarkaðstilraun

Áhugaverð tilraun:

"We gave a bunch of AIs $100K in the stock market to see if they could beat the S&P 500. So far Grok 4 is up 3.7% during the time of the test beating the S&P 500's +2.4% return." — @ralliesaiÞessi tilraun er enn í gangi og það er of snemmt að draga ályktanir. En hún sýnir notkunartilfelli: gervigreind sem hjálpartæki við fjárfestingarákvarðanir.

Niðurstaðan

Grok 4.2 er umdeild uppfærsla.

Fjölumboða arkitektúrinn er djörf tilraun, en snemmtæk viðbrögð notenda benda til vandamála við framkvæmd. Hún er fljótari og flóknari, en flækjustig jafngildir ekki betri.

Staðsetningin "Based" er aðgreiningarstefna, en þýðir einnig að Grok þjónar ákveðnum notendahópi, ekki öllum.

Það sem er athyglisverðast er loforð xAI um "vikulegar uppfærslur". Ef hægt er að laga villur í fjögurra umboða arkitektúrnum fljótt, ef viðbragðstíminn batnar verulega, ef loforðið um "eina stærðargráðu gáfaðri" er efnt - þá gæti Grok 4.2 markað nýja stefnu í hönnun gervigreindarvara.

En núna? Hún er meira eins og snemmbúin útgáfa en fullunnin vara.

Þessi grein er byggð á greiningu á 100 umræðum um útgáfu Grok 4.2 á X/Twitter 18. febrúar 2026.

Fjögurra umboðsmanna arkitektúr Grok 4.2: Framför eða afturför?

Fjögurra umboðsmanna arkitektúr Grok 4.2: Framför eða afturför?