Recensione di Xiyu MiniMax M2.5
Recensione di Xiyu MiniMax M2.5
Breve conclusione: radicarsi in basso, crescere verso l'alto
Situazione di base
La precedente generazione di Xiyu, M2.1, a causa di problemi tecnici, sebbene avesse compiuto progressi significativi nella programmazione, era rimasta indietro rispetto a M2 in termini di capacità logiche. Fortunatamente, M2.5 ha sostanzialmente risolto i problemi tecnici e le capacità sono tornate alla normalità. Rispetto a M2, il progresso di M2.5 è di circa il 17%.
Tuttavia, parte del progresso è stato ottenuto grazie a catene di pensiero più lunghe e a un'esplorazione più approfondita dello spazio delle soluzioni. Il consumo medio di Token di M2.5 si colloca al 6° posto tra tutti i modelli testati, quasi il doppio rispetto al concorrente Sonnet. Fortunatamente, la potenza di calcolo di Xiyu è garantita e il costo non è elevato. Sebbene la programmazione non possa sostituire Sonnet in modo completo, è completamente utilizzabile per l'uso quotidiano. M2.5 ha finalmente raggiunto l'obiettivo che M2.1 voleva raggiungere.
Risultati logici

*1 La tabella mostra solo una parte dei modelli confrontabili per evidenziare il rapporto di confronto, non è un ordinamento completo.
*2 Per le domande e i metodi di test, vedere: Valutazione comparativa della capacità logica del modello linguistico di grandi dimensioni - Classifica mensile di gennaio 26. Aggiunta la domanda #56.
*3 La classifica completa è aggiornata su https://llm2014.github.io/llm_benchmark/
*4 Il rosso è limitato al periodo del Festival di Primavera, indica gioia e non ha altri significati.
Poiché M2.1 è una versione con un bug e una capacità logica eccezionalmente bassa, il seguente testo farà solo un confronto intergenerazionale tra M2 e M2.5.
Miglioramenti
- Inferenza stabile: M2.5 può mantenere i vincoli iniziali e i dettagli del contesto durante un processo di inferenza più lungo, quindi alcuni problemi non troppo difficili, ma che richiedono "concentrazione", ottengono un punteggio significativamente più alto con M2.5. Ad esempio, #4 Rotazione del cubo di Rubik, M2.5 è l'8° modello al mondo a ottenere il punteggio pieno. Ma questo tipo di problema, le tre grandi aziende nordamericane possono ottenere stabilmente il punteggio pieno, mentre M2.5 può farlo solo con una piccola probabilità, la differenza è evidente.
- Programmazione: Come accennato in precedenza, M2.5 non può sostituire Sonnet in modo completo, principalmente a causa della limitata quantità di conoscenza di programmazione. In situazioni che richiedono esperienza, abilità, differenze nelle API di versione, ecc., M2.5 difficilmente riesce a trovare problemi da solo senza suggerimenti e di solito richiede più round per restringere gradualmente il problema. Ma questo è già un enorme progresso rispetto a M2. Nel test di ingegneria C, la maggior parte dei modelli nazionali si blocca nei primi 2 round, mentre M2.5 è diventato il primo modello nazionale a superare l'8° round. Sebbene M2.5 abbia evidenti carenze nell'uso di OpenGL e nell'immaginazione spaziale, con la capacità di Agent ottimizzata, può continuamente provare ed errori, convergendo alla soluzione corretta. Inoltre, vale la pena notare che quando M2.5 lavora alla programmazione, "parla" di meno, quasi solo dopo aver finalmente completato il lavoro, emette un breve riepilogo, senza emettere idee a metà strada. Altri progetti sono ancora in fase di test e verranno aggiornati in seguito.
- Capacità di calcolo: La capacità di calcolo di M2 non è eccezionale e M2.1 è persino peggiorata. M2.5 ha apportato miglioramenti efficaci a partire da un punto di partenza basso. Nella maggior parte dei calcoli semplici, M2.5 ha una piccola probabilità di alta precisione, ma nella maggior parte dei casi ci sono ancora errori di calcolo, grandi errori e problemi di incomprensione delle formule. La formazione in questo senso è ancora insufficiente. Come modello guidato da Agent, la capacità di calcolo non è un requisito fondamentale, e anche il calcolo della serie Claude è rimasto a lungo indietro.
Carenze
- Seguire le istruzioni: Rispetto a M2, l'aumento nel seguire le istruzioni non è significativo. La probabilità di ottenere il punteggio pieno in alcuni problemi semplici è più alta, ma non può essere stabile. Esistono casi di abbandono casuale di istruzioni o di alterazione di istruzioni, ma osservando il contenuto della catena di pensiero, il modello ha notato tutte le istruzioni, ma il risultato finale ha problemi. Le prestazioni complessive sono inferiori ad altri modelli del primo livello. Nella programmazione, si verificano anche casi di mancato rispetto dei requisiti di codifica e delle specifiche del progetto. Ad esempio, nel progetto C è specificato che l'asse Z delle coordinate è rivolto verso l'alto, ma M2.5 lo ha cambiato arbitrariamente in asse Y per correggere un altro bug. L'uso quotidiano richiede un'attenzione extra al controllo.
- Allucinazioni: Il livello di allucinazioni di M2.5 non ha subito cambiamenti significativi rispetto a M2. La maggior parte dei problemi relativi al contesto hanno punteggi limite coerenti. Anche nel problema di calcolo del numero target #43, M2.5 commette ancora alcuni errori di basso livello che si verificano solo nei modelli del secondo livello, come l'uso ripetuto di numeri e la mancanza di numeri.
Lo storico cibernetico dice
I produttori nazionali hanno trascorso più di sei mesi esplorando come dovrebbe essere fatto un modello di programmazione. I primi modelli che si diceva fossero sostituti di Sonnet sembravano vicini solo nell'effetto di generazione di "una frase". La loro organizzazione del codice interna, l'ingegneria e, soprattutto, la capacità di iterazione multi-round sono di gran lunga inferiori. Ciò rende anche i programmatori nazionali generalmente diffidenti nei confronti dei modelli nazionali e preferiscono utilizzare Claude anche a rischio di essere bannati.
E con MiniMax M2 e M2.1 che hanno inizialmente invertito la reputazione, la generazione M2.5 ha fatto avanzare di un grande passo l'usabilità della programmazione dei modelli nazionali. In effetti, M2.5 ha ancora un divario completo rispetto al livello Opus dichiarato ufficialmente, ma finché qualcuno è disposto a fidarsi, disposto a usare, le cose andranno nella giusta direzione. Da questo punto di vista, M2.5 è davvero un passo solido che Xiyu ha compiuto verso l'obiettivo della vittoria.





