Αξιολόγηση του XiYu MiniMax M2.5
Αξιολόγηση του XiYu MiniMax M2.5
Σύντομο συμπέρασμα: Ρίζωσε προς τα κάτω, μεγάλωσε προς τα πάνω
Βασικές πληροφορίες
Η προηγούμενη γενιά M2.1 της XiYu, λόγω τεχνικών προβλημάτων, αν και σημείωσε σημαντική πρόοδο στον προγραμματισμό, η λογική της ικανότητα υστερούσε σε σχέση με την M2. Ευτυχώς, η M2.5 έχει βασικά επιλύσει τα τεχνικά προβλήματα και η ικανότητά της έχει επιστρέψει σε κανονική τροχιά. Σε σύγκριση με την M2, η πρόοδος της M2.5 είναι περίπου 17%.
Ωστόσο, μέρος της προόδου επιτεύχθηκε μέσω μεγαλύτερων αλυσίδων σκέψης και βαθύτερης εξερεύνησης του χώρου λύσεων. Η μέση κατανάλωση Token της M2.5 κατατάσσεται στην 6η υψηλότερη θέση μεταξύ όλων των μοντέλων που δοκιμάζονται, σχεδόν διπλάσια από τον ανταγωνιστή Sonnet. Ευτυχώς, η υπολογιστική ισχύς της XiYu είναι εγγυημένη και το κόστος δεν είναι υψηλό. Αν και ο προγραμματισμός δεν μπορεί να αντικαταστήσει πλήρως τον Sonnet, είναι πλήρως χρησιμοποιήσιμος για καθημερινή χρήση. Η M2.5 τελικά πέτυχε τον στόχο που ήθελε να επιτύχει η M2.1.
Λογική απόδοση

*1 Ο πίνακας εμφανίζει μόνο μέρος των συγκρίσιμων μοντέλων για να τονίσει τη σχέση σύγκρισης και δεν είναι μια πλήρης ταξινόμηση.
*2 Για τις ερωτήσεις και τις μεθόδους δοκιμής, ανατρέξτε στο: Μεγάλα Γλωσσικά Μοντέλα - Οριζόντια Αξιολόγηση Λογικής Ικανότητας 26-01 μηνιαίος πίνακας. Προστέθηκε η ερώτηση #56.
*3 Η πλήρης λίστα ενημερώνεται στο https://llm2014.github.io/llm_benchmark/
*4 Το κόκκινο είναι περιορισμένο για την περίοδο του Εαρινού Φεστιβάλ, υποδηλώνοντας χαρά και δεν έχει άλλη σημασία.
Δεδομένου ότι η M2.1 είναι μια έκδοση με σφάλματα και εξαιρετικά χαμηλή λογική ικανότητα, η ακόλουθη σύγκριση θα γίνει μόνο μεταξύ των M2 και M2.5.
Βελτιώσεις
- Σταθερή εξαγωγή συμπερασμάτων: Η M2.5 μπορεί να διατηρήσει τους αρχικούς περιορισμούς και τις λεπτομέρειες του περιβάλλοντος σε μια μεγαλύτερη διαδικασία εξαγωγής συμπερασμάτων, επομένως η M2.5 σημειώνει σημαντική βελτίωση σε ορισμένα προβλήματα που δεν είναι πολύ δύσκολα, αλλά απαιτούν "συγκέντρωση". Για παράδειγμα, στην #4 περιστροφή κύβου Rubik, η M2.5 είναι το 8ο μοντέλο παγκοσμίως που έλαβε την πλήρη βαθμολογία. Ωστόσο, τα τρία μεγάλα μοντέλα της Βόρειας Αμερικής μπορούν να λάβουν σταθερά την πλήρη βαθμολογία, ενώ η M2.5 μπορεί να το κάνει μόνο με μικρή πιθανότητα, υποδεικνύοντας μια σαφή διαφορά.
- Προγραμματισμός: Όπως αναφέρθηκε προηγουμένως, η M2.5 δεν μπορεί να αντικαταστήσει πλήρως τον Sonnet, κυρίως λόγω του περιορισμένου όγκου γνώσεων προγραμματισμού. Σε περιπτώσεις που απαιτούν εμπειρία, δεξιότητες, διαφορές API έκδοσης κ.λπ., η M2.5 δυσκολεύεται να εντοπίσει προβλήματα μόνη της χωρίς υποδείξεις και συνήθως χρειάζεται πολλούς γύρους για να περιορίσει σταδιακά το πρόβλημα. Αλλά αυτό είναι ήδη μια τεράστια βελτίωση σε σχέση με την M2. Στις δοκιμές C Engineering, τα περισσότερα εθνικά μοντέλα θα κολλήσουν στους πρώτους 2 γύρους, ενώ η M2.5 έγινε το πρώτο εθνικό μοντέλο που έφτασε στον 8ο γύρο. Αν και η M2.5 έχει σαφή μειονεκτήματα στη χρήση OpenGL και στη χωρική φαντασία, σε συνδυασμό με βελτιστοποιημένες δυνατότητες Agent, μπορεί να συνεχίσει να δοκιμάζει και να κάνει λάθη, συγκλίνοντας στη σωστή λύση. Αξίζει επίσης να σημειωθεί ότι η M2.5 "μιλάει" λιγότερο όταν εργάζεται στον προγραμματισμό, εξάγοντας μια σύντομη περίληψη μόνο μετά την ολοκλήρωση της εργασίας και δεν εξάγει ιδέες στη μέση. Άλλα έργα βρίσκονται ακόμη υπό δοκιμή και θα ενημερωθούν αργότερα.
- Υπολογιστική ικανότητα: Η υπολογιστική ικανότητα της M2 δεν είναι εξαιρετική και η M2.1 έχει ακόμη μεγαλύτερη οπισθοδρόμηση. Η M2.5 έχει κάνει αποτελεσματικές βελτιώσεις σε ένα χαμηλότερο σημείο εκκίνησης. Στους περισσότερους απλούς υπολογισμούς, η M2.5 έχει μικρή πιθανότητα υψηλής ακρίβειας, αλλά στις περισσότερες περιπτώσεις εξακολουθεί να κάνει λάθη, να έχει μεγάλα σφάλματα και να μην κατανοεί τους τύπους. Η εκπαίδευση σε αυτόν τον τομέα εξακολουθεί να είναι ανεπαρκής. Ως μοντέλο που βασίζεται σε Agent, η υπολογιστική ικανότητα δεν είναι απαραίτητη, και η υπολογιστική ικανότητα της σειράς Claude υστερεί εδώ και καιρό.
Ελλείψεις
- Συμμόρφωση με τις οδηγίες: Σε σύγκριση με την M2, η βελτίωση στη συμμόρφωση με τις οδηγίες δεν είναι μεγάλη. Η πιθανότητα να λάβετε πλήρη βαθμολογία σε ορισμένα απλά προβλήματα είναι υψηλότερη, αλλά δεν μπορεί να είναι σταθερή. Υπάρχουν περιπτώσεις τυχαίας απόρριψης ή τροποποίησης οδηγιών, αλλά παρατηρώντας το περιεχόμενο της αλυσίδας σκέψης, το μοντέλο έχει λάβει υπόψη όλες τις οδηγίες, αλλά υπάρχουν προβλήματα με την τελική έξοδο. Η συνολική απόδοση υστερεί σε σχέση με άλλα μοντέλα στο πρώτο επίπεδο. Στον προγραμματισμό, υπάρχουν επίσης περιπτώσεις όπου αγνοούνται οι απαιτήσεις κωδικοποίησης και οι προδιαγραφές του έργου. Για παράδειγμα, στο έργο C, ο άξονας Z έχει καθοριστεί να είναι προς τα πάνω, αλλά η M2.5 το άλλαξε αυθαίρετα στον άξονα Y για να διορθώσει ένα άλλο σφάλμα. Απαιτείται επιπλέον προσοχή στον έλεγχο για καθημερινή χρήση.
- Ψευδαισθήσεις: Το επίπεδο ψευδαισθήσεων της M2.5 δεν έχει αλλάξει σημαντικά σε σύγκριση με την M2. Στα περισσότερα προβλήματα που σχετίζονται με το περιβάλλον, οι δύο έχουν τις ίδιες οριακές βαθμολογίες. Ακόμη και στο πρόβλημα υπολογισμού του αριθμού στόχων #43, η M2.5 θα κάνει επίσης ορισμένα βασικά λάθη που θα έκαναν μόνο τα μοντέλα του δεύτερου επιπέδου, όπως η επανειλημμένη χρήση αριθμών και η παράλειψη αριθμών.
Ο Σάιμπερ Ιστορικός λέει
Οι εγχώριοι κατασκευαστές έχουν περάσει περισσότερο από μισό χρόνο εξερευνώντας πώς ακριβώς πρέπει να γίνουν τα μοντέλα προγραμματισμού. Τα πρώτα μοντέλα που ισχυρίζονταν ότι ήταν ισοδύναμα με το Sonnet φαίνονταν να είναι κοντά μόνο στο αποτέλεσμα δημιουργίας "μιας πρότασης". Η εσωτερική οργάνωση κώδικα, η μηχανική και, το πιο σημαντικό, η ικανότητα επαναληπτικής επανάληψης πολλών γύρων είναι πολύ κατώτερες. Αυτό έχει επίσης κάνει τους εγχώριους προγραμματιστές να μην εμπιστεύονται γενικά τα εγχώρια μοντέλα και να προτιμούν να χρησιμοποιούν το Claude ακόμη και με τον κίνδυνο αποκλεισμού λογαριασμού.
Ενώ η MiniMax M2 και η M2.1 ανέτρεψαν αρχικά την κοινή γνώμη, η γενιά M2.5 προώθησε τη χρηστικότητα του εγχώριου προγραμματισμού μοντέλων ένα μεγάλο βήμα προς τα εμπρός. Πράγματι, η M2.5 εξακολουθεί να έχει μια ολοκληρωμένη διαφορά από το επίπεδο Opus που διακηρύσσεται επίσημα, αλλά όσο υπάρχουν άνθρωποι που είναι πρόθυμοι να εμπιστευτούν, πρόθυμοι να χρησιμοποιήσουν, τα πράγματα θα κινηθούν προς τη σωστή κατεύθυνση. Υπό αυτό το πρίσμα, η M2.5 είναι πράγματι ένα σταθερό βήμα που έκανε η XiYu προς τον στόχο της νίκης.





