Αξιολόγηση του XiYu MiniMax M2.5

2/14/2026
5 min read

Αξιολόγηση του XiYu MiniMax M2.5

Σύντομο συμπέρασμα: Ρίζωσε προς τα κάτω, μεγάλωσε προς τα πάνω

Βασικές πληροφορίες

Η προηγούμενη γενιά M2.1 της XiYu, λόγω τεχνικών προβλημάτων, αν και σημείωσε σημαντική πρόοδο στον προγραμματισμό, η λογική της ικανότητα υστερούσε σε σχέση με την M2. Ευτυχώς, η M2.5 έχει βασικά επιλύσει τα τεχνικά προβλήματα και η ικανότητά της έχει επιστρέψει σε κανονική τροχιά. Σε σύγκριση με την M2, η πρόοδος της M2.5 είναι περίπου 17%.

Ωστόσο, μέρος της προόδου επιτεύχθηκε μέσω μεγαλύτερων αλυσίδων σκέψης και βαθύτερης εξερεύνησης του χώρου λύσεων. Η μέση κατανάλωση Token της M2.5 κατατάσσεται στην 6η υψηλότερη θέση μεταξύ όλων των μοντέλων που δοκιμάζονται, σχεδόν διπλάσια από τον ανταγωνιστή Sonnet. Ευτυχώς, η υπολογιστική ισχύς της XiYu είναι εγγυημένη και το κόστος δεν είναι υψηλό. Αν και ο προγραμματισμός δεν μπορεί να αντικαταστήσει πλήρως τον Sonnet, είναι πλήρως χρησιμοποιήσιμος για καθημερινή χρήση. Η M2.5 τελικά πέτυχε τον στόχο που ήθελε να επιτύχει η M2.1.

Λογική απόδοση

Λογικός πίνακας βαθμολογίας

*1 Ο πίνακας εμφανίζει μόνο μέρος των συγκρίσιμων μοντέλων για να τονίσει τη σχέση σύγκρισης και δεν είναι μια πλήρης ταξινόμηση.

*2 Για τις ερωτήσεις και τις μεθόδους δοκιμής, ανατρέξτε στο: Μεγάλα Γλωσσικά Μοντέλα - Οριζόντια Αξιολόγηση Λογικής Ικανότητας 26-01 μηνιαίος πίνακας. Προστέθηκε η ερώτηση #56.

*3 Η πλήρης λίστα ενημερώνεται στο https://llm2014.github.io/llm_benchmark/

*4 Το κόκκινο είναι περιορισμένο για την περίοδο του Εαρινού Φεστιβάλ, υποδηλώνοντας χαρά και δεν έχει άλλη σημασία.

Δεδομένου ότι η M2.1 είναι μια έκδοση με σφάλματα και εξαιρετικά χαμηλή λογική ικανότητα, η ακόλουθη σύγκριση θα γίνει μόνο μεταξύ των M2 και M2.5.

Βελτιώσεις

  • Σταθερή εξαγωγή συμπερασμάτων: Η M2.5 μπορεί να διατηρήσει τους αρχικούς περιορισμούς και τις λεπτομέρειες του περιβάλλοντος σε μια μεγαλύτερη διαδικασία εξαγωγής συμπερασμάτων, επομένως η M2.5 σημειώνει σημαντική βελτίωση σε ορισμένα προβλήματα που δεν είναι πολύ δύσκολα, αλλά απαιτούν "συγκέντρωση". Για παράδειγμα, στην #4 περιστροφή κύβου Rubik, η M2.5 είναι το 8ο μοντέλο παγκοσμίως που έλαβε την πλήρη βαθμολογία. Ωστόσο, τα τρία μεγάλα μοντέλα της Βόρειας Αμερικής μπορούν να λάβουν σταθερά την πλήρη βαθμολογία, ενώ η M2.5 μπορεί να το κάνει μόνο με μικρή πιθανότητα, υποδεικνύοντας μια σαφή διαφορά.
  • Προγραμματισμός: Όπως αναφέρθηκε προηγουμένως, η M2.5 δεν μπορεί να αντικαταστήσει πλήρως τον Sonnet, κυρίως λόγω του περιορισμένου όγκου γνώσεων προγραμματισμού. Σε περιπτώσεις που απαιτούν εμπειρία, δεξιότητες, διαφορές API έκδοσης κ.λπ., η M2.5 δυσκολεύεται να εντοπίσει προβλήματα μόνη της χωρίς υποδείξεις και συνήθως χρειάζεται πολλούς γύρους για να περιορίσει σταδιακά το πρόβλημα. Αλλά αυτό είναι ήδη μια τεράστια βελτίωση σε σχέση με την M2. Στις δοκιμές C Engineering, τα περισσότερα εθνικά μοντέλα θα κολλήσουν στους πρώτους 2 γύρους, ενώ η M2.5 έγινε το πρώτο εθνικό μοντέλο που έφτασε στον 8ο γύρο. Αν και η M2.5 έχει σαφή μειονεκτήματα στη χρήση OpenGL και στη χωρική φαντασία, σε συνδυασμό με βελτιστοποιημένες δυνατότητες Agent, μπορεί να συνεχίσει να δοκιμάζει και να κάνει λάθη, συγκλίνοντας στη σωστή λύση. Αξίζει επίσης να σημειωθεί ότι η M2.5 "μιλάει" λιγότερο όταν εργάζεται στον προγραμματισμό, εξάγοντας μια σύντομη περίληψη μόνο μετά την ολοκλήρωση της εργασίας και δεν εξάγει ιδέες στη μέση. Άλλα έργα βρίσκονται ακόμη υπό δοκιμή και θα ενημερωθούν αργότερα.
  • Υπολογιστική ικανότητα: Η υπολογιστική ικανότητα της M2 δεν είναι εξαιρετική και η M2.1 έχει ακόμη μεγαλύτερη οπισθοδρόμηση. Η M2.5 έχει κάνει αποτελεσματικές βελτιώσεις σε ένα χαμηλότερο σημείο εκκίνησης. Στους περισσότερους απλούς υπολογισμούς, η M2.5 έχει μικρή πιθανότητα υψηλής ακρίβειας, αλλά στις περισσότερες περιπτώσεις εξακολουθεί να κάνει λάθη, να έχει μεγάλα σφάλματα και να μην κατανοεί τους τύπους. Η εκπαίδευση σε αυτόν τον τομέα εξακολουθεί να είναι ανεπαρκής. Ως μοντέλο που βασίζεται σε Agent, η υπολογιστική ικανότητα δεν είναι απαραίτητη, και η υπολογιστική ικανότητα της σειράς Claude υστερεί εδώ και καιρό.

Ελλείψεις

  • Συμμόρφωση με τις οδηγίες: Σε σύγκριση με την M2, η βελτίωση στη συμμόρφωση με τις οδηγίες δεν είναι μεγάλη. Η πιθανότητα να λάβετε πλήρη βαθμολογία σε ορισμένα απλά προβλήματα είναι υψηλότερη, αλλά δεν μπορεί να είναι σταθερή. Υπάρχουν περιπτώσεις τυχαίας απόρριψης ή τροποποίησης οδηγιών, αλλά παρατηρώντας το περιεχόμενο της αλυσίδας σκέψης, το μοντέλο έχει λάβει υπόψη όλες τις οδηγίες, αλλά υπάρχουν προβλήματα με την τελική έξοδο. Η συνολική απόδοση υστερεί σε σχέση με άλλα μοντέλα στο πρώτο επίπεδο. Στον προγραμματισμό, υπάρχουν επίσης περιπτώσεις όπου αγνοούνται οι απαιτήσεις κωδικοποίησης και οι προδιαγραφές του έργου. Για παράδειγμα, στο έργο C, ο άξονας Z έχει καθοριστεί να είναι προς τα πάνω, αλλά η M2.5 το άλλαξε αυθαίρετα στον άξονα Y για να διορθώσει ένα άλλο σφάλμα. Απαιτείται επιπλέον προσοχή στον έλεγχο για καθημερινή χρήση.
  • Ψευδαισθήσεις: Το επίπεδο ψευδαισθήσεων της M2.5 δεν έχει αλλάξει σημαντικά σε σύγκριση με την M2. Στα περισσότερα προβλήματα που σχετίζονται με το περιβάλλον, οι δύο έχουν τις ίδιες οριακές βαθμολογίες. Ακόμη και στο πρόβλημα υπολογισμού του αριθμού στόχων #43, η M2.5 θα κάνει επίσης ορισμένα βασικά λάθη που θα έκαναν μόνο τα μοντέλα του δεύτερου επιπέδου, όπως η επανειλημμένη χρήση αριθμών και η παράλειψη αριθμών.

Ο Σάιμπερ Ιστορικός λέει

Οι εγχώριοι κατασκευαστές έχουν περάσει περισσότερο από μισό χρόνο εξερευνώντας πώς ακριβώς πρέπει να γίνουν τα μοντέλα προγραμματισμού. Τα πρώτα μοντέλα που ισχυρίζονταν ότι ήταν ισοδύναμα με το Sonnet φαίνονταν να είναι κοντά μόνο στο αποτέλεσμα δημιουργίας "μιας πρότασης". Η εσωτερική οργάνωση κώδικα, η μηχανική και, το πιο σημαντικό, η ικανότητα επαναληπτικής επανάληψης πολλών γύρων είναι πολύ κατώτερες. Αυτό έχει επίσης κάνει τους εγχώριους προγραμματιστές να μην εμπιστεύονται γενικά τα εγχώρια μοντέλα και να προτιμούν να χρησιμοποιούν το Claude ακόμη και με τον κίνδυνο αποκλεισμού λογαριασμού.

Ενώ η MiniMax M2 και η M2.1 ανέτρεψαν αρχικά την κοινή γνώμη, η γενιά M2.5 προώθησε τη χρηστικότητα του εγχώριου προγραμματισμού μοντέλων ένα μεγάλο βήμα προς τα εμπρός. Πράγματι, η M2.5 εξακολουθεί να έχει μια ολοκληρωμένη διαφορά από το επίπεδο Opus που διακηρύσσεται επίσημα, αλλά όσο υπάρχουν άνθρωποι που είναι πρόθυμοι να εμπιστευτούν, πρόθυμοι να χρησιμοποιήσουν, τα πράγματα θα κινηθούν προς τη σωστή κατεύθυνση. Υπό αυτό το πρίσμα, η M2.5 είναι πράγματι ένα σταθερό βήμα που έκανε η XiYu προς τον στόχο της νίκης.

Published in Technology

You Might Also Like

Πώς να χρησιμοποιήσετε την τεχνολογία υπολογιστικού νέφους: Ο πλήρης οδηγός για την κατασκευή της πρώτης σας υποδομής νέφουςTechnology

Πώς να χρησιμοποιήσετε την τεχνολογία υπολογιστικού νέφους: Ο πλήρης οδηγός για την κατασκευή της πρώτης σας υποδομής νέφους

[[HTMLPLACEHOLDER0]] [[HTMLPLACEHOLDER1]] [[HTMLPLACEHOLDER2]] [[HTMLPLACEHOLDER3]] [[HTMLPLACEHOLDER4]] [[HTMLPLACEHOLD...

Προειδοποίηση! Ο πατέρας του Claude Code δηλώνει: Σε 1 μήνα, χωρίς το Plan Mode, ο τίτλος του λογισμικού μηχανικού θα εξαφανιστείTechnology

Προειδοποίηση! Ο πατέρας του Claude Code δηλώνει: Σε 1 μήνα, χωρίς το Plan Mode, ο τίτλος του λογισμικού μηχανικού θα εξαφανιστεί

Προειδοποίηση! Ο πατέρας του Claude Code δηλώνει: Σε 1 μήνα, χωρίς το Plan Mode, ο τίτλος του λογισμικού μηχανικού θα εξ...

2026年 Top 10 深度学习资源推荐Technology

2026年 Top 10 深度学习资源推荐

2026年 Top 10 深度学习资源推荐 随着深度学习在各个领域的迅速发展,越来越多的学习资源和工具涌现出来。本文将为您推荐2026年最值得关注的十个深度学习资源,帮助您在这一领域中快速成长。 1. Coursera Deep Learn...

2026年 Top 10 AI 代理:核心卖点解析Technology

2026年 Top 10 AI 代理:核心卖点解析

2026年 Top 10 AI 代理:核心卖点解析 引言 Με την ταχεία ανάπτυξη της τεχνητής νοημοσύνης, οι AI代理 (AI Agents) έχουν γίνει ένα καυτό θ...

2026年 Top 10 AI 工具推荐:释放人工智能的真正潜力Technology

2026年 Top 10 AI 工具推荐:释放人工智能的真正潜力

2026年 Top 10 AI 工具推荐:释放人工智能的真正潜力 在技术飞速发展的今天,人工智能(AI)已成为各行各业的热门话题。从医疗健康到金融服务,从教育到娱乐,AI 工具正在改变我们工作的方式。为此,我们整理出2026年值得关注的十大...

2026年 Top 10 AWS工具和资源推荐Technology

2026年 Top 10 AWS工具和资源推荐

2026年 Top 10 AWS工具和资源推荐 在快速发展的云计算领域,Amazon Web Services (AWS) 一直是领军者,提供丰富的服务和工具,帮助开发者、企业和技术专家在云上有效工作。以下是2026年值得关注的十大AWS工...