Κόστος μόλις 300.000; Οδηγός τοπικής ανάπτυξης του μοντέλου Kimi-K2.5 με 1 τρισεκατομμύριο παραμέτρους σε 4 Mac Studio 512GB

Σε αυτή την εποχή των μεγάλων μοντέλων, όλοι έχουμε ένα όνειρο: να τρέξουμε τοπικά ένα μοντέλο με παραμέτρους που να ανταγωνίζεται το GPT-5. Αλλά η πραγματικότητα είναι σκληρή, τα μοντέλα με 1 τρισεκατομμύριο παραμέτρους, ακόμα και με 4-bit ποσοτικοποίηση, απαιτούν τεράστιες ποσότητες μνήμης. Οι H100 και B200 είναι πολύ ακριβές, τι να κάνουμε αν δεν μπορούμε να τις αγοράσουμε;

Σήμερα, ο JamePeng μας δείχνει πώς να χρησιμοποιήσουμε 4 πλήρως εξοπλισμένα M3 Ultra Mac Studio, μέσω EXO+MLX και Thunderbolt 5, για να δημιουργήσουμε έναν τοπικό AI υπερυπολογιστή με 2TB ενιαίας μνήμης! Ο στόχος είναι μόνο ένας: να τρέξουμε το μοντέλο Kimi-K2.5 με 1 τρισεκατομμύριο παραμέτρους τοπικά.

Γιατί να κάνουμε τόση προσπάθεια;

Όχι μόνο για να είναι εντυπωσιακό, αλλά και για την ιδιωτικότητα των δεδομένων και την απόλυτη τοπική εξουσία.

Το κύριο εργαλείο είναι το EXO (GitHub: exo-explore/exo), το οποίο υποστηρίζει RDMA (Απομακρυσμένη Άμεση Πρόσβαση Μνήμης), επιτρέποντας τη συγχώνευση της ενιαίας μνήμης 4 Mac σε μια τεράστια πισίνα μνήμης.

Λίστα υλικού: 4 Mac Studio (M3 Ultra, έκδοση 512GB μνήμης), συνολική μνήμη περίπου 2TB, σύνδεση μέσω Thunderbolt 5 (120Gbps εύρος ζώνης), το σύστημα απαιτεί macOS Tahoe 26.2 ή νεότερη έκδοση.

Βήμα 1: Ενεργοποίηση υποστήριξης RDMA

Εκτελέστε τις παρακάτω ενέργειες σε κάθε Mac:

Κλείστε το Mac και μπείτε σε λειτουργία ανάκτησης (πατήστε παρατεταμένα το κουμπί τροφοδοσίας, επιλέξτε "Options" > "Continue")
Ανοίξτε το Terminal και εκτελέστε: bputil -a rdma
Επανεκκινήστε το Mac
Επαληθεύστε: systemprofiler SPThunderboltDataType για να ελέγξετε την ενεργοποίηση του RDMA

Το Thunderbolt 5 παρέχει εύρος ζώνης 120Gbps, υποστηρίζοντας τέλεια τη μεταφορά δεδομένων.

Βήμα 2: Εγκατάσταση του EXO

Εγκατάσταση macOS App: Κατεβάστε το EXO-version.dmg από το GitHub και εγκαταστήστε το. Ανοίξτε το Dashboard και προσθέστε τις διευθύνσεις IP των άλλων Mac.

Εγκατάσταση πηγαίου κώδικα:

Εγκαταστήστε το Homebrew

git clone https://github.com/exo-explore/exo.git

pip install -e .

exo start

Βήμα 3: Φυσική σύνδεση και τοπολογία

Μην χρησιμοποιείτε Wi-Fi για δικτύωση! Ούτε καν το Wi-Fi 7 δεν είναι αρκετό. Η επεξεργασία μοντέλων τρισεκατομμυρίων παραμέτρων είναι εξαιρετικά ευαίσθητη στο εύρος ζώνης. Χρησιμοποιήστε καλώδιο Thunderbolt 5, ορίστε έναν Mac ως κύριο κόμβο (Master) και τους άλλους τρεις ως κόμβους εργασίας (Worker). Συνιστάται η τοπολογία αστέρα ή η σειριακή σύνδεση.

Στο EXO Dashboard, θα πρέπει να δείτε και τους 4 συσκευές online, με την συνολική πισίνα μνήμης να εμφανίζεται ως 2048 GB.

Βήμα 4: Κατεβάστε και εκτελέστε την κοινότητα MLX Kimi-K2.5

Κατεβάστε το μοντέλο:

pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Ξεκινήστε την μηχανή επεξεργασίας:

exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Ανάλυση εντολής:

--model: δείχνει στον κατάλογο του μοντέλου
--quant 4: χρησιμοποιεί 4-bit ποσοτικοποίηση για να μειώσει τη χρήση μνήμης
--shards auto: το EXO αυτόματα και έξυπνα διαχωρίζει το μοντέλο
--engine mlx: καλεί το GPU 76 πυρήνων και το Neural Engine του M3 Ultra για επεξεργασία

Τελικό αποτέλεσμα και μετρήσεις

Όταν η κονσόλα δείχνει "Ready", έχετε έναν AI υπερυπολογιστή δικό σας.

Φάση προεγκατάστασης (Prefill): Οι ανεμιστήρες των 4 Mac αρχίζουν να επιταχύνουν ελαφρώς (χάρη στην ενεργειακή αποδοτικότητα του M3 Ultra, δεν θα απογειωθούν).

Φάση παραγωγής (Generation): Τα Token βγαίνουν το ένα μετά το άλλο.

Ταχύτητα: Αν και δεν συγκρίνεται με το H100 cluster, χάρη στην υποστήριξη RDMA του Thunderbolt 5, η ταχύτητα παραγωγής Token μπορεί να φτάσει τα 17-28 tokens/s. Αυτό είναι απολύτως διαδραστικό για ένα μοντέλο με 1 τρισεκατομμύριο παραμέτρους!

Συμπέρασμα

Αυτή η λύση σίγουρα δεν είναι φθηνή, αλλά αποδεικνύει ότι με την προσπάθεια της Apple Silicon + της κοινότητας ανοιχτού κώδικα, το μέλλον της αποκεντρωμένης AI έρχεται. Δεν χρειάζεται να στέλνουμε δεδομένα στους γίγαντες του cloud, μπορούμε να δημιουργήσουμε ισχυρές ιδιωτικές ομάδες επεξεργασίας με τις συσκευές που έχουμε στα χέρια μας.

Κόστος μόλις 300.000; Οδηγός τοπικής ανάπτυξης του μοντέλου Kimi-K2.5 με 1 τρισεκατομμύριο παραμέτρους σε 4 Mac Studio 512GB

Κόστος μόλις 300.000; Οδηγός τοπικής ανάπτυξης του μοντέλου Kimi-K2.5 με 1 τρισεκατομμύριο παραμέτρους σε 4 Mac Studio 512GB

Γιατί να κάνουμε τόση προσπάθεια;

Βήμα 1: Ενεργοποίηση υποστήριξης RDMA

Βήμα 2: Εγκατάσταση του EXO

Βήμα 3: Φυσική σύνδεση και τοπολογία

Βήμα 4: Κατεβάστε και εκτελέστε την κοινότητα MLX Kimi-K2.5

Τελικό αποτέλεσμα και μετρήσεις

Συμπέρασμα

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian παρουσίασε το Defuddle, ανεβάζοντας το Obsidian Web Clipper σε νέο επίπεδο

OpenAI ξαφνικά ανακοινώνει "τρίο σε ένα": Συνδυασμός περιηγητή + προγραμματισμού + ChatGPT, παραδέχεται ότι έκανε λάθος τον τελευταίο χρόνο

2026, μην πιέζεις τον εαυτό σου να είναι "πειθαρχημένος"! Κάνε αυτές τις 8 μικρές κινήσεις και η υγεία θα έρθει φυσικά

Οι μητέρες που προσπαθούν να χάσουν βάρος αλλά δεν τα καταφέρνουν, σίγουρα έχουν κολλήσει εδώ

AI Browser 24小时稳定运行指南