Κόστος μόλις 300.000; Οδηγός τοπικής ανάπτυξης του μοντέλου Kimi-K2.5 με 1 τρισεκατομμύριο παραμέτρους σε 4 Mac Studio 512GB
Κόστος μόλις 300.000; Οδηγός τοπικής ανάπτυξης του μοντέλου Kimi-K2.5 με 1 τρισεκατομμύριο παραμέτρους σε 4 Mac Studio 512GB
Σε αυτή την εποχή των μεγάλων μοντέλων, όλοι έχουμε ένα όνειρο: να τρέξουμε τοπικά ένα μοντέλο με παραμέτρους που να ανταγωνίζεται το GPT-5. Αλλά η πραγματικότητα είναι σκληρή, τα μοντέλα με 1 τρισεκατομμύριο παραμέτρους, ακόμα και με 4-bit ποσοτικοποίηση, απαιτούν τεράστιες ποσότητες μνήμης. Οι H100 και B200 είναι πολύ ακριβές, τι να κάνουμε αν δεν μπορούμε να τις αγοράσουμε;
Σήμερα, ο JamePeng μας δείχνει πώς να χρησιμοποιήσουμε 4 πλήρως εξοπλισμένα M3 Ultra Mac Studio, μέσω EXO+MLX και Thunderbolt 5, για να δημιουργήσουμε έναν τοπικό AI υπερυπολογιστή με 2TB ενιαίας μνήμης! Ο στόχος είναι μόνο ένας: να τρέξουμε το μοντέλο Kimi-K2.5 με 1 τρισεκατομμύριο παραμέτρους τοπικά.
Γιατί να κάνουμε τόση προσπάθεια;
Όχι μόνο για να είναι εντυπωσιακό, αλλά και για την ιδιωτικότητα των δεδομένων και την απόλυτη τοπική εξουσία.
Το κύριο εργαλείο είναι το EXO (GitHub: exo-explore/exo), το οποίο υποστηρίζει RDMA (Απομακρυσμένη Άμεση Πρόσβαση Μνήμης), επιτρέποντας τη συγχώνευση της ενιαίας μνήμης 4 Mac σε μια τεράστια πισίνα μνήμης.
Λίστα υλικού: 4 Mac Studio (M3 Ultra, έκδοση 512GB μνήμης), συνολική μνήμη περίπου 2TB, σύνδεση μέσω Thunderbolt 5 (120Gbps εύρος ζώνης), το σύστημα απαιτεί macOS Tahoe 26.2 ή νεότερη έκδοση.
Βήμα 1: Ενεργοποίηση υποστήριξης RDMA
Εκτελέστε τις παρακάτω ενέργειες σε κάθε Mac:
- Κλείστε το Mac και μπείτε σε λειτουργία ανάκτησης (πατήστε παρατεταμένα το κουμπί τροφοδοσίας, επιλέξτε "Options" > "Continue")
- Ανοίξτε το Terminal και εκτελέστε: bputil -a rdma
- Επανεκκινήστε το Mac
- Επαληθεύστε: systemprofiler SPThunderboltDataType για να ελέγξετε την ενεργοποίηση του RDMA
Βήμα 2: Εγκατάσταση του EXO
Εγκατάσταση macOS App: Κατεβάστε το EXO-version.dmg από το GitHub και εγκαταστήστε το. Ανοίξτε το Dashboard και προσθέστε τις διευθύνσεις IP των άλλων Mac.
Εγκατάσταση πηγαίου κώδικα:
- Εγκαταστήστε το Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
Βήμα 3: Φυσική σύνδεση και τοπολογία
Μην χρησιμοποιείτε Wi-Fi για δικτύωση! Ούτε καν το Wi-Fi 7 δεν είναι αρκετό. Η επεξεργασία μοντέλων τρισεκατομμυρίων παραμέτρων είναι εξαιρετικά ευαίσθητη στο εύρος ζώνης. Χρησιμοποιήστε καλώδιο Thunderbolt 5, ορίστε έναν Mac ως κύριο κόμβο (Master) και τους άλλους τρεις ως κόμβους εργασίας (Worker). Συνιστάται η τοπολογία αστέρα ή η σειριακή σύνδεση.
Στο EXO Dashboard, θα πρέπει να δείτε και τους 4 συσκευές online, με την συνολική πισίνα μνήμης να εμφανίζεται ως 2048 GB.
Βήμα 4: Κατεβάστε και εκτελέστε την κοινότητα MLX Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. Ξεκινήστε την μηχανή επεξεργασίας:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx Ανάλυση εντολής:
- --model: δείχνει στον κατάλογο του μοντέλου
- --quant 4: χρησιμοποιεί 4-bit ποσοτικοποίηση για να μειώσει τη χρήση μνήμης
- --shards auto: το EXO αυτόματα και έξυπνα διαχωρίζει το μοντέλο
- --engine mlx: καλεί το GPU 76 πυρήνων και το Neural Engine του M3 Ultra για επεξεργασία
Τελικό αποτέλεσμα και μετρήσεις
Όταν η κονσόλα δείχνει "Ready", έχετε έναν AI υπερυπολογιστή δικό σας.
Φάση προεγκατάστασης (Prefill): Οι ανεμιστήρες των 4 Mac αρχίζουν να επιταχύνουν ελαφρώς (χάρη στην ενεργειακή αποδοτικότητα του M3 Ultra, δεν θα απογειωθούν).
Φάση παραγωγής (Generation): Τα Token βγαίνουν το ένα μετά το άλλο.
Ταχύτητα: Αν και δεν συγκρίνεται με το H100 cluster, χάρη στην υποστήριξη RDMA του Thunderbolt 5, η ταχύτητα παραγωγής Token μπορεί να φτάσει τα 17-28 tokens/s. Αυτό είναι απολύτως διαδραστικό για ένα μοντέλο με 1 τρισεκατομμύριο παραμέτρους!
Συμπέρασμα
Αυτή η λύση σίγουρα δεν είναι φθηνή, αλλά αποδεικνύει ότι με την προσπάθεια της Apple Silicon + της κοινότητας ανοιχτού κώδικα, το μέλλον της αποκεντρωμένης AI έρχεται. Δεν χρειάζεται να στέλνουμε δεδομένα στους γίγαντες του cloud, μπορούμε να δημιουργήσουμε ισχυρές ιδιωτικές ομάδες επεξεργασίας με τις συσκευές που έχουμε στα χέρια μας.

