क्या केवल 3 लाख में? 4 512GB Mac Studio पर व्यक्तिगत AI सुपरकंप्यूटर बनाना, ट्रिलियन पैरामीटर Kimi-K2.5 स्थानीय तैनाती गाइड
क्या केवल 3 लाख में? 4 512GB Mac Studio पर व्यक्तिगत AI सुपरकंप्यूटर बनाना, ट्रिलियन पैरामीटर Kimi-K2.5 स्थानीय तैनाती गाइड
इस बड़े मॉडल के उन्माद के युग में, हम सभी का एक सपना है: स्थानीय स्तर पर एक ऐसा मॉडल चलाना जो GPT-5 स्तर के ट्रिलियन पैरामीटर के बराबर हो। लेकिन वास्तविकता कठोर है, ट्रिलियन पैरामीटर का मॉडल, भले ही 4-बिट क्वांटाइजेशन हो, विशाल वीडियो मेमोरी की आवश्यकता होती है। H100, B200 बहुत महंगे हैं, अगर खरीद नहीं सकते तो क्या करें?
आज JamePeng हमें 4 पूर्ण कॉन्फ़िगर M3 Ultra Mac Studio का उपयोग करके, EXO+MLX और Thunderbolt 5 के माध्यम से, 2TB एकीकृत मेमोरी वाला एक स्थानीय AI सुपरकंप्यूटर बनाने के लिए ले जा रहे हैं! लक्ष्य केवल एक है: स्थानीय स्तर पर Kimi-K2.5 ट्रिलियन पैरामीटर बड़े मॉडल को चलाना।
क्यों इतना झंझट?
यह केवल कूल होने के लिए नहीं है, बल्कि डेटा गोपनीयता और चरम स्थानीय नियंत्रण के लिए भी है।
मुख्य हथियार EXO (GitHub: exo-explore/exo) है, जो RDMA (रिमोट डायरेक्ट मेमोरी एक्सेस) का समर्थन करता है, जो 4 Mac की एकीकृत मेमोरी को एक विशाल वीडियो मेमोरी पूल में विलीन कर सकता है।
हार्डवेयर सूची: 4 Mac Studio (M3 Ultra, 512GB मेमोरी संस्करण), कुल वीडियो मेमोरी लगभग 2TB, कनेक्शन के लिए Thunderbolt 5 (120Gbps बैंडविड्थ) का उपयोग करें, सिस्टम को macOS Tahoe 26.2 या नए संस्करण की आवश्यकता है।
चरण 1: RDMA समर्थन सक्षम करें
प्रत्येक Mac पर क्रियान्वयन करें:
- Mac बंद करें, पुनर्प्राप्ति मोड में जाएं (पावर बटन को दबाकर रखें, "Options" > "Continue" चुनें)
- Terminal खोलें, चलाएं: bputil -a rdma
- Mac को पुनः प्रारंभ करें
- सत्यापित करें: systemprofiler SPThunderboltDataType RDMA सक्षम है या नहीं
चरण 2: EXO स्थापित करें
macOS ऐप स्थापना: GitHub से EXO-version.dmg डाउनलोड करें, स्थापित करें और चलाएं। Dashboard खोलें और अन्य Mac IP जोड़ें।
स्रोत कोड स्थापना:
- Homebrew स्थापित करें
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
चरण 3: भौतिक कनेक्शन और टोपोलॉजी
Wi-Fi का उपयोग करके नेटवर्क न बनाएं! यहां तक कि Wi-Fi 7 भी नहीं। ट्रिलियन मॉडल की व्याख्या बैंडविड्थ के प्रति अत्यधिक संवेदनशील होती है। कृपया Thunderbolt 5 केबल का उपयोग करें, एक Mac को मास्टर नोड (Master) के रूप में और अन्य तीन को कार्य नोड (Worker) के रूप में स्थापित करें। स्टार टोपोलॉजी या श्रृंखला कनेक्शन की सिफारिश की जाती है।
EXO Dashboard में, आपको 4 उपकरणों को ऑनलाइन देखना चाहिए, कुल मेमोरी पूल 2048 GB के रूप में प्रदर्शित होता है।
चरण 4: MLX सामुदायिक संस्करण Kimi-K2.5 डाउनलोड और चलाएं
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. व्याख्या इंजन प्रारंभ करें:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx कमांड व्याख्या:
- --model: मॉडल निर्देशिका की ओर इशारा करता है
- --quant 4: मेमोरी उपयोग को कम करने के लिए 4-बिट क्वांटाइजेशन का उपयोग करें
- --shards auto: EXO स्वचालित रूप से बुद्धिमानी से मॉडल को विभाजित करता है
- --engine mlx: M3 Ultra के 76-कोर GPU और न्यूरल इंजन का उपयोग करके व्याख्या करता है
अंतिम प्रभाव और वास्तविक परीक्षण
जब टर्मिनल "Ready" दिखाता है, तो आपके पास अपना खुद का AI सुपरकंप्यूटर है।
पूर्व-भराई (Prefill) चरण: 4 Mac के पंखे हल्का तेज़ होने लगते हैं (M3 Ultra की ऊर्जा दक्षता के कारण, यह उड़ नहीं रहा है)।
उत्पादन (Generation) चरण: टोकन एक के बाद एक बाहर आते हैं।
गति: हालांकि H100 क्लस्टर की तुलना में नहीं है, लेकिन Thunderbolt 5 के RDMA समर्थन के कारण, टोकन उत्पादन गति 17-28 tokens/s तक पहुंच सकती है। यह एक ट्रिलियन पैरामीटर मॉडल के लिए पूरी तरह से इंटरैक्टिव है!
निष्कर्ष
यह सेटअप बिल्कुल सस्ता नहीं है, लेकिन यह साबित करता है कि Apple Silicon + ओपन-सोर्स समुदाय के प्रयासों के तहत, विकेंद्रीकृत AI का भविष्य आ रहा है। हमें डेटा को क्लाउड दिग्गजों को नहीं भेजने की आवश्यकता नहीं है, अपने पास मौजूद उपकरणों का उपयोग करके, हम शक्तिशाली निजी व्याख्या क्लस्टर बना सकते हैं।

