खर्च फक्त 30 लाख? 4 512GB Mac Studio वर वैयक्तिक AI सुपरकंप्यूटर तयार करण्यासाठी, ट्रिलियन पॅरामीटर Kimi-K2.5 स्थानिक तैनाती मार्गदर्शक
खर्च फक्त 30 लाख? 4 512GB Mac Studio वर वैयक्तिक AI सुपरकंप्यूटर तयार करण्यासाठी, ट्रिलियन पॅरामीटर Kimi-K2.5 स्थानिक तैनाती मार्गदर्शक
या मोठ्या मॉडेलच्या वेगवान युगात, आपल्याला एक स्वप्न आहे: स्थानिक स्तरावर GPT-5 स्तराच्या ट्रिलियन पॅरामीटर मॉडेल चालवणे. पण वास्तव कठोर आहे, ट्रिलियन पॅरामीटरचे मॉडेल 4-bit क्वांटायझेशनसह देखील प्रचंड व्हिडिओ मेमरीची आवश्यकता आहे. H100, B200 खूप महाग आहेत, खरेदी करू शकत नाही तर काय करावे?
आज JamePeng आपल्याला 4 पूर्ण कॉन्फिगर केलेल्या M3 Ultra Mac Studio च्या साहाय्याने, EXO+MLX आणि Thunderbolt 5 चा वापर करून, 2TB एकत्रित मेमरी असलेला स्थानिक AI सुपरकंप्यूटर तयार करण्यास मदत करेल! उद्दिष्ट एकच आहे: स्थानिक स्तरावर Kimi-K2.5 ट्रिलियन पॅरामीटर मोठ्या मॉडेलला चालवणे.
का हे सर्व करावे?
फक्त थंडपणा साठी नाही, तर डेटा गोपनीयता आणि अत्यंत स्थानिक नियंत्रण हवे आहे.
मुख्य साधन म्हणजे EXO (GitHub: exo-explore/exo), हे RDMA (दूरस्थ थेट मेमरी प्रवेश) समर्थन करते, जे 4 Mac च्या एकत्रित मेमरीला एक मोठ्या व्हिडिओ मेमरी पूलमध्ये विलीन करू शकते.
हार्डवेअर यादी: 4 Mac Studio (M3 Ultra, 512GB मेमरी आवृत्ती), एकूण व्हिडिओ मेमरी सुमारे 2TB, Thunderbolt 5 (120Gbps बँडविड्थ) चा वापर करून कनेक्ट केलेले, प्रणालीला macOS Tahoe 26.2 किंवा नवीन आवृत्ती आवश्यक आहे.
पाऊल 1: RDMA समर्थन सक्षम करा
प्रत्येक Mac वर कार्य करा:
- Mac बंद करा, पुनर्प्राप्ती मोडमध्ये प्रवेश करा (पॉवर बटण दाबा, "Options" > "Continue" निवडा)
- Terminal उघडा, चालवा: bputil -a rdma
- Mac पुन्हा सुरू करा
- पडताळा: systemprofiler SPThunderboltDataType RDMA सक्षम आहे का ते तपासा
पाऊल 2: EXO स्थापित करा
macOS App स्थापना: GitHub वरून EXO-version.dmg डाउनलोड करा, स्थापित करा आणि चालवा. Dashboard उघडा आणि इतर Mac IP जोडा.
स्रोत कोड स्थापना:
- Homebrew स्थापित करा
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
पाऊल 3: भौतिक कनेक्शन आणि टोपोलॉजी
Wi-Fi वापरून नेटवर्क तयार करू नका! Wi-Fi 7 असले तरीही चालणार नाही. ट्रिलियन मॉडेलच्या अनुमानासाठी बँडविड्थ अत्यंत संवेदनशील आहे. कृपया Thunderbolt 5 केबल वापरा, एक Mac मुख्य नोड (Master) म्हणून ठेवा, इतर तीन कार्य नोड (Worker) म्हणून ठेवा. तारेच्या आकाराची टोपोलॉजी किंवा साखळी कनेक्शन शिफारस केली जाते.
EXO Dashboard मध्ये, तुम्हाला 4 उपकरणे सर्व ऑनलाइन असल्याचे दिसले पाहिजे, एकूण मेमरी पूल 2048 GB म्हणून दर्शविला जातो.
पाऊल 4: MLX सामुदायिक आवृत्ती Kimi-K2.5 डाउनलोड आणि चालवा
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. अनुमान इंजिन सुरू करा:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx आदेशाचे विश्लेषण:
- --model: मॉडेल निर्देशिकेकडे निर्देशित करते
- --quant 4: मेमरी वापर कमी करण्यासाठी 4-bit क्वांटायझेशन वापरा
- --shards auto: EXO स्वयंचलितपणे स्मार्टपणे मॉडेल विभाजित करते
- --engine mlx: M3 Ultra च्या 76-कोर GPU आणि न्यूरल इंजिनला अनुमानासाठी कॉल करते
अंतिम परिणाम आणि वास्तविक मोजमाप
जेव्हा टर्मिनल Ready दर्शवितो, तेव्हा तुम्हाला तुमचा स्वतःचा AI सुपरकंप्यूटर मिळाला आहे.
पूर्व भरणा (Prefill) टप्पा: 4 Mac च्या पंखे थोडे वेगाने चालू होतात (M3 Ultra च्या ऊर्जा कार्यक्षमतेमुळे, ते उडणार नाहीत).
उत्पादन (Generation) टप्पा: टोकन एकामागोमाग येत आहेत.
गती: H100 क्लस्टरच्या तुलनेत कमी असले तरी, Thunderbolt 5 च्या RDMA च्या मदतीमुळे, टोकन उत्पादनाची गती 17-28 tokens/s पर्यंत पोहोचू शकते. हे ट्रिलियन पॅरामीटर मॉडेलसाठी पूर्णपणे संवादात्मक आहे!
सारांश
ही योजना नक्कीच स्वस्त नाही, पण ती सिद्ध करते की Apple Silicon + ओपन-सोर्स समुदायाच्या प्रयत्नांमुळे, विकेंद्रित AI चा भविष्य येत आहे. आपल्याला डेटा क्लाउड दिग्गजांना पाठवण्याची आवश्यकता नाही, आपल्या हातातील उपकरणांचा वापर करून, आपण शक्तिशाली खाजगी अनुमान क्लस्टर तयार करू शकतो.

