ખર્ચ માત્ર 30 લાખ? 4 ટુકડાઓ 512GB Mac Studio પર વ્યક્તિગત AI સુપરકમ્પ્યુટર બનાવવાની માર્ગદર્શિકા, ટ્રિલિયન પેરામીટર Kimi-K2.5 સ્થાનિક ડિપ્લોયમેન્ટ
ખર્ચ માત્ર 30 લાખ? 4 ટુકડાઓ 512GB Mac Studio પર વ્યક્તિગત AI સુપરકમ્પ્યુટર બનાવવાની માર્ગદર્શિકા, ટ્રિલિયન પેરામીટર Kimi-K2.5 સ્થાનિક ડિપ્લોયમેન્ટ
આ મોટા મોડેલના ઉત્સાહના યુગમાં, અમારે બધા પાસે એક સપનું છે: સ્થાનિક સ્તરે GPT-5 સ્તરના ટ્રિલિયન પેરામીટર મોડેલ ચલાવવું. પરંતુ વાસ્તવિકતા કઠોર છે, ટ્રિલિયન પેરામીટર મોડેલને 4-બિટ ક્વાન્ટાઇઝેશન હોવા છતાં, તેને વિશાળ મેમરીની જરૂર છે. H100, B200 ખૂબ જ મોંઘા છે, શું કરવું?
આજે JamePeng અમને 4 ટુકડાઓ સંપૂર્ણ સજ્જ M3 Ultra Mac Studio નો ઉપયોગ કરીને, EXO+MLX અને થંડરબોલ્ટ 5 દ્વારા, 2TB એકીકૃત મેમરી ધરાવતી સ્થાનિક AI સુપરકમ્પ્યુટર બનાવવામાં મદદ કરશે! લક્ષ્ય માત્ર એક જ છે: સ્થાનિક સ્તરે Kimi-K2.5 ટ્રિલિયન પેરામીટર મોટા મોડેલ ચલાવવું.
કેમ આ બધું કરવું?
માત્ર કૂલ બનવા માટે નહીં, પરંતુ ડેટા ગોપનીયતા અને અતિશય સ્થાનિક નિયંત્રણ માટે.
મુખ્ય હથિયાર EXO (GitHub: exo-explore/exo) છે, જે RDMA (દૂરના સીધા મેમરી ઍક્સેસ) ને સપોર્ટ કરે છે, જે 4 ટુકડાઓના Mac ની એકીકૃત મેમરીને એક વિશાળ મેમરી પૂલમાં મિશ્રિત કરી શકે છે.
હાર્ડવેર યાદી: 4 ટુકડાઓ Mac Studio (M3 Ultra, 512GB મેમરી આવૃત્તિ), કુલ મેમરી લગભગ 2TB, કનેક્શન માટે થંડરબોલ્ટ 5 (120Gbps બૅન્ડવિડ્થ) નો ઉપયોગ, સિસ્ટમને macOS Tahoe 26.2 અથવા નવીનતમ આવૃત્તિની જરૂર છે.
પગલું 1: RDMA સપોર્ટ સક્રિય કરો
દરેક Mac પર કાર્ય કરો:
- Mac બંધ કરો, પુનઃપ્રાપ્તિ મોડમાં જાઓ (પાવર બટન દબાવીને, "વિકલ્પો" > "ચાલુ રાખો" પસંદ કરો)
- ટર્મિનલ ખોલો, ચલાવો: bputil -a rdma
- Mac પુનઃપ્રારંભ કરો
- ચકાસો: systemprofiler SPThunderboltDataType RDMA સક્રિય છે કે નહીં તે તપાસો
પગલું 2: EXO સ્થાપિત કરો
macOS એપ્લિકેશન સ્થાપન: GitHub પરથી EXO-version.dmg ડાઉનલોડ કરો, સ્થાપિત કરો અને ચલાવો. ડેશબોર્ડ ખોલીને અન્ય Mac IP ઉમેરો.
સોર્સ કોડ સ્થાપન:
- Homebrew સ્થાપિત કરો
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
પગલું 3: ભૌતિક કનેક્શન અને ટોપોલોજી
Wi-Fi નો ઉપયોગ કરીને નેટવર્ક ન બનાવો! ભલે તે Wi-Fi 7 હોય પણ નહીં. ટ્રિલિયન મોડેલની અનુમાન માટે બૅન્ડવિડ્થ ખૂબ જ સંવેદનશીલ છે. કૃપા કરીને થંડરબોલ્ટ 5 કેબલનો ઉપયોગ કરો, એક Mac ને મુખ્ય નોડ (માસ્ટર) તરીકે અને અન્ય ત્રણને કાર્ય નોડ (વર્કર) તરીકે બનાવો. તારા આકારની ટોપોલોજી અથવા શ્રેણીબદ્ધ કનેક્શનની ભલામણ કરવામાં આવે છે.
EXO ડેશબોર્ડમાં, તમને 4 ઉપકરણો તમામ ઓનલાઇન જોવા મળવા જોઈએ, કુલ મેમરી પૂલ 2048 GB તરીકે દર્શાવવું જોઈએ.
પગલું 4: MLX સમુદાય આવૃત્તિ Kimi-K2.5 ડાઉનલોડ અને ચલાવો
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.52. અનુમાન એન્જિન શરૂ કરો:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx આ આદેશની વ્યાખ્યા:
- --model: મોડેલ ડિરેક્ટરીને સંકેત આપે છે
- --quant 4: મેમરી ઉપયોગ ઘટાડવા માટે 4-બિટ ક્વાન્ટાઇઝેશનનો ઉપયોગ કરે છે
- --shards auto: EXO સ્વચાલિત રીતે મોડેલને બુટલોડ કરે છે
- --engine mlx: M3 Ultra ના 76 કોર GPU અને ન્યુરલ એન્જિનને અનુમાન માટે બોલાવે છે
અંતિમ અસર અને વાસ્તવિક પરીક્ષણ
જ્યારે ટર્મિનલ "તૈયાર" દર્શાવે છે, ત્યારે તમે તમારી પોતાની AI સુપરકમ્પ્યુટર ધરાવ છો.
પ્રિફિલ સ્ટેજ: 4 Mac ના પંખા ધીમે ધીમે ઝડપ વધારવા લાગ્યા (M3 Ultra ની ઊર્જા કાર્યક્ષમતા માટે, તે ઉંચી ઉડાન નહીં કરે).
જનરેશન સ્ટેજ: ટોકન એક પછી એક બહાર આવે છે.
ગતિ: જો કે H100 ક્લસ્ટર સાથે સરખાવી શકાય નહીં, પરંતુ થંડરબોલ્ટ 5 ના RDMA સપોર્ટના કારણે, ટોકન જનરેશનની ગતિ 17-28 ટોકન/સેકન્ડ સુધી પહોંચી શકે છે. આ ટ્રિલિયન પેરામીટર મોડેલ માટે સંપૂર્ણપણે ઇન્ટરેક્ટિવ છે!
સારાંશ
આ યોજના ચોક્કસપણે સસ્તી નથી, પરંતુ તે સાબિત કરે છે કે Apple Silicon + ઓપન સોર્સ સમુદાયના પ્રયત્નો હેઠળ, કેન્દ્રિત AI નું ભવિષ્ય આવી રહ્યું છે. અમારે ડેટા ક્લાઉડના વિશાળકોને આપવાની જરૂર નથી, હાથમાંના ઉપકરણોનો ઉપયોગ કરીને, અમે શક્તિશાળી ખાનગી અનુમાન ક્લસ્ટર બનાવી શકીએ છીએ.

