30 లక్షలు మాత్రమే ఖర్చు? 4 512GB Mac Studioలపై వ్యక్తిగత AI సూపర్ కంప్యూటర్ను నిర్మించడం, ట్రిలియన్ ప్యారామీటర్ల Kimi-K2.5 స్థానికంగా అమర్చే మార్గదర్శకాలు
30 లక్షలు మాత్రమే ఖర్చు? 4 512GB Mac Studioలపై వ్యక్తిగత AI సూపర్ కంప్యూటర్ను నిర్మించడం, ట్రిలియన్ ప్యారామీటర్ల Kimi-K2.5 స్థానికంగా అమర్చే మార్గదర్శకాలు
ఈ పెద్ద మోడల్ ఉల్లాసం కాలంలో, మనందరికీ ఒక కల ఉంది: స్థానికంగా GPT-5 స్థాయికి సమానమైన ట్రిలియన్ ప్యారామీటర్ల మోడల్ను నడపడం. కానీ వాస్తవం కఠినమైనది, ట్రిలియన్ ప్యారామీటర్ల మోడల్ 4-బిట్ క్వాంటైజేషన్ అయినా, విస్తృతమైన గ్రాఫిక్ మెమరీ అవసరం. H100, B200 చాలా ఖరీదైనవి, కొనుగోలు చేయలేము అంటే ఏమి చేయాలి?
ఈ రోజు JamePeng 4 పూర్తి కాన్ఫిగరేషన్ M3 Ultra Mac Studioలను ఉపయోగించి, EXO+MLX మరియు Thunderbolt 5 ద్వారా, 2TB సమాన మెమరీ కలిగిన స్థానిక AI సూపర్ కంప్యూటర్ను నిర్మించడానికి సహాయపడతారు! లక్ష్యం ఒకటే: స్థానికంగా Kimi-K2.5 ట్రిలియన్ ప్యారామీటర్ల పెద్ద మోడల్ను నడపడం.
ఎందుకు ఇంత కష్టపడాలి?
కేవలం కూల్ కావడానికి కాదు, డేటా గోప్యత మరియు అత్యంత స్థానిక నియంత్రణ కోసం.
కోర్ ఆయుధం EXO (GitHub: exo-explore/exo), ఇది RDMA (దూర ప్రత్యక్ష మెమరీ యాక్సెస్)ను మద్దతు ఇస్తుంది, ఇది 4 Macల సమాన మెమరీని ఒక పెద్ద గ్రాఫిక్ మెమరీ పూల్గా విలీనం చేయగలదు.
హార్డ్వేర్ జాబితా: 4 Mac Studio (M3 Ultra, 512GB మెమరీ వెర్షన్), మొత్తం గ్రాఫిక్ మెమరీ సుమారు 2TB, Thunderbolt 5 (120Gbps బ్యాండ్విడ్) ఉపయోగించి కనెక్ట్ చేయబడింది, వ్యవస్థకు macOS Tahoe 26.2 లేదా కొత్త వెర్షన్ అవసరం.
దశ 1: RDMA మద్దతు ప్రారంభించండి
ప్రతి Macలో క్రింది చర్యలు చేయండి:
- Macని ఆపి, పునరుద్ధరణ మోడ్లోకి వెళ్లండి (పవర్ బటన్ను నొక్కి, "Options" > "Continue"ని ఎంచుకోండి)
- టెర్మినల్ను తెరిచి, ఈ ఆదేశాన్ని అమలు చేయండి: bputil -a rdma
- Macని పునఃప్రారంభించండి
- నిర్ధారించండి: systemprofiler SPThunderboltDataType RDMA ప్రారంభించబడిందని తనిఖీ చేయండి
దశ 2: EXOని ఇన్స్టాల్ చేయండి
macOS యాప్ ఇన్స్టాలేషన్: GitHub నుండి EXO-version.dmgని డౌన్లోడ్ చేసి, ఇన్స్టాల్ చేసి నడపండి. డాష్బోర్డులో ఇతర Mac IPని జోడించండి.
సోర్స్ కోడ్ ఇన్స్టాలేషన్:
- Homebrewని ఇన్స్టాల్ చేయండి
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
దశ 3: భౌతిక కనెక్షన్ మరియు టోపాలజీ
Wi-Fi ద్వారా నెట్వర్క్ చేయవద్దు! Wi-Fi 7 అయినా సరే కాదు. ట్రిలియన్ మోడల్ యొక్క ఇన్ఫరెన్స్ బ్యాండ్విడ్కు చాలా సున్నితంగా ఉంటుంది. దయచేసి Thunderbolt 5 కేబుల్ను ఉపయోగించి, ఒక Macను ప్రధాన నోడుగా (మాస్టర్) మరియు మిగతా మూడు Macలను పని నోడులుగా (వర్కర్) ఉంచండి. స్టార్ టోపాలజీ లేదా చైన్ కనెక్షన్ సిఫారసు చేయబడింది.
EXO డాష్బోర్డులో, మీరు 4 పరికరాలు మొత్తం ఆన్లైన్లో ఉన్నాయని చూడాలి, మొత్తం మెమరీ పూల్ 2048 GBగా చూపించాలి.
దశ 4: MLX కమ్యూనిటీ ఎడిషన్ Kimi-K2.5ని డౌన్లోడ్ చేసి నడపండి
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. ఇన్ఫరెన్స్ ఇంజిన్ను ప్రారంభించండి:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx ఆదేశం వివరణ:
- --model: మోడల్ డైరెక్టరీని సూచిస్తుంది
- --quant 4: మెమరీ వినియోగాన్ని తగ్గించడానికి 4-బిట్ క్వాంటైజేషన్ను ఉపయోగిస్తుంది
- --shards auto: EXO ఆటోమేటిక్గా మోడల్ను తెలివిగా విభజిస్తుంది
- --engine mlx: M3 Ultra యొక్క 76-కోర్ GPU మరియు న్యూరల్ ఇంజిన్ను ఇన్ఫరెన్స్ కోసం పిలుస్తుంది
తుది ఫలితం మరియు వాస్తవ పరీక్ష
టర్మినల్ "Ready" అని చూపించినప్పుడు, మీకు మీ స్వంత AI సూపర్ కంప్యూటర్ ఉంది.
ప్రీఫిల్ దశ: 4 Macల ఫ్యాన్లు కొంచెం వేగంగా తిరుగుతున్నాయి (M3 Ultra యొక్క శక్తి సామర్థ్యం వల్ల, అవి ఎగరడం లేదు).
జనరేషన్ దశ: టోకెన్ ఒకదాని తర్వాత ఒకటి బయటకు వస్తున్నాయి.
వేగం: H100 క్లస్టర్ను మించలేకపోయినా, Thunderbolt 5 యొక్క RDMA మద్దతు వల్ల, టోకెన్ జనరేషన్ వేగం 17-28 tokens/s వరకు చేరవచ్చు. ఇది ట్రిలియన్ ప్యారామీటర్ల మోడల్కు పూర్తిగా పరస్పర సంబంధం కలిగినది!
సమీక్ష
ఈ పద్ధతి ఖరీదైనది, కానీ ఇది Apple Silicon + ఓపెన్ సోర్స్ కమ్యూనిటీ యొక్క ప్రయత్నాల ద్వారా, కేంద్రం లేని AI యొక్క భవిష్యత్తు వస్తున్నదని నిరూపిస్తుంది. మేము డేటాను క్లౌడ్ దిగ్గజాలకు పంపించాల్సిన అవసరం లేదు, చేతిలో ఉన్న పరికరాలను ఉపయోగించి, శక్తివంతమైన ప్రైవేట్ ఇన్ఫరెన్స్ క్లస్టర్ను నిర్మించవచ్చు.

