30,000 ლარი? 4 ცალი 512GB Mac Studio-ზე პირადი AI სუპერკომპიუტერის შექმნის, ტრილიონი პარამეტრის Kimi-K2.5 ადგილობრივი განთავსების სახელმძღვანელო
30,000 ლარი? 4 ცალი 512GB Mac Studio-ზე პირადი AI სუპერკომპიუტერის შექმნის, ტრილიონი პარამეტრის Kimi-K2.5 ადგილობრივი განთავსების სახელმძღვანელო
ამ დიდ მოდელების ეპოქაში, ჩვენ ყველას გვაქვს ოცნება: ადგილობრივად გაწვდოს GPT-5-ის დონეზე ტრილიონი პარამეტრის მოდელი. მაგრამ რეალობა სასტიკია, ტრილიონი პარამეტრის მოდელისთვის, თუნდაც 4-bit კვოტით, საჭიროა უზარმაზარი ვიდეო მეხსიერება. H100, B200 ძალიან ძვირია, როგორ უნდა ვიყიდოთ?
დღეს JamePeng გვიჩვენებს, როგორ უნდა შევქმნათ 2TB ერთიანი მეხსიერება ადგილობრივ AI სუპერკომპიუტერში 4 ცალი სრულად აღჭურვილი M3 Ultra Mac Studio-ს საშუალებით, EXO+MLX და Thunderbolt 5-ის გამოყენებით! მიზანი მხოლოდ ერთი არის: ადგილობრივად გაწვდოს Kimi-K2.5 ტრილიონი პარამეტრის დიდი მოდელი.
რატომ უნდა ვაკეთოთ ეს?
ეს მხოლოდ სტილისთვის არ არის, არამედ მონაცემების კონფიდენციალურობისა და უკიდურესი ადგილობრივი კონტროლის უფლებების გამო.
მთავარი იარაღი არის EXO (GitHub: exo-explore/exo), რომელიც მხარს უჭერს RDMA-ს (შორეული პირდაპირი მეხსიერების წვდომა), რაც საშუალებას იძლევა 4 Mac-ის ერთიანი მეხსიერება გაწვდოს ერთ უზარმაზარ ვიდეო მეხსიერების აუზში.
ხარისხის სია: 4 ცალი Mac Studio (M3 Ultra, 512GB მეხსიერების ვერსია), საერთო ვიდეო მეხსიერება დაახლოებით 2TB, დაკავშირება ხდება Thunderbolt 5-ის გამოყენებით (120Gbps სიჩქარე), სისტემა უნდა იყოს macOS Tahoe 26.2 ან ახალი ვერსია.
ნაბიჯი 1: გააქტიურეთ RDMA მხარდაჭერა
ყოველ Mac-ზე მოქმედება:
- გამორთეთ Mac, შედით აღდგენის რეჟიმში (დაჭერით ენერგიის ღილაკი, აირჩიეთ "Options" > "Continue")
- გახსენით Terminal, გაწვდეთ: bputil -a rdma
- გადატვირთეთ Mac
- შეამოწმეთ: systemprofiler SPThunderboltDataType RDMA-ს გააქტიურების შესამოწმებლად
ნაბიჯი 2: დააინსტალირეთ EXO
macOS აპლიკაციის ინსტალაცია: ჩამოტვირთეთ EXO-version.dmg GitHub-დან, დააინსტალირეთ და გაწვდეთ. გახსენით Dashboard და დაამატეთ სხვა Mac IP.
წყარო კოდის ინსტალაცია:
- დააინსტალირეთ Homebrew
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
ნაბიჯი 3: ფიზიკური კავშირი და ტოპოლოგია
არ გამოიყენოთ Wi-Fi ქსელისთვის! თუნდაც Wi-Fi 7 არ გამოდგება. ტრილიონი მოდელის დასკვნა უკიდურესად მგრძნობიარეა სიჩქარის მიმართ. გთხოვთ გამოიყენოთ Thunderbolt 5 კაბელი, ერთი Mac როგორც მთავარი узел (Master), სხვა სამი როგორც სამუშაო узел (Worker). რეკომენდებულია ვარსკვლავის ტოპოლოგია ან ჯაჭვური კავშირი.
EXO Dashboard-ში, თქვენ უნდა ნახოთ 4 მოწყობილობა მთლიანად ონლაინ, საერთო მეხსიერების აუზი 2048 GB.
ნაბიჯი 4: ჩამოტვირთეთ და გაწვდეთ MLX საზოგადოებრივი ვერსია Kimi-K2.5
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5 2. გაწვდეთ დასკვნის ძრავა:
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx ბრძანების განმარტება:
- --model: მიუთითებს მოდელის დირექტორიაზე
- --quant 4: 4-bit კვოტის გამოყენება მეხსიერების გამოყენების შემცირებისათვის
- --shards auto: EXO ავტომატურად ჭკვიანურად იყოფს მოდელს
- --engine mlx: M3 Ultra-ის 76-ბირთვიანი GPU და Neural Engine-ის გამოყენება დასკვნისთვის
საბოლოო შედეგი და რეალური ტესტირება
როდესაც ტერმინალი აჩვენებს Ready, თქვენ გაქვთ თქვენი საკუთარი AI სუპერკომპიუტერი.
წინასწარ შევსების (Prefill) ეტაპი: 4 Mac-ის ვენტილატორები იწყებენ მსუბუქად აჩქარებას (M3 Ultra-ის ენერგოეფექტურობის წყალობით, ისინი არ აფრინდებიან).
შექმნის (Generation) ეტაპი: Token-ები ერთის შემდეგ ერთი გამოდის.
სიჩქარე: მიუხედავად იმისა, რომ H100 კლასტერს ვერ შეედრება, Thunderbolt 5-ის RDMA მხარდაჭერის წყალობით, Token-ის შექმნის სიჩქარე 17-28 tokens/s-მდე აღწევს. ეს ტრილიონი პარამეტრის მოდელისთვის სრულიად ინტერქტივულია!
დასკვნა
ეს სისტემა ნამდვილად არ არის იაფი, მაგრამ ის ადასტურებს, რომ Apple Silicon + ღია წყაროების საზოგადოების ძალისხმევის წყალობით, ცენტრალიზებული AI-ის მომავალი მოდის. ჩვენ არ გვჭირდება მონაცემების გადაცემა ღრუბლოვან გიგანტებზე, ხელთ არსებული მოწყობილობების გამოყენებით, შეგვიძლია შევქმნათ ძლიერი კერძო დასკვნის კლასტერი.

