৩০ লাখ টাকায়? ৪টি ৫১২জিবি Mac Studio-তে ব্যক্তিগত AI সুপারকম্পিউটার নির্মাণ, ট্রিলিয়ন প্যারামিটার Kimi-K2.5 স্থানীয় স্থাপনার গাইড
৩০ লাখ টাকায়? ৪টি ৫১২জিবি Mac Studio-তে ব্যক্তিগত AI সুপারকম্পিউটার নির্মাণ, ট্রিলিয়ন প্যারামিটার Kimi-K2.5 স্থানীয় স্থাপনার গাইড
এই বড় মডেলগুলোর উন্মাদনার যুগে, আমাদের সবার একটি স্বপ্ন আছে: স্থানীয়ভাবে একটি GPT-5 স্তরের ট্রিলিয়ন প্যারামিটার মডেল চালানো। কিন্তু বাস্তবতা কঠোর, ট্রিলিয়ন প্যারামিটার মডেলগুলি এমনকি ৪-বিট কোয়ান্টাইজেশনেও বিশাল পরিমাণ ভিডিও মেমরি প্রয়োজন। H100, B200 খুবই ব্যয়বহুল, কিনতে পারলে কি হবে?
আজ JamePeng আমাদের ৪টি সম্পূর্ণ কনফিগার M3 Ultra Mac Studio ব্যবহার করে, EXO+MLX এবং Thunderbolt 5 এর মাধ্যমে, একটি ২TB ইউনিফায়েড মেমরির স্থানীয় AI সুপারকম্পিউটার তৈরি করতে নিয়ে আসছে! লক্ষ্য একটাই: স্থানীয়ভাবে Kimi-K2.5 ট্রিলিয়ন প্যারামিটার বড় মডেল চালানো।
কেন এত ঝামেলা?
শুধু কুল হওয়ার জন্য নয়, বরং ডেটা গোপনীয়তা এবং চূড়ান্ত স্থানীয় নিয়ন্ত্রণের জন্য।
কোর অস্ত্র হল EXO (GitHub: exo-explore/exo), এটি RDMA (রিমোট ডাইরেক্ট মেমরি অ্যাক্সেস) সমর্থন করে, যা ৪টি Mac এর ইউনিফায়েড মেমরিকে একটি বিশাল ভিডিও মেমরি পুলে একত্রিত করতে পারে।
হার্ডওয়্যার তালিকা: ৪টি Mac Studio (M3 Ultra, ৫১২GB মেমরি সংস্করণ), মোট ভিডিও মেমরি প্রায় ২TB, সংযোগের জন্য Thunderbolt 5 (১২০Gbps ব্যান্ডউইথ) ব্যবহার করুন, সিস্টেমের প্রয়োজন macOS Tahoe 26.2 বা নতুন সংস্করণ।
পদক্ষেপ ১: RDMA সমর্থন সক্ষম করুন
প্রতিটি Mac-এ কাজ করুন:
- Mac বন্ধ করুন, পুনরুদ্ধার মোডে প্রবেশ করুন (পাওয়ার বোতাম ধরে রাখুন, "Options" > "Continue" নির্বাচন করুন)
- Terminal খুলুন, চালান: bputil -a rdma
- Mac পুনরায় চালু করুন
- যাচাই করুন: systemprofiler SPThunderboltDataType RDMA সক্ষম কিনা পরীক্ষা করুন
পদক্ষেপ ২: EXO ইনস্টল করুন
macOS অ্যাপ ইনস্টলেশন: GitHub থেকে EXO-version.dmg ডাউনলোড করুন, ইনস্টল এবং চালান। Dashboard খুলুন এবং অন্যান্য Mac IP যোগ করুন।
সোর্স কোড ইনস্টলেশন:
- Homebrew ইনস্টল করুন
- git clone https://github.com/exo-explore/exo.git
- pip install -e .
- exo start
পদক্ষেপ তিন: শারীরিক সংযোগ এবং টপোলজি
Wi-Fi ব্যবহার করে নেটওয়ার্ক করবেন না! এমনকি Wi-Fi 7 ও নয়। ট্রিলিয়ন মডেলের ইনফারেন্স ব্যান্ডউইথের জন্য অত্যন্ত সংবেদনশীল। Thunderbolt 5 কেবল ব্যবহার করুন, একটি Mac কে মাস্টার নোড (Master) হিসেবে এবং অন্যান্য তিনটি কাজের নোড (Worker) হিসেবে ব্যবহার করুন। স্টার টপোলজি বা চেইন সংযোগের সুপারিশ করা হয়।
EXO Dashboard-এ, আপনি ৪টি ডিভাইস অনলাইনে দেখতে পাবেন, মোট মেমরি পুল ২০৪৮ GB হিসেবে প্রদর্শিত হবে।
পদক্ষেপ চার: MLX কমিউনিটি সংস্করণ Kimi-K2.5 ডাউনলোড এবং চালান
pip install huggingfacehub huggingface-cli download mlx-community/Kimi-K2.5 --local-dir ./models/mlx-community/Kimi-K2.5
exo run --model ./models/mlx-community/Kimi-K2.5 --quant 4 --shards auto --engine mlx কমান্ড বিশ্লেষণ:
- --model: মডেল ডিরেক্টরির দিকে নির্দেশ করে
- --quant 4: মেমরি ব্যবহারের জন্য ৪-বিট কোয়ান্টাইজেশন ব্যবহার করে
- --shards auto: EXO স্বয়ংক্রিয়ভাবে মডেলটি স্মার্টভাবে ভাগ করে
- --engine mlx: M3 Ultra এর ৭৬-কোর GPU এবং নিউরাল ইঞ্জিনকে ইনফারেন্সের জন্য কল করে
চূড়ান্ত ফলাফল এবং বাস্তব পরীক্ষা
যখন টার্মিনাল Ready দেখায়, তখন আপনার কাছে একটি নিজস্ব AI সুপারকম্পিউটার রয়েছে।
প্রিফিল (Prefill) পর্যায়: ৪টি Mac এর ফ্যানগুলি সামান্য গতিতে বাড়তে শুরু করে (M3 Ultra এর শক্তি দক্ষতার কারণে, এটি উড়ে যাবে না)।
জেনারেশন (Generation) পর্যায়: টোকেন একের পর এক বের হতে শুরু করে।
গতি: যদিও H100 ক্লাস্টারের তুলনায় কম, Thunderbolt 5 এর RDMA সমর্থনের কারণে, টোকেন উৎপাদনের গতি ১৭-২৮ tokens/s এ পৌঁছাতে পারে। এটি একটি ট্রিলিয়ন প্যারামিটার মডেলের জন্য সম্পূর্ণরূপে ইন্টারঅ্যাকটিভ!
সারসংক্ষেপ
এই পরিকল্পনাটি অবশ্যই সস্তা নয়, তবে এটি প্রমাণ করে যে Apple Silicon + ওপেন সোর্স কমিউনিটির প্রচেষ্টার মাধ্যমে, বিকেন্দ্রীকৃত AI এর ভবিষ্যৎ আসছে। আমাদের ক্লাউড জায়ান্টদের কাছে ডেটা পাঠানোর প্রয়োজন নেই, আমাদের হাতে থাকা ডিভাইসগুলি ব্যবহার করে, আমরা শক্তিশালী ব্যক্তিগত ইনফারেন্স ক্লাস্টার তৈরি করতে পারি।

