智谱GLM-5 এবার ওপেন সোর্স, উচ্চ স্তরের প্রোগ্রামাররাও এখন বিপদে...
সত্যি বলছি, ২০২৬ সালের এআই, ২৫ সালের চেয়েও অনেক বেশি উন্মাদ।
সম্প্রতি আমি নিজে ১৬ ঘণ্টা এআই-এর মধ্যে ডুবে থাকি, কিন্তু এআই-এর অগ্রগতির সঙ্গে তাল মেলাতে পারছি না। মনে হয় যেন প্রতিদিন চোখ খোলার সঙ্গে সঙ্গেই পৃথিবী বদলে যাচ্ছে।
গতকাল গভীর রাতে, জিহু (Zhipu) আবার একটি বড় পদক্ষেপ নিয়েছে, সরাসরি তাদের বর্তমানের সবচেয়ে শক্তিশালী ফ্ল্যাগশিপ মডেল GLM-5 কে ওপেন সোর্স করে দিয়েছে।
বৈশ্বিক কর্তৃপক্ষের আর্টিফিশিয়াল অ্যানালাইসিস (Artificial Analysis) তালিকায়, GLM-5 জেমিনিকে (Gemini) ছাড়িয়ে বিশ্বে চতুর্থ এবং ওপেন সোর্সে প্রথম স্থান অধিকার করেছে!

এটা সত্যিই আমার ধারণার মতোই, মনে আছে শেষবার যখন GLM-4.7 প্রকাশিত হয়েছিল, তখন আমি আমার লেখায় বন্ধুদের বলেছিলাম: আমার মনে হয় GLM-4.8 অথবা GLM-5 বসন্ত উৎসবের আগে প্রকাশিত হবে, ভাবিনি এটা সত্যি হবে, হা হা 😄
আর এইবার ভার্সন নম্বর আগের মতো 4.5, 4.6, 4.7 এর মতো সামান্য আপডেট নয়, সরাসরি 5.0 তে উন্নীত হয়েছে।
এর মানে, এটা কোনো ছোটখাটো পরিবর্তন নয়, এটা মূল ক্ষমতার একটি বিশাল অগ্রগতি।
প্রথমেই আপনাদের জানিয়ে দিই, এই GLM-5 এ কী কী আপডেট আছে:
সহজভাবে বলতে গেলে, আগের মডেলগুলো সাধারণত ভাইব কোডিং (Vibe Coding) নিয়ে ব্যস্ত ছিল, মানে একটি বাক্য তৈরি করা, কে কত সুন্দর ওয়েব স্পেশাল এফেক্ট তৈরি করতে পারে, কে একটি বাক্যে একটি দুর্দান্ত গেম তৈরি করতে পারে, সেটাই ছিল দেখার বিষয়।
কিন্তু GLM-5 এবার আর সে পথে হাঁটেনি (অবশেষে!), এটি বড় মডেলের ক্ষমতা কোড লেখা থেকে বাড়িয়ে একটি সিস্টেম তৈরি করতে সক্ষম হয়েছে।
এর মানে কী? এর মূল লক্ষ্য এখন আর সুন্দর ফ্রন্ট-এন্ড পেজ তৈরি করা নয়, বরং এটি একটি সিস্টেম আর্কিটেক্ট হিসেবে কাজ করতে পারে, যা নোংরা কাজ, ক্লান্তিকর কাজ এবং দীর্ঘ কাজ করতে সক্ষম।
এখানে এজেন্টিক ইঞ্জিনিয়ারিংয়ের (Agentic Engineering) উপর জোর দেওয়া হয়েছে, অর্থাৎ ইন্টেলিজেন্ট বডি ইঞ্জিনিয়ারিংয়ের ক্ষমতার উপর।
আমি অফিশিয়াল ডেটা দেখেছি, প্যারামিটার স্কেল 355B থেকে 744B (40 সক্রিয়) এ উন্নীত হয়েছে, প্রি-ট্রেনিং ডেটা 23T থেকে 28.5T এ উন্নীত হয়েছে।
SWE-bench-Verified নামক একটি স্বীকৃত প্রোগ্রামিং বেঞ্চমার্ক পরীক্ষায়, এর স্কোর 77.8, যা সরাসরি জেমিনি 3 প্রো-কে (Gemini 3 Pro) পিছনে ফেলে দিয়েছে, এবং বর্তমানে স্বীকৃত সবচেয়ে শক্তিশালী ক্লোজড সোর্স মডেল ক্লড ওপাস 4.5 (Claude Opus 4.5) এর প্রায় কাছাকাছি।

বর্তমানে z.ai তে এটি বিনামূল্যে ব্যবহার করা যাচ্ছে:

ওপেন সোর্স ঠিকানা:
GitHub: https://github.com/zai-org/GLM-5
Hugging Face: https://huggingface.co/zai-org/GLM-5
ModelScope: https://modelscope.cn/models/ZhipuAI/GLM-5
আসলে কয়েক দিন আগে, X এ হঠাৎ করে পনি (Pony) নামের একটি রহস্যময় মডেলের আবির্ভাব হয়।
তখন অনেক বন্ধুরাই অনুমান করছিল, এই পনি আসলে কী? নানা মুনির নানা মত।
আসলে পনি নামের মডেলটি হল GLM-5, আর এর নাম কেন পনি রাখা হয়েছে, সম্ভবত ঘোড়া বছর (Horse year) আসছে তাই 🤔।
আমিও সঙ্গে সঙ্গে OpenRouter থেকে পনিকে ক্লড কোডে (Claude Code) যুক্ত করে ব্যবহার করে দেখেছি, সত্যি বলতে এটা খুবই শক্তিশালী (X এ এর জনপ্রিয়তাও অনেক বেশি)।
মাত্র ৭ মিনিটে, এটি একটি API ইন্টারচেঞ্জ স্টেশন তৈরি করেছে!
যদিও এটি এখনও MVP ডেমো, তবে পেজের ফাংশনগুলো ইতিমধ্যেই সম্পূর্ণ, এবং এতে ব্যাক-এন্ড লজিক এবং ডেটাবেসও রয়েছে, ডেটা ডাইনামিক, ছোট হলেও সবকিছু আছে।
গভীরভাবে ব্যবহারের পর, আমি দেখেছি GLM-5 যখন পরিকল্পনা করে, তখন এর ধরন ক্লড ওপাসের (Claude Opus) মতোই।
যারা ক্লড ওপাসের সঙ্গে পরিচিত, তারা জানেন যে এটি কাজ করার আগে, একটি বিস্তারিত এবং যৌক্তিক পরিকল্পনা তৈরি করে দেয়।
GLM-5 এর মধ্যেও এখন এই ক্ষমতা রয়েছে।
উদাহরণস্বরূপ, আমার একটি কাজ আছে যা আমি সবসময় করতে চেয়েছি, কিন্তু অলসতার কারণে করে উঠতে পারিনি।
আমার কাছে জেমিনি (Gemini), চ্যাটজিপিটি (ChatGPT), কিমি (Kimi), জিহু (Zhipu) ইত্যাদি অনেকগুলো অ্যাকাউন্টের মেম্বারশিপ আছে।
সাধারণত যখন আমি কোনো প্রবন্ধ লিখি বা তথ্য খুঁজি, তখন আমি প্রায়ই একাধিক এআই-এর মতামত শুনতে চাই, এবং তাদের মধ্যে তুলনা করতে চাই।তাহলে আমাকে একাধিক ব্রাউজার উইন্ডো খুলতে হবে, বিভিন্ন উইন্ডোতে কপি করে পেস্ট করতে হবে এবং বারবার পাঠাতে হবে, তারপর ফলাফলের জন্য একের পর এক উইন্ডো পরিবর্তন করতে হবে।
যদিও এটা তেমন বড় কিছু নয়, তবে অনেকবার করলে সত্যিই বিরক্ত লাগে।
আমি ভাবছিলাম, এমন একটি ব্রাউজার প্লাগইন তৈরি করা সম্ভব কিনা, যা একটি উইন্ডোতে একত্রিত হয়ে এই চারটি এআই-এর ওয়েবপেজে একই সময়ে একটি প্রশ্ন পাঠাতে পারে এবং প্লাগইনটিতে সম্মিলিতভাবে উত্তর পেতে পারে?
কিন্তু এই জিনিসটি বেশ কঠিন, কারণ প্রতিটি এআই ওয়েবসাইটের গঠন আলাদা, এবং বিভিন্ন সুরক্ষা ব্যবস্থা রয়েছে, তাদের DOM গঠন বিশ্লেষণ করতে হবে।
তাই, আমি এই জটিল কাজটি GLM-5-কে দিয়েছি।
ক্লড কোডের প্ল্যান মোড চালু করে প্রথমে এটিকে একটি পরিকল্পনা করতে দিন।
তারপর এটি আমার সাথে যোগাযোগ করবে এবং আমার মতামত চাইবে:
অবশেষে, প্রাপ্ত পরিকল্পনাটি খুব বিস্তারিত, এটি সত্যিই অনেক দীর্ঘ, ৬৩৩ লাইন রয়েছে।
তারপর পরিকল্পনা অনুযায়ী কাজ শুরু করে দিলাম, ভাবিনি প্রথম ধাপে প্রোজেক্ট শুরু করতেই ৫০ মিনিটের বেশি সময় লাগবে।
এই প্রক্রিয়ার মধ্যে, এটি স্বয়ংক্রিয়ভাবে প্লে রাইট MCP টুল ব্যবহার করেছে, নিজের থেকে ব্রাউজার খুলেছে এবং সেই এআই ওয়েবসাইটগুলোতে ভিজিট করেছে।
এটি একজন সত্যিকারের প্রোগ্রামারের মতো, উপাদানগুলো পরীক্ষা করে, ইনপুট বক্স কোথায় আছে তা বিশ্লেষণ করে, সেন্ড বাটনের ক্লাস কী, কীভাবে রিটার্ন টেক্সট স্ট্রিম পেতে হয়... পুরো প্রক্রিয়াটি স্বয়ংক্রিয়, আমি একটি লাইনও কোড লিখিনি।
PS: স্ক্রিন রেকর্ড করতে ভুলে গেছি, কারণ আমি একই সময়ে অন্য উইন্ডোতে অন্য একটি কাজ করছিলাম।
অপেক্ষা করা সার্থক, আমি যেমনটি চেয়েছিলাম, একবার প্রশ্ন করে সমস্ত এআই থেকে একসাথে উত্তর পাওয়ার প্লাগইন, তেমনই তৈরি হয়েছে।
এটা সম্পূর্ণভাবে আমার প্রয়োজনীয় জিনিস।
এছাড়াও, আমি আগে একটি ডিজিটাল হিউম্যান মার্কেটিং ভিডিও তৈরির প্ল্যাটফর্ম তৈরি করেছিলাম।
পরে, আরও ভালো অভিজ্ঞতার জন্য, আমি ফ্রন্টএন্ডটি পুনরায় তৈরি করেছি, এবং এই পুনরায় তৈরি করার ফলে পুরো প্রোজেক্টটি একটি জগাখিচুড়ি হয়ে গিয়েছিল: ফ্রন্টএন্ড এবং ব্যাকএন্ড ইন্টারফেসের মধ্যে মিল ছিল না, ব্যাকএন্ডের কিছু পুরনো লজিক নতুন ফ্রন্টএন্ডের সাথে কাজ করছিল না, অনেক বাগ ছিল, যা ঠিক করা খুব কঠিন ছিল।
এইবার, আমি ক্লড কোডে প্ল্যান মোড চালু করে সরাসরি বাগ খোঁজা এবং বাগ ফিক্স করার কাজটি GLM-5-কে দিয়েছি।
প্রথমে একটি বিস্তারিত পরিকল্পনা তৈরি করা হয়েছে:
পরিকল্পনাটি সঠিক কিনা তা নিশ্চিত করার পরে, আমি এটিকে কাজ শুরু করতে বলি (এই প্রক্রিয়ায় ব্রাউজার MCP ব্যবহার করা হয়েছে)।
এটির কাজ করার গতি খুব বেশি নয়।
তবে মডেলের গতির কারণে নয়, অনেক সময় আমি দেখেছি টোকেন ব্যবহারের গতি এত দ্রুত যে চোখের পলকে কয়েক হাজারে পৌঁছে যায়।
কিন্তু কাজটি খুব জটিল হওয়ার কারণে, এটিকে ক্রমাগত আত্ম-বিশ্লেষণ করতে হয়, সরঞ্জাম ব্যবহার করতে হয় এবং পরীক্ষা চালাতে হয়।
কিছু সময় নির্ভরতা ডাউনলোড করতে বা কমান্ড চালানোর ক্ষেত্রেও ব্যয় হয়।
এই ফিক্সিং টাস্কটি পুরো ৪০ মিনিটের বেশি সময় ধরে চলেছে।
কিছু বন্ধু হয়তো বলতে পারেন, ৪০ মিনিট? আমি এর মধ্যে লিখে ফেলতাম।
আচ্ছা, এই ৪০ মিনিটে আমি স্ক্রিন রেকর্ডিং চালু করে ভিডিও দেখেছি, এমনকি কুকুরকে হাঁটাতে নিয়ে গেছি।
আর এটি একাগ্রভাবে আমার জন্য কাজ করছিল, এবং সেই কাজগুলো করছিল যা সবচেয়ে বেশি মাথাব্যথার কারণ, যেমন বাগ খোঁজা এবং পুনরায় গঠন করা।
এটি ধীরে কাজ করলেও, এর ফলস্বরূপ যে প্রভাব পাওয়া গেছে তা খুবই গুরুত্বপূর্ণ।
আমি যখন এটি চালালাম, তখন দেখলাম বেশিরভাগ সমস্যাই সমাধান হয়ে গেছে।
VCR দেখুন:
এখানে কিছু প্রভাব রয়েছে যা আমি পরে পরীক্ষা করার সময় ছোটখাটো বাগ খুঁজে পেয়েছি, এবং তারপর সেগুলোকে ঠিক করতে এবং অপ্টিমাইজ করতে বলেছি।
তবে বাগ ফিক্সিং এবং ফাংশন অপ্টিমাইজ করার ক্ষেত্রে, আমি সত্যিই এটির উপর ভরসা করতে পারি।
আগে অন্য এআই ব্যবহার করে বাগ ফিক্স করার সময়, আমি প্রায়শই চিন্তা করতাম যে বাগ আরও বাড়বে, এবং প্রোজেক্ট আরও এলোমেলো হয়ে যাবে, যা একটি সাধারণ সমস্যা ছিল।
আগে এই সমস্যা এড়ানোর জন্য, বিভিন্ন ইঞ্জিনিয়ারিং পদ্ধতি ব্যবহার করে এআইকে সীমাবদ্ধ করতে হতো।
যেমন প্রতিবার পরিবর্তনের সুযোগের উপর জোর দেওয়া, অথবা সেগুলোকে নিয়মের মধ্যে লেখা, অথবা প্রতিবার শুধুমাত্র একটি বাগ ঠিক করা, এবং প্রতিবার ঠিক করার পরে, অন্যান্য ফাংশনগুলো পরীক্ষা করতে হতো... মোটকথা এটা খুব ঝামেলার ছিল।
কিন্তু GLM-5 ব্যবহার করে বাগ ফিক্স করার অভিজ্ঞতা সম্পূর্ণ বদলে গেছে।
আমি শুধুমাত্র পরিস্থিতি বর্ণনা করি, ত্রুটি লগগুলো দেই, এবং আমি কী আশা করি তা বলি।
এটি প্রায় সবসময়ই একবার চেষ্টাতেই সফলভাবে ঠিক করতে পারে, এবং এটি অন্য ফাংশনগুলোকে প্রভাবিত করে না।
এমনকি, একটি কথোপকথনে, আমি সরাসরি পুরো প্রক্রিয়ার চারটি ভিন্ন বাগ একসাথে দিয়েছিলাম, এবং এটিও পরিষ্কারভাবে একটি একটি করে সব ঠিক করে দিয়েছে।
এই স্থিতিশীল অনুভূতি সত্যিই খুব আরামদায়ক।
আমি এখন GLM-5-কে যেকোনো জটিল ডেভেলপমেন্ট টাস্ক দিতে পারি, এবং ভুল হওয়ার সম্ভাবনা নেই বললেই চলে।
এমনকি যদি মাঝে মাঝে সমস্যা হয়, তবে ক্লড কোডে রোলব্যাক কমান্ড চালিয়ে আগের অবস্থায় ফিরে যাওয়া যায়।
GLM-5 দিয়ে পুরো প্রোজেক্টটি অপ্টিমাইজ করার পরে, সমস্ত প্রক্রিয়া মূলত ঠিক হয়ে গেছে।আমিও খুব শীঘ্রই এই প্রকল্পটি ওপেন সোর্স করতে প্রস্তুত (বিভিন্ন মডেল API অংশটি বের করে কনফিগারেশনে পরিণত করতে হবে)।
"শেষ কথা"
GLM-5 ব্যবহারের পর আমার সবচেয়ে বড় অনুভূতি হল: দেশীয় AI সত্যিই মাথা তুলে দাঁড়িয়েছে।
কয়েকদিন আগে, বাইটড্যান্সের সিড্যান্স 2.0 প্রকাশিত হয়েছে, যা প্রমাণ করে যে ভিডিও তৈরির ক্ষেত্রে চীনের দেশীয় মডেল বিশ্বের প্রথম স্তরে পৌঁছেছে, সরাসরি Sora2 এবং Veo3.1-কে ছাড়িয়ে গেছে।
এবং এবার জি ঝুপু GLM-5-এর প্রকাশ, অন্য একটি কঠিন ক্ষেত্র AI কোডিং-এ প্রত্যাশার চেয়েও বেশি ভালো ফল দিয়েছে।
আমরা আগে সবসময় বলতাম, লজিক্যাল রিজনিং এবং কোড লেখার ক্ষেত্রে দেশীয় মডেলগুলি GPT, Claude Opus এবং Gemini থেকে পিছিয়ে আছে।
কিন্তু আজ, GLM-5 তার বাস্তব পারফরম্যান্স দিয়ে আমাদের বলছে: এই পার্থক্য দূর হচ্ছে।
GLM-5 শুধুমাত্র ডেমো তৈরির খেলনা নয়, এটি এমন একটি উৎপাদনশীলতার সরঞ্জাম যা আপনাকে কাজ করতে, সিস্টেম তৈরি করতে, দীর্ঘ কাজ এবং জটিল সমস্যা সমাধানে সহায়তা করতে পারে।
সবচেয়ে গুরুত্বপূর্ণ বিষয় হল, এটি ওপেন সোর্স।
এর মানে হল, প্রতিটি ডেভেলপার, প্রতিটি সংস্থা কম খরচে একটি শীর্ষ AI আর্কিটেক্ট পেতে পারে।
এবং বর্তমানে GLM-এর কোডিং প্ল্যান খুব দ্রুত বিক্রি হচ্ছে, অফিসিয়াল নোটিশ জারি করে বলা হয়েছে যে তারা জরুরি ভিত্তিতে সম্প্রসারণ করছে, এবং প্রধান বিষয় হল, এইবার দেশীয় চিপের ওয়ান-কার্ড ক্লাস্টার যুক্ত করা হয়েছে।
তবে কম্পিউটিং পাওয়ারের উপর বেশি বিনিয়োগের কারণে দাম কিছুটা বেড়েছে, ভালো যে আমি আগে ম্যাক্স প্ল্যান পেয়েছিলাম।
এখান থেকে এটিও দেখা যায় যে, চিপ থেকে মডেল পর্যন্ত, নিম্ন স্তরের কম্পিউটিং পাওয়ার থেকে শুরু করে উপরের স্তরের অ্যাপ্লিকেশন পর্যন্ত, আমরা সম্পূর্ণরূপে নিজেদের একটি বিশ্বমানের AI প্রযুক্তি স্ট্যাক তৈরি করছি।
2026 সাল AI অ্যাপ্লিকেশনগুলির বিস্ফোরণের বছর হতে চলেছে, এবং এটি আরও উন্মাদনার বছর হবে।
আপনি যদি একজন শীর্ষ AI আর্কিটেক্ট থাকার অনুভূতি অনুভব করতে চান, তাহলে GLM-5 ব্যবহার করে দেখুন।前提是你得抢到Max套餐,哈哈।





