ഓപ്പൺ സോഴ്സ് ലോകത്തെ ഓപ്പസ് നിമിഷം: ഏജൻ്റിക് കോഡിംഗിൻ്റെ ബാറ്റൺ GLM-5 ഏറ്റെടുക്കുമോ?
ഒരു ഡെവലപ്പർമാരോട് ചോദിക്കുകയാണെങ്കിൽ, AI പ്രോഗ്രാമിംഗിൽ ഏറ്റവും കൂടുതൽ നിരാശപ്പെടുത്തുന്ന നിമിഷം ഏതാണെന്ന്?
അയാൾ നൽകുന്ന ഉത്തരം ഒരുപക്ഷെ തെറ്റുകൾക്ക് മുന്നിൽ AI യാന്ത്രികമായി പറയുന്ന "ക്ഷമിക്കണം, എനിക്ക് തെറ്റുപറ്റി" എന്നായിരിക്കും. എന്നിട്ട് അതേ തെറ്റായ കോഡ് വീണ്ടും പറയുന്നതാകും അടുത്ത നിമിഷം.
കഴിഞ്ഞ ഒരു വർഷത്തിൽ, കോഡിംഗ് മോഡലുകളുടെ പുരോഗതി കൂടുതലായി കാണാൻ സാധിച്ചത് "ഉത്പാദന ശേഷിയിലാണ്": ഒരു വാക്യം ഉപയോഗിച്ച് വെബ് പേജുകൾ, ഘടകങ്ങൾ, ചെറിയ ഗെയിമുകൾ എന്നിവ ഉണ്ടാക്കുന്നു - 15 സെക്കൻഡിനുള്ളിൽ ഒരു പിക്സൽ ശൈലിയിലുള്ള വെബ് പേജ്, ആകർഷകമായ SVG ഐക്കൺ അല്ലെങ്കിൽ പ്രവർത്തിക്കുന്ന ഒരു സ്നേക്ക് ഗെയിം ഉണ്ടാക്കാൻ സാധിക്കുന്നു. ഈ ഡെമോകൾ മതിയായ ആകർഷകമാണ്, അതുപോലെ ലളിതവുമാണ്. Vibe കോഡിംഗ് കാലഘട്ടത്തിൽ നിർമ്മിച്ച ഒരു ഹൈടെക് കളിപ്പാട്ടം പോലെയാണ് ഇത്. ഉയർന്ന കോൺകറൻ്റ് ആർക്കിടെക്ചറുകൾ, അടിസ്ഥാന ഡ്രൈവർ അഡാപ്റ്റേഷനുകൾ അല്ലെങ്കിൽ സങ്കീർണ്ണമായ സിസ്റ്റം പുനർനിർമ്മാണം എന്നിവയിൽ വരുമ്പോൾ, അവ "ഹരിതഗൃഹത്തിലെ സസ്യങ്ങൾ" പോലെ ഒതുങ്ങിപ്പോകുന്നു.
അതുകൊണ്ട് തന്നെ അടുത്ത കാലത്തായി സിലിക്കൺ വാലിയുടെ രീതികൾ മാറിക്കൊണ്ടിരിക്കുകയാണ്.
Claude Opus 4.6 ആയാലും GPT-5.3 ആയാലും, ഈ മികച്ച മോഡലുകൾ ഏജൻ്റിക് കോഡിംഗിനാണ് പ്രാധാന്യം നൽകുന്നത്: "തൽക്ഷണ ഫലങ്ങൾ" എന്നതിലുപരി ആസൂത്രണം, വിഭജനം, ആവർത്തിച്ചുള്ള പ്രവർത്തനം എന്നിവയിലൂടെ സിസ്റ്റം തലത്തിലുള്ള ടാസ്ക്കുകൾ പൂർത്തിയാക്കുന്നു.
"ഫ്രണ്ട് എൻഡ് സൗന്ദര്യത്തിൽ" നിന്ന് "സിസ്റ്റം എഞ്ചിനിയറിംഗിലേക്കുള്ള" ഈ മാറ്റം, ക്ലോസ്ഡ് സോഴ്സ് ഭീമൻമാരുടെ കുത്തകയായി കണക്കാക്കപ്പെട്ടിരുന്നു. ഞാൻ GLM-5 പരീക്ഷിച്ചപ്പോഴാണ് ഓപ്പൺ സോഴ്സ് കമ്മ്യൂണിറ്റിയുടെ "ആർക്കിടെക്ചർ യുഗം" നേരത്തെ ആരംഭിച്ചെന്ന് മനസ്സിലായത്.
01
"ഫ്രണ്ട് എൻഡിൽ" നിന്ന് "സിസ്റ്റം എഞ്ചിനിയറിംഗിലേക്ക്"
AI കോഡിംഗിനെക്കുറിച്ച് പറയുമ്പോൾ, മിക്കപ്പോഴും ഒരു വാക്യം ഉപയോഗിച്ച് വെബ് പേജ് ഉണ്ടാക്കുന്നു, ഒരു മിനിറ്റിനുള്ളിൽ ഒരു ചെറിയ ഗെയിം ഉണ്ടാക്കുന്നു, പത്ത് സെക്കൻഡിനുള്ളിൽ ആകർഷകമായ ഒരു ചലനം ഉണ്ടാക്കുന്നു എന്നൊക്കെ കേൾക്കാറുണ്ട്. ഇവിടെയെല്ലാം "കാഴ്ചയിൽ ഒരു സുഖം" നൽകുന്ന കാര്യങ്ങൾക്കാണ് പ്രാധാന്യം നൽകുന്നത്: ബട്ടണുകൾ ചലിക്കുന്നു, പേജ് മനോഹരമായിരിക്കുന്നു, കൂടാതെ ധാരാളം സ്പെഷ്യൽ എഫക്റ്റുകൾ.
എന്നാൽ ഒരു എഞ്ചിനിയറിംഗ് സൈറ്റിലേക്ക് ശരിക്കും പ്രവേശിക്കുന്ന ഒരാൾക്ക് അറിയാം, ഒരു ഡെമോ ഉണ്ടാക്കുന്നതിലൂടെ ഒരു സിസ്റ്റത്തെ താങ്ങി നിർത്താൻ കഴിയില്ലെന്ന്.
സങ്കീർണ്ണമായ ടാസ്ക്കുകളുടെ ബുദ്ധിമുട്ട് "കോഡ് എഴുതുന്നതിൽ" അല്ല, മൊഡ്യൂളുകൾ എങ്ങനെ വിഭജിക്കാം, സ്റ്റേറ്റുകൾ എങ്ങനെ കൈകാര്യം ചെയ്യാം, അസാധാരണ സാഹചര്യങ്ങളെ എങ്ങനെ നേരിടാം, പ്രകടനം എങ്ങനെ മെച്ചപ്പെടുത്താം, സിസ്റ്റം സങ്കീർണ്ണമാകുമ്പോൾ ഘടന എങ്ങനെ സ്ഥിരമായി നിലനിർത്താം എന്നതിലാണ്.
അതുകൊണ്ടാണ് ഞങ്ങൾ ഒരു സങ്കീർണ്ണമായ ടാസ്ക് ഒരു പരീക്ഷണ വസ്തുവായി തിരഞ്ഞെടുത്തത്.
GLM-5-ൻ്റെ ലക്ഷ്യം മറ്റ് പല ഉൽപ്പന്നങ്ങളിൽ നിന്നും വ്യത്യസ്തമാണ്.
മിക്ക മോഡലുകളും "മികച്ച ഫ്രണ്ട് എൻഡ്" പോലെയാണെങ്കിൽ - സംവേദനാത്മക ഇൻ്റർഫേസുകളും വിഷ്വൽ ഇഫക്റ്റുകളും വേഗത്തിൽ നിർമ്മിക്കാൻ കഴിവുള്ളവ, GLM-5 കൂടുതൽ "സിസ്റ്റം എഞ്ചിനിയറിംഗ് റോളിന്" പ്രാധാന്യം നൽകുന്നു. ഒന്നിലധികം മൊഡ്യൂളുകളുടെ സഹകരണം, ദൈർഘ്യമേറിയ ടാസ്ക്കുകൾ, ഉൽപ്പാദന സാഹചര്യത്തിൽ പ്രവർത്തിപ്പിക്കാൻ കഴിയുന്ന ഘടനാപരമായ സ്ഥിരത എന്നിവയ്ക്ക് ഇത് ഊന്നൽ നൽകുന്നു.
ഇത് ശരിയാണെന്ന് തെളിയിക്കാൻ, ഞങ്ങൾ രണ്ട് വ്യത്യസ്ത തലത്തിലുള്ള ടെസ്റ്റ് കേസുകൾ രൂപകൽപ്പന ചെയ്തു.
ആദ്യത്തെ പരീക്ഷണം, ലളിതമെന്ന് തോന്നുമെങ്കിലും ഉയർന്ന തോതിലുള്ള സിസ്റ്റമാറ്റിക് ടാസ്ക്കാണ് - ബ്രൗസറും കാമറയും ഉപയോഗിച്ച്, ഒരു "AI വിഷ്വൽ എയർ കൺട്രോൾഡ് വെടിക്കെട്ട്" എന്ന പുതുവത്സരാഘോഷ തീം ഗെയിം ഉണ്ടാക്കുക.
പരീക്ഷണ വീഡിയോയിൽ കാണാൻ കഴിയുന്നത്, ഉപയോക്താവ് കാമറയുടെ മുന്നിൽ നിന്ന് കൈ ആംഗ്യങ്ങളിലൂടെ വെടിക്കെട്ടിൻ്റെ ദിശയും താളവും നിയന്ത്രിക്കുന്നു; വെടിക്കെട്ട് ആകാശത്തിൽ വിരിയുന്നു, കണികാ ഇഫക്റ്റുകളും ഡൈനാമിക് ലൈറ്റിംഗ് ഇഫക്റ്റുകളും ഉണ്ടാക്കുന്നു, മൊത്തത്തിലുള്ള പ്രതികരണം വളരെ സുഗമവും സ്വാഭാവികവുമാണ്.
എന്നാൽ ഇതൊരു ലളിതമായ ഫ്രണ്ട് എൻഡ് ആനിമേഷൻ പ്രോജക്റ്റ് അല്ല. ഇതിൽ കുറഞ്ഞത് താഴെ പറയുന്ന പ്രധാന മൊഡ്യൂളുകളെങ്കിലും അടങ്ങിയിരിക്കുന്നു: ആംഗ്യങ്ങൾ തിരിച്ചറിയലും വിഷ്വൽ ഇൻപുട്ട് പ്രോസസ്സിംഗും; ആംഗ്യ കോർഡിനേറ്റുകൾ വെടിവയ്പ്പ് ലോജിക്കിലേക്ക് മാറ്റുന്നത്; വെടിക്കെട്ട് കണികാ സിസ്റ്റവും വിരിയുന്ന ഇഫക്റ്റുകളും; തത്സമയ റെൻഡറിംഗും ഫ്രെയിം റേറ്റ് നിയന്ത്രണവും; ബ്രൗസർ അനുയോജ്യതയും കാമറ പെർമിഷൻ എറർ കൈകാര്യം ചെയ്യലും; സംവേദനാത്മക സ്റ്റേറ്റ് മാനേജ്മെൻ്റും ഉപയോക്തൃ ഫീഡ്ബാക്ക് മെക്കാനിസവും.
ഇതൊരു പൂർണ്ണമായ ഘടനയോടുകൂടിയതും മികച്ച അനുഭവം നൽകുന്നതുമായ ഒരു ചെറിയ ഇൻ്ററാക്ടീവ് സിസ്റ്റമാണ്. പരീക്ഷണത്തിൽ നിന്ന് മനസ്സിലാക്കാൻ സാധിക്കുന്നത്, GLM-5 കോഡിംഗിലേക്ക് നേരിട്ട് പ്രവേശിക്കുന്നതിന് പകരം മൊത്തത്തിലുള്ള ആർക്കിടെക്ചർ ആസൂത്രണം ചെയ്യുന്നു: വിഷ്വൽ ഇൻപുട്ട് മൊഡ്യൂൾ, കൺട്രോൾ ലോജിക് ലെയർ, റെൻഡറിംഗ് ലെയർ, ഇഫക്റ്റ് ലെയർ എങ്ങനെ വേർതിരിക്കാം; ഡാറ്റാ ഫ്ലോ എങ്ങനെ കൈകാര്യം ചെയ്യാം; ഏത് ഭാഗങ്ങളാണ് പ്രകടനത്തെ ബാധിക്കാൻ സാധ്യതയുള്ളത്.
തുടർന്ന്, ആംഗ്യങ്ങൾ തിരിച്ചറിയുന്നതിലൂടെയുള്ള ഡാറ്റാ പ്രോസസ്സിംഗ് മുതൽ വെടിവയ്ക്കുന്നതിനുള്ള പാത കണക്കാക്കുന്നതുവരെ, കണികാ സ്ഫോടന ഇഫക്റ്റുകളുടെ പാരാമീറ്റർ ഒപ്റ്റിമൈസേഷൻ വരെ ഓരോ ലെയറുകളും നടപ്പിലാക്കുന്നു.
റെൻഡറിംഗ് മന്ദഗതിയിലാകുമ്പോൾ, കണികകളുടെ എണ്ണം കുറയ്ക്കാനും ലൂപ്പ് ഘടന ഒപ്റ്റിമൈസ് ചെയ്യാനും ഇത് മുൻകൈയെടുത്ത് നിർദ്ദേശിക്കുന്നു; ആംഗ്യങ്ങൾ തിരിച്ചറിയുന്നതിൽ തെറ്റുകൾ സംഭവിക്കുമ്പോൾ, പരിധികൾ ക്രമീകരിക്കുകയും ഫിൽട്ടറിംഗ് തന്ത്രങ്ങൾ മാറ്റുകയും ചെയ്യുന്നു.
വീഡിയോയിൽ കാണുന്ന ഇഫക്റ്റ് "സ്വാഭാവികമായ പ്രതികരണം" നൽകുന്ന തരത്തിലുള്ളതാണ്. എന്നാൽ ഇതിന് പിന്നിൽ ഒരു പൂർണ്ണമായ എഞ്ചിനിയറിംഗ് ശൃംഖലയുണ്ട്: ആസൂത്രണം → എഴുതുക → ഡീബഗ് ചെയ്യുക → പ്രകടനം ഒപ്റ്റിമൈസ് ചെയ്യുക → പ്രതികരണം ശരിയാക്കുക.
അവസാനം ഉണ്ടാക്കുന്ന കോഡ് നേരിട്ട് പ്രവർത്തിപ്പിക്കാൻ കഴിയും, പ്രതികരണം സ്ഥിരതയുള്ളതാണ്, ഫ്രെയിം റേറ്റ് സുഗമമാണ്, അസാധാരണ സാഹചര്യങ്ങൾ കൈകാര്യം ചെയ്യാൻ കഴിയും. പ്രധാനമായി ഇതിൻ്റെ പ്രവർത്തനരീതി വ്യക്തമായ സിസ്റ്റം ചിന്താഗതി നൽകുന്നു: മൊഡ്യൂളുകൾ തമ്മിലുള്ള അതിരുകൾ വ്യക്തമാണ്, ലോജിക്കൽ ലെയറുകൾ കൃത്യമായി വേർതിരിച്ചിരിക്കുന്നു, എല്ലാ ഫംഗ്ഷനുകളും ഒരൊറ്റ ഫയലിൽ കൂട്ടിയിടിക്കുന്നില്ല.
രണ്ടാമത്തെ കേസ് ഘടനാപരമായ സിസ്റ്റം ശേഷിയാണ്. ഈ സാഹചര്യം മാധ്യമപ്രവർത്തനത്തിൽ പതിവായി ഉണ്ടാകുന്ന ഒന്നാണ് - ഒരു അഭിമുഖത്തിൻ്റെ സംഗ്രഹം ഇമ്പോർട്ട് ചെയ്യുക, ഉള്ളടക്കം സംഗ്രഹിക്കുക, വിഷയത്തിൻ്റെ ആംഗിളുകളും ആശയങ്ങളും ഔട്ട്പുട്ട് ചെയ്യുക.
പരീക്ഷണത്തിൽ കാണാൻ കഴിയുന്നത്, പ്രവർത്തനരീതി വളരെ ലളിതമാണ്: കുറച്ച് ദിവസങ്ങൾക്ക് മുമ്പ് എടുത്ത ഒരു അഭിമുഖത്തിൻ്റെ സംഗ്രഹം ഞാൻ ഒട്ടിച്ചു, മോഡൽ വിശകലനം ചെയ്യാൻ തുടങ്ങി, തുടർന്ന് ഉള്ളടക്കത്തിൻ്റെ സംഗ്രഹവും വിഷയത്തിൻ്റെ ആംഗിളുകളും ഔട്ട്പുട്ട് ചെയ്തു, ഫലത്തിൽ നിന്ന് മനസ്സിലാക്കാൻ സാധിക്കുന്നത് അത് ഉണ്ടാക്കിയ വിഷയത്തിൻ്റെ ആംഗിളുകൾ വളരെ നല്ലരീതിയിൽ പ്രവർത്തിക്കുന്നവയാണ്.
വിഷ്വൽ ഇൻ്ററാക്ടീവ് സിസ്റ്റവുമായി താരതമ്യം ചെയ്യുമ്പോൾ, റെക്കോർഡിംഗ് എളുപ്പമാണെന്ന് തോന്നുമെങ്കിലും, ഇത് മോഡലിൻ്റെ "ഘടനയെ വേർതിരിച്ചറിയാനുള്ള കഴിവിനെ" ശരിക്കും പരീക്ഷിക്കുന്നു. ഒരു യഥാർത്ഥ അഭിമുഖം പലപ്പോഴും നന്നായി ചിട്ടപ്പെടുത്താത്ത ഒന്നായിരിക്കും: ആശയങ്ങൾക്കിടയിൽ ചാഞ്ചാട്ടം, വിവരങ്ങളുടെ ആവർത്തനം, പ്രധാന വിഷയവും ഉപവിഷയങ്ങളും കൂടിക്കലർന്നുള്ള അവതരണം. അതിനാൽ ഈ കേസിൽ, GLM-5 കാണിക്കുന്ന കഴിവ് സിസ്റ്റം തലത്തിലുള്ളതാണ്.
ഒന്നാമതായി, വിഷയത്തെ തിരിച്ചറിയാനും പ്രധാന ആശയം വേർതിരിച്ചെടുക്കാനുമുള്ള കഴിവ്. മോഡൽ, യഥാർത്ഥ ടെക്സ്റ്റ് അനുസരിച്ച് സംഗ്രഹം ഉണ്ടാക്കുന്നില്ല, പകരം പ്രധാന വിഷയം എന്താണെന്ന് ആദ്യം വിലയിരുത്തുന്നു, അതിനുശേഷം ഈ വിഷയത്തെ അടിസ്ഥാനമാക്കി ഉള്ളടക്കം പുനഃസംഘടിപ്പിക്കുന്നു. ഇതിനർത്ഥം, പ്രധാന വിവരങ്ങൾ ഏതാണ്, ഏതൊക്കെ വിവരങ്ങളാണ് കൂട്ടിച്ചേർക്കേണ്ടത് അല്ലെങ്കിൽ ഒഴിവാക്കേണ്ടത് എന്ന് തിരിച്ചറിയാൻ ഇതിന് കഴിയും. ഈ കഴിവ് ആസൂത്രണവുമായി ബന്ധപ്പെട്ടതാണ്, അതായത് ഔട്ട്പുട്ട് ചെയ്യുന്നതിന് മുമ്പ് ഒരു അബ്സ്ട്രാക്റ്റ് ഘടന ഉണ്ടാക്കുന്നു.
രണ്ടാമതായി, മൊഡ്യൂളുകൾ പുനഃസംഘടിപ്പിക്കാനുള്ള കഴിവ്. വ്യത്യസ്ത ഖണ്ഡികകളിൽ ചിതറിക്കിടക്കുന്ന ബന്ധപ്പെട്ട ആശയങ്ങളെ ഒരേ മൊഡ്യൂളിലേക്ക് തരംതിരിക്കുന്നു. ഈ ക്രോസ്-സെഗ്മെൻ്റ് സംയോജന ശേഷി, മോഡലിന് വലിയ ടെക്സ്റ്റ് കൈകാര്യം ചെയ്യുമ്പോൾ ഒരുപോലെ ശ്രദ്ധിക്കാൻ കഴിയുന്നു എന്ന് കാണിക്കുന്നു.
മൂന്നാമതായി, ലോജിക്കൽ ക്രമം സ്വയമേവ ക്രമീകരിക്കാനുള്ള കഴിവ്. ഔട്ട്പുട്ടുകൾ പലപ്പോഴും യഥാർത്ഥ റെക്കോർഡിംഗ് ക്രമത്തിൽ നിന്ന് വ്യത്യസ്തമായിരിക്കും. GLM-5 കാരണത്തെയും ഫലത്തെയും അല്ലെങ്കിൽ വാദത്തിൻ്റെ യുക്തിയെയും അടിസ്ഥാനമാക്കി ലെയറുകൾ പുനഃക്രമീകരിക്കുന്നു. ഇത് "യഥാർത്ഥ ഇൻപുട്ട് ക്രമത്തേക്കാൾ യുക്തിക്ക് മുൻഗണന നൽകുന്നു" എന്നതിൻ്റെ സൂചനയാണ്. ഈ "ആദ്യം ഘടന, പിന്നീട് ഔട്ട്പുട്ട്" എന്ന രീതിയാണ് സിസ്റ്റം എഞ്ചിനിയറിംഗ് ചിന്തയുടെ കാതൽ.
ഈ രണ്ട് ഉദാഹരണങ്ങളും - ഒന്ന് തത്സമയ വിഷ്വൽ ഇൻ്ററാക്ഷൻ സിസ്റ്റവും മറ്റൊന്ന് മീഡിയ ഇൻഫർമേഷൻ സ്ട്രക്ചർ പ്രോസസ്സിംഗ് സിസ്റ്റവും, പ്രത്യക്ഷത്തിൽ വളരെ വ്യത്യസ്തമാണ്. എന്നാൽ ഇവ രണ്ടും തെളിയിക്കുന്നത് ഒരേ കാര്യം തന്നെയാണ് - GLM-5-ന് ഒരു ടാസ്ക് പൂർത്തിയാക്കാനുള്ള കഴിവുണ്ട്: ആസൂത്രണം → നടപ്പിലാക്കുക → ഡീബഗ് ചെയ്യുക → ഒപ്റ്റിമൈസ് ചെയ്യുക.
വെടിക്കെട്ട് ഗെയിമിൽ, ഇത് മൊഡ്യൂൾ ലെയറിംഗിലും പ്രകടനം ഒപ്റ്റിമൈസ് ചെയ്യുന്നതിലും അസാധാരണ സാഹചര്യങ്ങൾ കൈകാര്യം ചെയ്യുന്നതിലും കാണാം; റെക്കോർഡിംഗ് പ്രോസസ്സറിൽ, ഇത് വിഷയം വിലയിരുത്തുന്നതിലും ഘടന വേർതിരിക്കുന്നതിലും ലോജിക് പുനഃസംഘടിപ്പിക്കുന്നതിലും കാണാം. ഇവയുടെ പൊതുവായ കാര്യം, മോഡൽ "ഫലങ്ങൾ ഉണ്ടാക്കുന്നതിൽ" മാത്രം ഒതുങ്ങി നിൽക്കുന്നില്ല, മറിച്ച് കാലക്രമേണ വികസിക്കാൻ സാധ്യതയുള്ള ഒരു ഘടന നിലനിർത്തുന്നു എന്നതാണ്.
ഞാൻ താരതമ്യേന സങ്കീർണ്ണമായ ഒരു ടാസ്ക് തുടർന്ന് പരീക്ഷിച്ചു, "ഒരു മിനിമൽ ഓപ്പറേറ്റിംഗ് സിസ്റ്റം കേർണൽ നിർമ്മിക്കുക". ഈ പരീക്ഷണത്തിൽ, വീഡിയോയിലെ കോഡ് പ്രവർത്തിക്കുന്നുണ്ടോ എന്നതിലല്ല കാര്യം, GLM-5 ഈ പ്രക്രിയയിൽ എങ്ങനെ പ്രവർത്തിക്കുന്നു എന്നതാണ് ശ്രദ്ധിക്കേണ്ടത്.
ഒരു ടാസ്ക് ലഭിച്ചയുടൻ തന്നെ ഇത് ഉത്പാദനത്തിലേക്ക് കടക്കുന്നില്ല, പകരം ടാസ്ക്കിൻ്റെ അതിരുകൾ നിർവചിക്കുകയും മൊഡ്യൂളുകൾ സ്വയം വിഭജിക്കുകയും സിസ്റ്റം ഘടന ആസൂത്രണം ചെയ്യുകയും അതിനുശേഷം നടപ്പിലാക്കാൻ തുടങ്ങുകയും ചെയ്യുന്നു. ഈ "ഘടന ആദ്യം" എന്ന രീതി, നമ്മൾ നേരത്തെ പറഞ്ഞ എഞ്ചിനിയറിംഗ് ചിന്താഗതിയുടെ ഭാഗമാണ് - എങ്ങനെയാണ് ഒരു സിസ്റ്റം ഉണ്ടാക്കുന്നതെന്ന് ആദ്യം നിർവചിക്കുക, അതിനുശേഷം എങ്ങനെ നടപ്പിലാക്കാമെന്ന് ചർച്ച ചെയ്യുക, അല്ലാതെ എഴുതുമ്പോൾ കൂട്ടിച്ചേർക്കുകയല്ല.
എഴുതുക, പ്രവർത്തിപ്പിക്കുക, തെറ്റുകൾ തിരുത്തുക എന്ന രീതിയിലുള്ള ആവർത്തനത്തിൽ, GLM-5-ന് ഘടനാപരമായ തകർച്ച സംഭവിച്ചില്ല. ഓരോ മാറ്റവും നിലവിലുള്ള ആർക്കിടെക്ചറിനെ അടിസ്ഥാനമാക്കിയുള്ളതായിരുന്നു, അല്ലാതെ ആദ്യം മുതലേ തുടങ്ങുകയോ ഭാഗികമായി മാറ്റങ്ങൾ വരുത്തുകയോ ചെയ്തില്ല. ഇതിനർത്ഥം, ഇതിന് ഒരു പൂർണ്ണമായ സിസ്റ്റം മോഡൽ നിലനിർത്താൻ കഴിയും, കൂടാതെ ദൈർഘ്യമേറിയ ടാസ്ക്കുകളിൽ സ്ഥിരത നിലനിർത്താനും കഴിയും. വലിയ കോൺടെക്സ്റ്റ് വരുന്നതോടെ പല മോഡലുകളും വൈരുദ്ധ്യങ്ങൾ കാണിക്കാറുണ്ട്, എന്നാൽ വീഡിയോയിലെ പ്രകടനം മൊത്തത്തിലുള്ള ഘടനയെക്കുറിച്ചുള്ള തുടർച്ചയായ ഓർമ്മപ്പെടുത്തലാണ്.
തെറ്റുകൾ കൈകാര്യം ചെയ്യുന്ന രീതിയും ശ്രദ്ധേയമാണ്. ഒരു പിശക് ഉണ്ടാകുമ്പോൾ, "ഒരു കോഡിന്റെ പ്രശ്നമാകാം" എന്ന ചിന്തയിൽ ഒതുങ്ങുന്നതിന് പകരം, തെറ്റിൻ്റെ തരം നിർണ്ണയിക്കുകയും ലോജിക്കൽ പ്രശ്നമാണോ, എൻവയോൺമെൻ്റൽ പ്രശ്നമാണോ അല്ലെങ്കിൽ ഡിപൻഡൻസി കോൺഫ്ലിക്റ്റ് ആണോ എന്ന് വേർതിരിക്കുകയും തുടർന്ന് പരിഹരിക്കാനുള്ള വഴി ആസൂത്രണം ചെയ്യുകയും ചെയ്യുന്നു. ഇതൊരു തന്ത്രപരമായ ഡീബഗ്ഗിംഗ് ആണ്, പ്രശ്നത്തിൻ്റെ വഴി കണ്ടെത്തുകയാണ് ഇതിൻ്റെ ലക്ഷ്യം.
ടൂൾ കോളിംഗുമായി ബന്ധപ്പെട്ട് നോക്കുകയാണെങ്കിൽ, ഈ കഴിവ് കൂടുതൽ വ്യക്തമാകും. ഇത് കമാൻഡുകൾ നിർദ്ദേശിക്കുക മാത്രമല്ല, ടെർമിനൽ എക്സിക്യൂഷൻ ഷെഡ്യൂൾ ചെയ്യുകയും ലോഗുകൾ വിശകലനം ചെയ്യുകയും പരിസ്ഥിതി പുനഃസ്ഥാപിക്കുകയും തുടർന്ന് ടാസ്ക് മുന്നോട്ട് കൊണ്ടുപോകുകയും ചെയ്യുന്നു. ഈ സ്വഭാവം ഒരു "ഓട്ടോ പൈലറ്റ്" രീതിയിലുള്ള എഞ്ചിനിയറിംഗ് പുരോഗതിക്ക് അടുത്താണ്. ലക്ഷ്യം പൂർത്തിയാകാത്ത പക്ഷം ഇത് ആവർത്തിച്ച് ചെയ്തുകൊണ്ടേയിരിക്കും.
ആദ്യം ആസൂത്രണം ചെയ്യുക, തുടർന്ന് നടപ്പിലാക്കുക, ഘടന സ്ഥിരമായി നിലനിർത്തുക, തന്ത്രപരമായ രീതിയിൽ പ്രശ്നങ്ങൾ കണ്ടെത്തുക, ലക്ഷ്യത്തെ അടിസ്ഥാനമാക്കി മുന്നോട്ട് പോകുക - സിസ്റ്റം എഞ്ചിനിയറിംഗിന് ആവശ്യമായ നാല് പ്രധാന കഴിവുകളും ഒത്തുചേരുമ്പോൾ, GLM-5 ഒരു എഞ്ചിനീയറുടെ പ്രവർത്തനരീതിയുമായി അടുത്ത് വരുന്ന ഒരു സ്വഭാവം കാണിക്കുന്നു.
എന്തുകൊണ്ട് GLM-5-ന് "ആർക്കിടെക്റ്റിൻ്റെ" റോൾ ഏറ്റെടുക്കാൻ സാധിക്കുന്നു?
GLM-5-ന് "സങ്കീർണ്ണമായ കാര്യങ്ങൾ ചെയ്യാൻ കഴിയും" എന്ന് ആദ്യ ഭാഗത്തിലെ പരീക്ഷണം തെളിയിക്കുന്നുണ്ടെങ്കിൽ, അടുത്ത ചോദ്യം ഇതാണ്: എന്തുകൊണ്ട് ഇതിന് സാധിക്കുന്നു? ഇതിനുള്ള ഉത്തരം, അതിൻ്റെ പ്രവർത്തനരീതിയിലുള്ള "എഞ്ചിനിയറിംഗ് ലെവൽ സ്വഭാവരീതികളാണ്".
ഇതിലെ പ്രധാന കാര്യം, Claude Opus 4.6-ൻ്റേതിന് സമാനമായ ചിന്താ ശൃംഖല സ്വയം പരിശോധിക്കുന്ന സംവിധാനം GLM-5 അവതരിപ്പിച്ചു എന്നതാണ്.
ഇത് ഉപയോഗിക്കുമ്പോൾ മനസ്സിലാക്കാൻ സാധിക്കുന്നത്, ഒരു ടാസ്ക് ലഭിച്ചയുടൻ തന്നെ "കോഡ് ഫിൽ ചെയ്യാൻ" തുടങ്ങുന്നില്ല, മറിച്ച് ബാക്ക്ഗ്രൗണ്ടിൽ നിരവധി ലോജിക്കൽ കാര്യങ്ങൾ ചെയ്യുന്നു: മൊഡ്യൂളുകൾ തമ്മിലുള്ള ബന്ധം മുൻകൂട്ടി അറിയുന്നു, ഡെഡ് ലൂപ്പ് ഒഴിവാക്കുന്നു, റിസോഴ്സ് കോൺഫ്ലിക്റ്റുകളും ബൗണ്ടറി കണ്ടീഷനുകളും മുൻകൂട്ടി കണ്ടെത്തുന്നു. ഈ സ്വഭാവം കൊണ്ടുവരുന്ന മാറ്റം ഇതാണ് - ഒരു പരിഹാരം എഞ്ചിനിയറിംഗ് തലത്തിൽ ഉറപ്പുവരുത്തുന്നതിന് വേണ്ടി, ഇത് കൂടുതൽ സമയം എടുക്കുകയും പ്രശ്നം പൂർണ്ണമായി മനസ്സിലാക്കുകയും ചെയ്യുന്നു.
സങ്കീർണ്ണമായ ടാസ്ക്കുകളിൽ, GLM-5 ആദ്യം മൊഡ്യൂളുകളെ വ്യക്തമായി വേർതിരിക്കുന്നു: സിസ്റ്റത്തിൽ ഏതൊക്കെ ഉപ മൊഡ്യൂളുകൾ അടങ്ങിയിരിക്കുന്നു, ഓരോ മൊഡ്യൂളിൻ്റെയും ഇൻപുട്ടും ഔട്ട്പുട്ടും എന്താണ്, ഏതൊക്കെ ഭാഗങ്ങൾ ഒരുമിപ്പിക്കാൻ കഴിയും, ഏതൊക്കെ ഭാഗങ്ങൾ തുടർച്ചയായി പൂർത്തിയാക്കണം. അതിനുശേഷം ഓരോന്നായി പരിഹരിക്കുന്നു, അല്ലാതെ എഴുതുമ്പോൾ ചിന്തിക്കുന്നില്ല. ഇത് അതിൻ്റെ പ്രവർത്തനരീതിയെ ഒരു യഥാർത്ഥ എഞ്ചിനീയറെപ്പോലെ മാറ്റുന്നു: ആദ്യം ആർക്കിടെക്ചർ ഡയഗ്രം വരയ്ക്കുന്നു, അതിനുശേഷം വിശദാംശങ്ങൾ എഴുതുന്നു.
തെറ്റുകൾ സംഭവിക്കുമ്പോൾ, പഴയ കോഡിംഗ് മോഡലുകൾ പെട്ടെന്ന് ഒരു രീതിയിലേക്ക് മാറുന്നു: ക്ഷമ ചോദിക്കുന്നു, തെറ്റായ വിവരങ്ങൾ ആവർത്തിക്കുന്നു, പരിശോധിക്കാത്ത ഒരു പരിഹാരം നിർദ്ദേശിക്കുന്നു; വീണ്ടും പരാജയപ്പെട്ടാൽ, ഏകദേശ ഉത്തരങ്ങൾ നൽകി ആവർത്തിക്കുന്നു. എന്നാൽ GLM-5-ൻ്റെ രീതി പരിചയസമ്പന്നരായ ആർക്കിടെക്റ്റുകൾ ചെയ്യുന്നതുപോലെയാണ്. പരീക്ഷണത്തിൽ, എൻവയോൺമെൻ്റൽ ഡിപൻഡൻസി പ്രശ്നങ്ങൾ കാരണം പ്രോജക്റ്റ് പ്രവർത്തിക്കാത്തപ്പോൾ, ഇത് ഉപരിതലത്തിലെ പിശകുകളിൽ ഒതുങ്ങി നിൽക്കുന്നില്ല, മറിച്ച് ഡിപൻഡൻസി ട്രീ (Dependency Tree) സ്വയം വിശകലനം ചെയ്യുകയും കോൺഫ്ലിക്റ്റിൻ്റെ ഉറവിടം കണ്ടെത്തുകയും തുടർന്ന് OpenClaw ഉപയോഗിച്ച് പരിസ്ഥിതി പുനഃസ്ഥാപിക്കാൻ ശ്രമിക്കുകയും ചെയ്യുന്നു.
ഈ പ്രക്രിയ ഒരു "ഓട്ടോ പൈലറ്റ്" രീതിയിലുള്ള വിന്യാസം പോലെയാണ്: മോഡൽ പ്രതികരിക്കുക മാത്രമല്ല, ലോഗുകൾ വായിക്കുകയും പാതകൾ ശരിയാക്കുകയും ഫലങ്ങൾ പരിശോധിക്കുകയും ചെയ്യുന്നു.
മറ്റൊരു കാര്യം പലപ്പോഴും അവഗണിക്കപ്പെടുന്നു, എന്നാൽ സിസ്റ്റം എഞ്ചിനിയറിംഗിൽ ഇത് വളരെ പ്രധാനമാണ്, അതാണ് കോൺടെക്സ്റ്റ് പൂർണ്ണത.
GLM-5-ൻ്റെ ദശലക്ഷക്കണക്കിന് ടോക്കൺ വിൻഡോ, ഒരേ കോൺടെക്സ്റ്റിൽ പ്രോജക്റ്റിൻ്റെ കോഡ് ഘടന, പഴയ മാറ്റങ്ങൾ, കോൺഫിഗറേഷൻ ഫയലുകൾ, റണ്ണിംഗ് ലോഗുകൾ എന്നിവ മനസ്സിലാക്കാൻ സഹായിക്കുന്നു. ഇതിനർത്ഥം, ഒരു മാറ്റം ഏതൊക്കെ മൊഡ്യൂളുകളിൽ മാറ്റങ്ങൾ വരുത്തുമെന്ന് മൊത്തത്തിൽ വിലയിരുത്താൻ ഇതിന് കഴിയും. ദൈർഘ്യമേറിയ ടാസ്ക്കുകളിൽ, ഈ കഴിവ് മോഡൽ "ബുദ്ധിയുള്ളതും എന്നാൽ ഹ്രസ്വദൃഷ്ടിയുള്ളതുമാണോ", അല്ലെങ്കിൽ "സ്ഥിരതയുള്ളതും നിയന്ത്രിക്കാൻ കഴിയുന്നതുമാണോ" എന്ന് നിർണ്ണയിക്കുന്നു.
മൊത്തത്തിൽ നോക്കുകയാണെങ്കിൽ, GLM-5 ശരിക്കും ഒരു "ആർക്കിടെക്റ്റിൻ്റെ" റോൾ ഏറ്റെടുക്കുന്നത്, ഇത് ഒരു ആർക്കിടെക്റ്റിനെപ്പോലെ പ്രശ്നങ്ങളെക്കുറിച്ച് ചിന്തിക്കാൻ തുടങ്ങിയതുകൊണ്ടാണ്: ആദ്യം ആസൂത്രണം ചെയ്യുക, തുടർന്ന് നടപ്പിലാക്കുക; നിരന്തരം പരിശോധിക്കുകയും തിരുത്തുകയും ചെയ്യുക; സിസ്റ്റം മൊത്തത്തിൽ ശ്രദ്ധിക്കുക, അല്ലാതെ ഒരൊറ്റ പോയിൻ്റിൽ മാത്രം ശ്രദ്ധിക്കാതിരിക്കുക.
ഇതുകൊണ്ടാണ് ആദ്യ ഭാഗത്തിലെ സിസ്റ്റം ലെവൽ പരീക്ഷണ ടാസ്ക്കുകൾ പൂർത്തിയാക്കാൻ ഇതിന് സാധിച്ചത്.
03
**ഓപ്പൺ സോഴ്സ് ലോകത്തിലെ ഓപ്പസ്? ** 2026-ലെ വലിയ മോഡൽ ഇക്കോസിസ്റ്റത്തിൽ വെച്ച് നോക്കുകയാണെങ്കിൽ, GLM-5-ൻ്റെ മൂല്യം കൂടുതലായി കാണുന്നത്, മുമ്പ് എല്ലാവരും അംഗീകരിച്ചിരുന്ന ഒരു കാര്യം ഇത് തകർത്തു എന്നതാണ്: സിസ്റ്റം ലെവൽ ഇൻ്റലിജൻസ്, ക്ലോസ്ഡ് സോഴ്സ് മോഡലുകളിൽ മാത്രമേ ഉണ്ടാകൂ എന്നത്.
നേരത്തെ, Claude Opus 4.6-ഉം GPT-5.3-ഉം "ഏജൻ്റിക് കോഡിംഗ്" എന്ന വഴി ശരിയായി പൂർത്തിയാക്കിയിരുന്നു - മോഡൽ തൽക്ഷണ പ്രതികരണത്തിന് ശ്രമിക്കുന്നതിന് പകരം, ആസൂത്രണം, വിഭജനം, ആവർത്തിച്ചുള്ള പ്രവർത്തനം എന്നിവയിലൂടെ സങ്കീർണ്ണമായ എഞ്ചിനിയറിംഗ് ടാസ്ക്കുകൾ പൂർത്തിയാക്കുന്നു. എന്നാൽ ഇതിന് വലിയ വില നൽകേണ്ടി വന്നു: ഉയർന്ന ടാസ്ക്കുകൾക്ക് ടോക്കൺ ഉപഭോഗം വളരെ കൂടുതലാണ്, ഒരു സിസ്റ്റം ലെവൽ ശ്രമം പൂർത്തിയാക്കാൻ വലിയ ചിലവ് വരും.
GLM-5 ഇവിടെ ഒരു വ്യത്യസ്തമായ പരിഹാരം നൽകുന്നു. ഒരു ഓപ്പൺ സോഴ്സ് മോഡൽ എന്ന നിലയിൽ, ഇത് "സിസ്റ്റം ആർക്കിടെക്റ്റ് ലെവൽ AI" ക്ലൗഡിൽ നിന്നും ഡെവലപ്പർമാരുടെ സ്വന്തം എൻവയോൺമെൻ്റിലേക്ക് കൊണ്ടുവരുന്നു. നിങ്ങൾക്ക് ഇത് ലോക്കലായി വിന്യസിക്കാനും ലോഗുകൾ ക്രമീകരിക്കാനും, ഡിപൻഡൻസികൾ പരിശോധിക്കാനും, പഴയ കോഡുകൾ മാറ്റിയെഴുതാനും, ബൗണ്ടറി കണ്ടീഷനുകൾ പൂർത്തിയാക്കാനും കൂടുതൽ സമയം കണ്ടെത്താൻ സാധിക്കും.
ഇതൊരു നല്ല മാറ്റമായി കണക്കാക്കാം - ആർക്കിടെക്റ്റ് ലെവൽ ഇൻ്റലിജൻസ് ഇനി കുറഞ്ഞ ടീമുകൾക്ക് മാത്രം അവകാശപ്പെട്ട ഒന്നല്ല.
ഈ വ്യത്യാസം മനസ്സിലാക്കാൻ ഒരു തൊഴിൽപരമായ രൂപകം ഉപയോഗിക്കുകയാണെങ്കിൽ, അത് കൂടുതൽ വ്യക്തമാകും. Kimi 2.5 പോലുള്ള മോഡലുകൾ, മികച്ച ഫ്രണ്ട് എൻഡ് എഞ്ചിനീയർമാരെപ്പോലെയാണ്, അവർക്ക് സൗന്ദര്യബോധവും മികച്ച പ്രതികരണശേഷിയുമുണ്ട്; എന്നാൽ GLM-5-ൻ്റെ ശൈലി വളരെ വ്യത്യസ്തമാണ്, ഇത് ഒരു സിസ്റ്റം ആർക്കിടെക്റ്റിനെപ്പോലെയാണ്: മൊഡ്യൂൾ ബന്ധങ്ങൾ, അസാധാരണ വഴികൾ, മെയിൻ്റനൻസ്, ദീർഘകാല സ്ഥിരത എന്നിവയിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു.
ഇവിടെ, പ്രോഗ്രാമിംഗ് AI-യുടെ ഒരു വ്യക്തമായ തൊഴിൽപരമായ പുരോഗതി കാണാൻ സാധിക്കും - "കാഴ്ചയിൽ നല്ല അനുഭവം" നൽകുന്ന Vibe കോഡിംഗിൽ നിന്ന്, എഞ്ചിനിയറിംഗ് അച്ചടക്കത്തിന് പ്രാധാന്യം നൽകുന്ന Engineering-ലേക്ക് മാറുന്നു.
പ്രധാനമായി, GLM-5-ൻ്റെ വരവോടെ, ഒരാൾക്ക് സ്വന്തമായി ഒരു കമ്പനി എന്ന ആശയം കൂടുതൽ പ്രായോഗികമായി നടപ്പിലാക്കാൻ സാധിക്കുന്നു.ഒരു ഡെവലപ്പർക്ക് ഒരു സിസ്റ്റം ഡിസൈൻ അറിയുന്ന, ദീർഘകാലം പ്രവർത്തിപ്പിക്കാൻ കഴിയുന്ന, സ്വയം തിരുത്താൻ കഴിയുന്ന ഒരു AI പങ്കാളിയെ പ്രാദേശികമായി സ്വന്തമാക്കാൻ കഴിയുമ്പോൾ, ഒരു ടീമിന്റെ സഹായത്തോടെ മാത്രം പൂർത്തിയാക്കാൻ കഴിയുന്ന പല എഞ്ചിനീയറിംഗ് ജോലികളും വ്യക്തിഗത നിയന്ത്രണത്തിലേക്ക് ചുരുങ്ങാൻ തുടങ്ങും. തുടർന്ന്, GLM-5-ന് ഒരു വ്യക്തിഗത കമ്പനിയിൽ പ്രധാന എഞ്ചിനീയറിംഗ് നടപ്പിലാക്കുന്ന ഒരു 'ഡിജിറ്റൽ പങ്കാളിയാകാൻ' കഴിയും.





