Qwen 3.5 പുറത്തിറക്കി: 397B പാരാമീറ്ററുകളുള്ള ഓപ്പൺ വെയ്റ്റ് മോഡൽ, ചെലവ് 60% കുറഞ്ഞു
അലിബാബ ഇപ്പോൾ Qwen 3.5-397B-A17B പുറത്തിറക്കി. Qwen 3.5 സീരീസിലെ ആദ്യത്തെ ഓപ്പൺ വെയ്റ്റ് മോഡലാണിത്.
പ്രധാന ഡാറ്റ
- ആകെ പാരാമീറ്ററുകൾ: 397B
- സജീവമാക്കിയ പാരാമീറ്ററുകൾ: 17B per pass (Sparse MoE)
- ത്രൂപുട്ട്: Qwen 3-Max നെക്കാൾ 8.6x-19x മെച്ചം
- ചെലവ്: Qwen 3 നെക്കാൾ 60% കുറവ്
- ഭാഷാ പിന്തുണ: 201 എണ്ണം (119 എണ്ണത്തിൽ നിന്ന് വികസിപ്പിച്ചു)
ഇതൊരു സാധാരണ പാരാമീറ്റർ അടുക്കൽ അല്ല. ഇത് കാര്യക്ഷമതയുടെ പുനർനിർവചനമാണ്.

ആർക്കിടെക്ചർ ഇന്നൊവേഷൻ
Qwen 3.5 ഒരു ഹൈബ്രിഡ് ആർക്കിടെക്ചർ ഉപയോഗിക്കുന്നു:
- Gated Delta Networks + Sparse MoE
- ഹൈബ്രിഡ് ലീനിയർ അറ്റൻഷൻ: മിക്ക ലെയറുകളും ലീനിയർ അറ്റൻഷൻ ഉപയോഗിക്കുന്നു, ഓരോ 4 ലെയറിലും ഫുൾ അറ്റൻഷൻ ഉപയോഗിക്കുന്നു
- നേറ്റീവ് മൾട്ടിമോഡൽ: പിന്നീട് ചേർത്തതല്ല, ആദ്യം മുതലേ പരിശീലനം നൽകിയത്
X-ൽ സാങ്കേതിക വിശകലനം ഉണ്ട്:
"Qwen3.5-397B-A17B: Hybrid linear attention + sparse MoE with large-scale RL environment scaling." — @Alibaba_Qwen
ഈ ആർക്കിടെക്ചറിൻ്റെ പ്രാധാന്യം ഇതാണ്: 17B സജീവമാക്കിയ പാരാമീറ്ററുകൾ ഉപയോഗിച്ച് 400B മോഡലിൻ്റെ പ്രകടനം നേടുന്നു. അനുമാനത്തിനുള്ള (Inference) ചെലവ് ഗണ്യമായി കുറയുന്നു.
പ്രകടന അവകാശവാദങ്ങൾ
Qwen 3.5 ഇതിനെക്കാളൊക്കെ മികച്ചതാണെന്ന് അലിബാബ അവകാശപ്പെടുന്നു:
- GPT-5.2
- Claude Opus 4.5
- Gemini 3 Pro
X-ലെ സ്വതന്ത്ര ടെസ്റ്റർമാർ ഇത് ശരിയാണോ എന്ന് പരിശോധിക്കാൻ തുടങ്ങി:
"Qwen 3.5-397B dropped today... and the benchmarks are insane. Trading blows with Claude Opus 4.5 and GPT-5.2 across the board." — @antonpme
എന്നാൽ ഏറ്റവും പ്രധാനപ്പെട്ട കാര്യം ബെഞ്ച്മാർക്ക് ടെസ്റ്റുകളല്ല, മറിച്ച് ഏജൻ്റ് ശേഷിയാണ്:
"The agentic capabilities are the real story here. Qwen 3.5 can interact with GUIs, not just understand them. That's the unlock for workflows that touch existing software." — @thebuildrweekly
ഏജൻ്റ് യുഗം
Qwen 3.5-ൻ്റെ ലക്ഷ്യം വ്യക്തമാണ്: ഏജൻ്റ് യുഗത്തിനായി രൂപകൽപ്പന ചെയ്തത്.
- 2 മണിക്കൂർ വീഡിയോ വിശകലനം ചെയ്യാൻ കഴിയും
- ആപ്ലിക്കേഷനുകൾക്കിടയിൽ സ്വതന്ത്രമായി ടാസ്ക്കുകൾ ചെയ്യാൻ കഴിയും
- GUI മനസ്സിലാക്കാനും അതിൽ ഇടപെടാനും കഴിയും
"Qwen 3.5 can independently take actions across apps." — @thebuildrweekly
ഇതിനർത്ഥം ഇതൊരു 'ചാറ്റ്ബോട്ട്' അല്ല, മറിച്ച് 'ടാസ്ക് എക്സിക്യൂട്ടർ' ആണ്.
മത്സര രംഗം
X-ൽ ഈ ആഴ്ചയിലെ AI റിലീസുകളെക്കുറിച്ച് ഒരാൾ സംഗ്രഹിച്ചു:
"This might be the single biggest week in AI history: DeepSeek V4, Gemini 3.1 Pro, GPT-5.3, Qwen 3.5, Claude Sonnet 5." — @HeyAbhishek
ചൈനീസ് മോഡൽ നിർമ്മാതാക്കളുടെ രീതി വ്യക്തമാണ്:
- DeepSeek V4
- Qwen 3.5
- GLM 5
- MiniMax 2.5
ഓരോ ആഴ്ചയിലും പുതിയ മോഡലുകൾ പുറത്തിറങ്ങുന്നു, ഓരോ തവണയും GPT-യെക്കാൾ മികച്ചതാണെന്ന് അവകാശപ്പെടുന്നു. ഇതൊരു മാർക്കറ്റിംഗ് തന്ത്രമല്ല, മറിച്ച് ചെലവ് കുറഞ്ഞ മോഡലുകൾ തമ്മിലുള്ള മത്സരത്തിൻ്റെ വളർച്ചയാണ്.
ചെലവ് ഘടന
Qwen 3.5-ൻ്റെ ടോക്കൺ വില Gemini 3 Pro-യുടെ 1/18 മാത്രമാണ്.
"Qwen 3.5 with performance comparable to Gemini 3, and a token price of only 1/18 of the latter." — @dyz_ob
പ്രകടനം ഏകദേശം തുല്യവും ചെലവ് 5% മാത്രം ആകുമ്പോൾ, സ്വകാര്യ മോഡലുകളുടെ സംരക്ഷണം എവിടെയാണ്?
അടിവരയിടുന്നു
Qwen 3.5 ഒരു 'ചൈനീസ് GPT' അല്ല. ഇത് ചെലവ് ഘടനയെ തകിടം മറിക്കുന്ന ഒന്നാണ്:
- 397B പാരാമീറ്ററുകൾ, പക്ഷേ 17B മാത്രമേ സജീവമാകൂ
- ഓപ്പൺ വെയ്റ്റ്, പ്രാദേശികമായി ഉപയോഗിക്കാൻ കഴിയും
- ഏജൻ്റ് ശേഷി, സംഭാഷണത്തിന് മാത്രമല്ല
- എതിരാളികളേക്കാൾ 5% മാത്രം ചെലവ്
X-ൽ രസകരമായ ഒരു പ്രവചനമുണ്ട്:
"Qwen 3.5 Q4 പതിപ്പിന് 225G മാത്രമേ ആവശ്യമുള്ളൂ, വളരെ പ്രായോഗികമാണ്" — @janxin
225GB വീഡിയോ മെമ്മറി, ഒരു കമ്പ്യൂട്ടറിൽ പ്രവർത്തിപ്പിക്കാൻ കഴിയും. ഇതിനർത്ഥം ചെറുകിട ഡെവലപ്പർമാർക്ക് GPT-5 ലെവലിലുള്ള മോഡലുകൾ ആദ്യമായി ഉപയോഗിക്കാൻ കഴിയും എന്നാണ്.
Qwen 3.5-ന് GPT-5.3 നെ മറികടക്കാൻ കഴിയുമോ എന്നതല്ല യഥാർത്ഥ ചോദ്യം, മറിച്ച് മികച്ച മോഡലുകളുടെ ചെലവ് പൂജ്യത്തിന് അടുത്തേക്ക് എത്തുമ്പോൾ, AI കമ്പനികൾ എങ്ങനെ പണം സമ്പാദിക്കും എന്നതാണ്?





