Qwen 3.5 जारी: 397B पैरामीटर वाला ओपन वेट मॉडल, लागत में 60% की कमी
अलीबाबा ने अभी Qwen 3.5-397B-A17B जारी किया है। यह Qwen 3.5 श्रृंखला का पहला ओपन वेट मॉडल है।
मुख्य डेटा
- कुल पैरामीटर: 397B
- सक्रिय पैरामीटर: 17B प्रति पास (विरल MoE)
- थ्रूपुट: Qwen 3-Max से 8.6x-19x अधिक
- लागत: Qwen 3 से 60% कम
- भाषा समर्थन: 201 भाषाएँ (119 भाषाओं से विस्तारित)
यह केवल पैरामीटरों का ढेर नहीं है। यह दक्षता की पुन: परिभाषा है।

आर्किटेक्चर नवाचार
Qwen 3.5 एक हाइब्रिड आर्किटेक्चर का उपयोग करता है:
- Gated Delta Networks + विरल MoE
- हाइब्रिड लीनियर अटेंशन: अधिकांश परतें लीनियर अटेंशन का उपयोग करती हैं, प्रत्येक 4 परतें पूर्ण अटेंशन का उपयोग करती हैं
- मूल मल्टीमॉडल: बाद में जोड़ा नहीं गया, बल्कि शुरू से प्रशिक्षित किया गया
X पर तकनीकी विश्लेषण है:
"Qwen3.5-397B-A17B: Hybrid linear attention + sparse MoE with large-scale RL environment scaling." — @Alibaba_Qwen
इस आर्किटेक्चर का अर्थ है: 17B सक्रिय पैरामीटर के साथ लगभग 400B मॉडल का प्रदर्शन प्राप्त करना। अनुमान लागत में भारी कमी आई है।
प्रदर्शन दावे
अलीबाबा का दावा है कि Qwen 3.5 ने हराया है:
- GPT-5.2
- Claude Opus 4.5
- Gemini 3 Pro
X पर स्वतंत्र परीक्षकों ने सत्यापन शुरू कर दिया है:
"Qwen 3.5-397B dropped today... and the benchmarks are insane. Trading blows with Claude Opus 4.5 and GPT-5.2 across the board." — @antonpme
लेकिन सबसे महत्वपूर्ण बेंचमार्क नहीं है, बल्कि एजेंट क्षमता है:
"The agentic capabilities are the real story here. Qwen 3.5 can interact with GUIs, not just understand them. That's the unlock for workflows that touch existing software." — @thebuildrweekly
एजेंट युग
Qwen 3.5 की स्थिति स्पष्ट है: एजेंट युग के लिए डिज़ाइन किया गया।
- 2 घंटे के वीडियो का विश्लेषण कर सकते हैं
- स्वतंत्र रूप से क्रॉस-एप्लिकेशन कार्य कर सकते हैं
- GUI को समझ सकते हैं और उसके साथ इंटरैक्ट कर सकते हैं
"Qwen 3.5 can independently take actions across apps." — @thebuildrweekly
इसका मतलब है कि यह "चैटबॉट" नहीं है, बल्कि "कार्य निष्पादक" है।
प्रतिस्पर्धा परिदृश्य
X पर किसी ने इस सप्ताह की AI रिलीज़ का सारांश दिया:
"This might be the single biggest week in AI history: DeepSeek V4, Gemini 3.1 Pro, GPT-5.3, Qwen 3.5, Claude Sonnet 5." — @HeyAbhishek
चीनी मॉडल निर्माताओं की लय स्पष्ट है:
- DeepSeek V4
- Qwen 3.5
- GLM 5
- MiniMax 2.5
हर हफ्ते एक नया मॉडल आता है, और हर बार GPT को हराने का दावा किया जाता है। यह मार्केटिंग नहीं है, यह लागत युद्ध का उन्नयन है।
लागत संरचना
Qwen 3.5 का टोकन मूल्य Gemini 3 Pro का केवल 1/18 है।
"Qwen 3.5 with performance comparable to Gemini 3, and a token price of only 1/18 of the latter." — @dyz_ob
जब प्रदर्शन लगभग समान हो और लागत केवल 5% हो, तो बंद स्रोत मॉडल की खाई कहाँ है?
निचला रेखा
Qwen 3.5 "चीन का GPT" नहीं है। यह लागत संरचना का विघटनकारी है:
- 397B पैरामीटर, लेकिन केवल 17B सक्रिय
- ओपन वेट, स्थानीय रूप से तैनात किया जा सकता है
- एजेंट क्षमता, केवल बातचीत नहीं
- लागत प्रतिस्पर्धियों की तुलना में केवल 5%
X पर एक दिलचस्प भविष्यवाणी है:
"Qwen 3.5 Q4 版本只需要 225G,很有实用价值" — @janxin
225GB VRAM, सिंगल मशीन पर चल सकता है। इसका मतलब है कि छोटे और मध्यम आकार के डेवलपर्स पहली बार GPT-5 स्तर के मॉडल तक पहुंच सकते हैं।
वास्तविक सवाल यह नहीं है कि Qwen 3.5 GPT-5.3 को हरा सकता है या नहीं, बल्कि यह है कि: जब शीर्ष मॉडल की लागत लगभग शून्य हो जाती है, तो AI कंपनियां कैसे पैसा कमाएंगी?





