GLM-5: Wakati Mifano Mikubwa Inapojifunza "Kuandika Msimbo Mwenyewe", Kutoka Vibe Coding Hadi Agentic Engineering
GLM-5: Wakati Mifano Mikubwa Inapojifunza "Kuandika Msimbo Mwenyewe", Kutoka Vibe Coding Hadi Agentic Engineering
❝
🎯 Muhtasari kwa Sentensi Moja: Timu ya Zhiyu AI kwa ushirikiano na Chuo Kikuu cha Tsinghua imeanzisha mfano wa GLM-5 wenye vigezo 744B, kupitia DeepSeek Sparse Attention (DSA) kupunguza mzigo wa hesabu za umakini, kujifunza kwa nguvu kwa njia isiyo ya kawaida (Async RL) kutatua ufanisi wa mafunzo ya kazi ndefu, na mchakato wa mafunzo wa hatua nyingi, kuruhusu mfano mkubwa kubadilika kutoka "Vibe Coding" hadi "Mhandisi wa Akili" (Agentic Engineering) ambaye anaweza kukamilisha miradi halisi ya uhandisi kwa uhuru.
Kwanini Tunahitaji Karatasi Hii?
Andrej Karpathy mwanzoni mwa mwaka wa 2025 alileta wazo la kuvutia - Vibe Coding, maana yake ni kwamba unahitaji tu kuelezea mahitaji kwa lugha ya asili, "kwa hisia" kumruhusu AI kuandika msimbo. Hii kwa kweli ni uzoefu wa kawaida wa programu za AI za sasa: unasema sentensi, mfano unakusaidia kuunda kipande cha msimbo, kama inavyofanya vizuri inategemea bahati.
Lakini tatizo linakuja: Uhandisi wa programu halisi si rahisi kama "kuandika msimbo" pekee. Mhandisi halisi anahitaji kuelewa muundo wa mradi, kurekebisha makosa, kusimamia utegemezi, kushughulikia ushirikiano kati ya moduli - haya yote si mambo ambayo "kuandika msimbo kwa prompt moja" yanaweza kuyatatua. Lengo la karatasi hii ya GLM-5 ni kubadilisha mfano kutoka "msaidizi wa kuandika msimbo" kuwa "mhandisi anayeweza kukamilisha mradi mzima kwa uhuru".
Hii si lengo dogo. Ili kufikia hilo, timu ya Zhiyu imefanya uvumbuzi mwingi katika muundo wa mfano, mchakato wa mafunzo, na algorithimu za kujifunza kwa nguvu. Tafsiri hii itakusaidia kufafanua maelezo haya ya kiufundi.
Mchango wa Msingi: Silaha Tatu
Kabla ya kuingia kwenye maelezo, hebu tuweke wazi mchango tatu wa msingi wa GLM-5:
Mchango unatatua tatizo wazo kuu DSA Sparse Attention 128K muktadha wa hesabu umeongezeka kwa kasi kuchagua token muhimu, kupita zisizo husika, kuokoa mara 1.5-2 ya nguvu za hesabu Msingi wa Kujifunza kwa Nguvu mafunzo ya RL ya kazi ndefu GPU inakuwa na muda mwingi wa kupumzika kuunda na mafunzo kutenganishwa kabisa, mchakato wa sambamba Mchakato wa Mafunzo wa Hatua Nyingi uelewa, kuandika, akili na uwezo mwingi ni vigumu kuzingatia SFT→ uelewa RL→ akili RL→ RL ya jumla, kuongezeka kwa uwezo hatua kwa hatua
Muundo wa Mfano: Kufanya "Kukata" Kwenye Msingi wa MoE
Mipangilio ya Msingi
GLM-5 inatumia Mixture-of-Experts (MoE) muundo, jumla ya vigezo 744B, lakini wakati wa uelewa inactivates karibu vigezo 40B pekee. Muundo huu wa "kubwa na wa kawaida" umekuwa makubaliano ya tasnia - DeepSeek-V3/R1, Qwen3 zote zimefuata njia kama hii.
DSA inafanya kazi vipi?
Wazo kuu la DSA linaweza kueleweka kwa mfano: fikiria uko kwenye maktaba unatafuta taarifa. Umakini wa Kawaida ni kama kuangalia kila kitabu kwenye maktaba, kisha kuamua ni yapi yanafaa. Na DSA ni kama maktaba mwenye uzoefu - kwanza inatumia Lightning Index kuangalia haraka vichwa vya vitabu, kuzingatia maeneo kadhaa yanayoweza kuwa muhimu, kisha inasoma kwa makini tu aya maalum katika maeneo haya.
Mchakato wa Mafunzo: Hatua Nne za "Kupambana na Monsters"
Mchakato wa mafunzo wa GLM-5 ni sehemu kuu ya karatasi hii, umegawanywa katika hatua mbili kubwa: Mafunzo ya Awali na Mafunzo ya Baada.
Hatua ya Mafunzo ya Awali
- Kiwango cha Takwimu: 27T token, uwiano wa mchanganyiko wa data unajumuisha tovuti, msimbo, karatasi za kitaaluma, vitabu, n.k.
- Upanuzi wa Muktadha: kupitia mafunzo ya kati, muktadha unapanuliwa kutoka 4K hadi 200K, ukitumia marekebisho ya mara kwa mara ya RoPE
- Hatua ya Kupunguza: mwishoni mwa mafunzo ya awali, kutumia data ya ubora wa juu kufanya "kurekebisha"
Hatua Nne za Mafunzo ya Baada
Hii ni sehemu ya kipekee ya GLM-5. GLM-5 ilifanya mizunguko minne:
- Kurekebisha kwa Usimamizi (SFT) kutumia data ya maagizo ya ubora wa juu kufanya marekebisho.
- Kujifunza kwa Nguvu ya Uelewa (Reasoning RL) katika kazi za uelewa wa hesabu na msimbo.
- Kujifunza kwa Nguvu ya Akili (Agentic RL), hii ni uvumbuzi muhimu.
- Kujifunza kwa Nguvu ya Jumla (General RL), katika kazi pana zaidi za jumla.
Kujifunza kwa Nguvu kwa Njia Isiyo ya Kawaida: Kuweka GPU Iweze Kazi
Mafunzo ya RL ya jadi ni sawa: kukusanya kundi la data → kuhesabu tuzo → kuboresha mfano → kukusanya tena. Hii haina tatizo katika hali za muda mfupi wa kazi, lakini kazi za akili mara nyingi zinahitaji hatua nyingi za mwingiliano.
Tafsiri ya Matokeo ya Majaribio
Mifano Kuu ya Kulinganisha
Mifano GLM-5DeepSeek-V3.2Claude Opus 4.5Gemini 3 ProGPT-5.2MMLU-Pro78.075.978.074.376.1GPQA-Diamond71.768.467.163.670.5BrowseComp57.132.026.325.146.9
Muhtasari
Karatasi hii ya GLM-5 ina taarifa nyingi. Bila kujali nambari maalum, ujumbe wa msingi ni: Uwanja ujao wa mifano mikubwa uko katika "kufanya kazi" na sio tu "kujibu maswali".
Katika kiwango cha ushindani, GLM-5 inaonyesha ushindani wa timu za AI za China katika utafiti wa mipango mikubwa.

