LLM അടുത്ത JPEG ആകുന്നു
ഞാനൊരു കഥ പറയാം.
1990-കളിൽ, നിങ്ങൾ ഒരാൾക്ക് ഒരു ഫോട്ടോ അയയ്ക്കാൻ ആഗ്രഹിക്കുന്നുവെങ്കിൽ, നിങ്ങൾ പല കാര്യങ്ങളും പരിഗണിക്കേണ്ടതുണ്ട്: ഫയൽ ഫോർമാറ്റ്, കംപ്രഷൻ അൽഗോരിതം, കളർ ഡെപ്ത്. ഓരോ സോഫ്റ്റ്വെയറിനും അതിൻ്റേതായ ഫോർമാറ്റുകളുണ്ട്. പിന്നീട് JPEG വന്നു.
പെട്ടെന്ന്, ആരും ഇമേജ് ഫോർമാറ്റുകളെക്കുറിച്ച് വിഷമിച്ചില്ല. JPEG ഒരു അടിസ്ഥാന സൗകര്യമായി മാറി. നിങ്ങൾ "ഞാൻ JPEG ഉപയോഗിച്ച് ഒരു ചിത്രം ഉണ്ടാക്കി" എന്ന് പറയില്ല, നിങ്ങൾ "ഞാനൊരു ചിത്രം അയച്ചു" എന്ന് മാത്രം പറയും.
LLM അതേ പാതയിലാണ്.
സാങ്കേതികവിദ്യ വായുവിൽ ലയിക്കുമ്പോൾ
"LLM ഒരു ഉൽപ്പന്നമാണ്. LLM കമ്പനികളിൽ നിന്ന് ടോക്കണുകൾ വാങ്ങാൻ Apple സന്തോഷിക്കും, പക്ഷേ Apple ഒരു വ്യതിരിക്ത ഉൽപ്പന്നം വിൽക്കുന്ന കമ്പനിയാണ്." — @deuteronormative
ഇതൊരു നേരായ പ്രസ്താവനയാണ്. നിങ്ങൾ Apple ആണെങ്കിൽ, നിങ്ങൾ സ്വന്തമായി വൈദ്യുതി ഉത്പാദിപ്പിക്കില്ല, നിങ്ങൾ ഗ്രിഡിൽ നിന്ന് വൈദ്യുതി വാങ്ങും. നിങ്ങൾ സ്വന്തമായി ടയറുകൾ ഉണ്ടാക്കില്ല, നിങ്ങൾ Michelin-ൽ നിന്ന് ടയറുകൾ വാങ്ങും. ഇപ്പോൾ, നിങ്ങൾ സ്വന്തമായി LLM പരിശീലിപ്പിക്കേണ്ടതില്ല, നിങ്ങൾ ക്ലൗഡിൽ നിന്ന് ടോക്കണുകൾ വാങ്ങുക.
LLM പ്രധാനമല്ലെന്ന് ഇതിനർത്ഥമില്ല. വൈദ്യുതി പ്രധാനമാണ്. ടയറുകൾ പ്രധാനമാണ്. പക്ഷേ അവ അടിസ്ഥാന സൗകര്യങ്ങളാണ്, ഒരു വ്യത്യാസമുണ്ടാക്കുന്ന ഘടകമല്ല.
വിലയുദ്ധത്തിലെ വിജയി
Alibaba അടുത്തിടെ പുറത്തിറക്കിയ Qwen 3.5:
- 397 ബില്യൺ പാരാമീറ്ററുകൾ, 17 ബില്യൺ ആക്ടിവേഷനുകൾ
- Qwen 3-നേക്കാൾ 60% വിലകുറവ്
- 8 മടങ്ങ് വേഗത
- Gemini 3 Pro-യുടെ 1/18 ആണ് ടോക്കൺ വില
ഇതൊരു സാങ്കേതിക മുന്നേറ്റമല്ല, ഇതൊരു വിലയുദ്ധമാണ്. LCD ടിവികളുടെ വിലയും ഇങ്ങനെയാണ് കുറഞ്ഞത്. 1000 ഡോളറിൽ താഴെ വിലയ്ക്ക് വിറ്റ ആദ്യത്തെ കമ്പനി മികച്ച സാങ്കേതികവിദ്യയുള്ളവരല്ല, പക്ഷേ അവരാണ് വിജയിച്ചത്.
പ്രായോഗിക ഉപദേശം
നിങ്ങൾ ഒരു ഡെവലപ്പർ ആണെങ്കിൽ, ഇതിനർത്ഥമെന്താണ്?
-
സ്വന്തമായി മോഡലുകൾ പരിശീലിപ്പിക്കരുത്. നിങ്ങൾ OpenAI, Anthropic അല്ലെങ്കിൽ Alibaba അല്ലെങ്കിൽ അല്ലെങ്കിൽ മോഡലുകൾ പരിശീലിപ്പിക്കുന്നത് പണം പാഴാക്കലാണ്. API ഉപയോഗിക്കുക.
-
പാരാമീറ്ററുകളേക്കാൾ വിലയിൽ ശ്രദ്ധിക്കുക. 397 ബില്യൺ പാരാമീറ്ററുകൾ കേൾക്കാൻ രസകരമാണ്, പക്ഷേ നിങ്ങളുടെ ഉപയോക്താക്കൾക്ക് അതൊരു വിഷയമല്ല. പ്രതികരണ വേഗതയും വിലയുമാണ് അവർക്ക് പ്രധാനം.
-
മാറ്റത്തിന് തയ്യാറാകുക. LLM ഒരു ഉൽപ്പന്നമാണ്, അതിനർത്ഥം അത് മാറ്റിസ്ഥാപിക്കാൻ കഴിയും. ഇന്ന് GPT ഉപയോഗിക്കുന്നു, നാളെ Claude, മറ്റന്നാൾ Qwen. നിങ്ങളുടെ ആർക്കിടെക്ചർ ഈ മാറ്റത്തെ പിന്തുണയ്ക്കണം.
രസകരമായ വൈരുദ്ധ്യം
LLM-നെക്കുറിച്ച് ഏറ്റവും കൂടുതൽ അറിയുന്ന ആളുകൾ അതിനെക്കുറിച്ച് അധികം സംസാരിക്കുന്നില്ല.
"Andrej Karpathy 240 വരികളിൽ പ്യുവർ പൈത്തൺ ഉപയോഗിച്ച് ഒരു മിനി GPT എഴുതി. TensorFlow ഇല്ല. PyTorch ഇല്ല. കണക്ക് മാത്രമേയുള്ളൂ. LLM ഒരു മാന്ത്രികവിദ്യയല്ലെന്ന് ഇത് കാണിക്കുന്നു - അവ അടുത്ത ടോക്കൺ പ്രവചനങ്ങൾ മാത്രമാണ്."
"അടുത്ത ടോക്കൺ പ്രവചനം" മാത്രമാണ് ഈ സാങ്കേതികവിദ്യയുടെ പൂർണ്ണതയെന്ന് നിങ്ങൾ മനസ്സിലാക്കുമ്പോൾ, പ്രചാരണങ്ങളെല്ലാം ഇല്ലാതാകും. ഇതൊരു കുറഞ്ഞ വിലയിരുത്തലല്ല. മൈക്രോവേവ് ഓവൻ വെള്ളം ചൂടാക്കുക മാത്രമാണ് ചെയ്യുന്നത്, പക്ഷേ അത് അടുക്കളയെ മാറ്റിമറിച്ചു.
അടുത്ത പടി
LLM JPEG പോലെയാകും: എല്ലായിടത്തും ഉണ്ടാകും, ആരും ചർച്ച ചെയ്യില്ല, പക്ഷേ ഒഴിച്ചുകൂടാനാവാത്തത്.
അതുവരെ, ബുദ്ധിയുള്ള ആളുകൾ വിലയുദ്ധത്തിൽ ഏറ്റവും വിലകുറഞ്ഞ വെണ്ടറെ തിരഞ്ഞെടുക്കും. കാരണം സാങ്കേതികവിദ്യ ഒരു ഉൽപ്പന്നമായി മാറുമ്പോൾ, വില മാത്രമാണ് പ്രധാനം.





