LLM అనేది తదుపరి JPEG
నేను ఒక కథ చెబుతాను.
1990లలో, మీరు ఒక ఫోటోను ఎవరికైనా పంపాలనుకుంటే, మీరు చాలా విషయాలను పరిగణించవలసి ఉంటుంది: ఫైల్ ఫార్మాట్, కంప్రెషన్ అల్గారిథమ్, కలర్ డెప్త్. ప్రతి సాఫ్ట్వేర్కు దాని స్వంత ఫార్మాట్ ఉంది. అప్పుడు JPEG వచ్చింది.
హఠాత్తుగా, ఎవరూ ఇమేజ్ ఫార్మాట్ల గురించి పట్టించుకోవడం లేదు. JPEG ఒక మౌలిక సదుపాయంగా మారింది. మీరు "నేను JPEGతో ఒక చిత్రాన్ని చేసాను" అని చెప్పరు, మీరు "నేను ఒక చిత్రాన్ని పంపాను" అని మాత్రమే చెబుతారు.
LLM అదే మార్గంలో ఉంది.
సాంకేతికత గాలిగా మారినప్పుడు
"LLMలు వస్తువులు. Apple LLM కంపెనీల నుండి టోకెన్లను కొనుగోలు చేయడానికి సంతోషిస్తుంది, కానీ Apple అనేది విభిన్న ఉత్పత్తులను విక్రయించే సంస్థ." — @deuteronormative
ఈ వాక్యం సూటిగా ఉంది. మీరు Apple అయితే, మీరు మీ స్వంతంగా విద్యుత్ను ఉత్పత్తి చేయరు, మీరు గ్రిడ్ నుండి విద్యుత్ను కొనుగోలు చేస్తారు. మీరు మీ స్వంతంగా టైర్లను తయారు చేయరు, మీరు మిచెలిన్ నుండి టైర్లను కొనుగోలు చేస్తారు. ఇప్పుడు, మీరు మీ స్వంతంగా LLMను శిక్షణ ఇవ్వరు, మీరు క్లౌడ్ నుండి టోకెన్లను కొనుగోలు చేస్తారు.
LLM ముఖ్యమైనది కాదని దీని అర్థం కాదు. విద్యుత్ ముఖ్యం. టైర్లు ముఖ్యం. కానీ అవి మౌలిక సదుపాయాలు, విభిన్న కారకాలు కాదు.
ధరల యుద్ధంలో విజేత
Alibaba ఇటీవల విడుదల చేసిన Qwen 3.5:
- 397 బిలియన్ పారామీటర్లు, 17 బిలియన్ యాక్టివేషన్లు
- Qwen 3 కంటే 60% చౌక
- 8 రెట్లు వేగంగా
- టోకెన్ ధర Gemini 3 Proలో 1/18
ఇది సాంకేతిక పురోగతి కాదు, ఇది ధరల యుద్ధం. LCD టీవీలు కూడా ఆ రోజుల్లో ఇలాగే ధరలు తగ్గాయి. 1000 డాలర్ల కంటే తక్కువకు పడిపోయిన మొదటి సంస్థ సాంకేతికంగా ఉత్తమమైనది కాదు, కానీ అది విజేత.
ఆచరణాత్మక సలహా
మీరు డెవలపర్ అయితే, దీని అర్థం ఏమిటి?
-
మీ స్వంతంగా మోడల్లను శిక్షణ ఇవ్వకండి. మీరు OpenAI, Anthropic లేదా Alibaba కాకపోతే, మోడల్లకు శిక్షణ ఇవ్వడం అంటే డబ్బును వృథా చేయడం. APIలను ఉపయోగించండి.
-
పారామీటర్ల కంటే ధరపై దృష్టి పెట్టండి. 397 బిలియన్ పారామీటర్లు వినడానికి బాగుంటాయి, కానీ మీ వినియోగదారులు పట్టించుకోరు. వారు ప్రతిస్పందన వేగం మరియు ఖర్చు గురించి పట్టించుకుంటారు.
-
తరలించడానికి సిద్ధంగా ఉండండి. LLM అనేది ఒక వస్తువు, అంటే అది మార్చదగినది. ఈ రోజు GPTని ఉపయోగించండి, రేపు Claudeని ఉపయోగించండి, ఎల్లుండి Qwenని ఉపయోగించండి. మీ ఆర్కిటెక్చర్ ఈ మార్పుకు మద్దతు ఇవ్వాలి.
ఆసక్తికరమైన వైరుధ్యం
LLM గురించి బాగా తెలిసిన వ్యక్తులు LLM గురించి పెద్దగా మాట్లాడరు.
"Andrej Karpathy 240 లైన్ల స్వచ్ఛమైన Pythonలో ఒక చిన్న GPTని వ్రాసాడు. TensorFlow లేదు. PyTorch లేదు. గణితం మాత్రమే ఉంది. LLM అనేది మాయాజాలం కాదని ఇది చూపిస్తుంది - అవి తదుపరి టోకెన్ అంచనా మాత్రమే."
"తదుపరి టోకెన్ అంచనా" అనేది ఈ సాంకేతికత యొక్క మొత్తం అని మీరు అర్థం చేసుకున్నప్పుడు, చాలా ప్రచారం అదృశ్యమవుతుంది. ఇది తక్కువ చేయడం కాదు. మైక్రోవేవ్ నీటి అణువులను వేడి చేస్తుంది, కానీ అది వంటగదిని మార్చేసింది.
తదుపరి దశ
LLM అనేది JPEG వంటిదిగా మారుతుంది: సర్వత్రా ఉంటుంది, ఎవరూ చర్చించరు, కానీ అవసరం.
అప్పటి వరకు, తెలివైన వ్యక్తులు ధరల యుద్ధంలో చౌకైన సరఫరాదారుని ఎంచుకుంటారు. సాంకేతికత వస్తువుగా మారినప్పుడు, ఖర్చు మాత్రమే ముఖ్యం కాబట్టి.





