LLM - келесі JPEG
Мен бір оқиға айтып берейін.
1990 жылдары, егер сіз біреуге сурет жібергіңіз келсе, көп нәрсені ескеру керек еді: файл пішімі, қысу алгоритмі, түс тереңдігі. Әрбір бағдарламалық жасақтаманың өзіндік пішімі болды. Содан кейін JPEG пайда болды.
Кенеттен ешкімді сурет пішімі қызықтырмайтын болды. JPEG инфрақұрылымға айналды. Сіз «Мен JPEG-пен сурет жасадым» демейсіз, сіз тек «Мен сурет жібердім» дейсіз.
LLM дәл осы жолмен жүріп келеді.
Технология ауаға айналғанда
"LLM - тауар. Apple LLM компанияларынан токендерді сатып алуға қуанышты, бірақ Apple - дифференциалды өнімдерді сататын компания." — @deuteronormative
Бұл сөз тікелей айтылған. Егер сіз Apple болсаңыз, сіз өзіңіз электр энергиясын өндірмейсіз, сіз электр желісінен электр энергиясын сатып аласыз. Сіз өзіңіз дөңгелек жасамаңыз, сіз Michelin-нен дөңгелек сатып аласыз. Енді сіз LLM-ді өзіңіз жаттықтырмайсыз, сіз бұлттан токендерді сатып аласыз.
Бұл LLM маңызды емес дегенді білдірмейді. Электр энергиясы маңызды. Дөңгелектер маңызды. Бірақ олар инфрақұрылым, дифференциалды фактор емес.
Шығын соғысының жеңімпазы
Alibaba жаңа ғана шығарған Qwen 3.5:
- 397 миллиард параметр, 17 миллиард белсенді
- Qwen 3-тен 60% арзан
- 8 есе жылдам
- Токен бағасы Gemini 3 Pro-ның 1/18 бөлігі
Бұл технологиялық серпіліс емес, бұл баға соғысы. Дәл осылай сұйық кристалды теледидарлардың бағасы төмендеді. 1000 доллардан төмен түскен бірінші кәсіпорын ең жақсы технологияға ие болған жоқ, бірақ ол жеңімпаз болды.
Прагматикалық кеңес
Егер сіз әзірлеуші болсаңыз, бұл нені білдіреді?
-
Модельді өзіңіз жаттықтырмаңыз. Егер сіз OpenAI, Anthropic немесе Alibaba болмасаңыз, модельді жаттықтыру - ақшаны ысырап ету. API-ді пайдаланыңыз.
-
Параметрлерге емес, бағаға назар аударыңыз. 397 миллиард параметр керемет естіледі, бірақ сіздің пайдаланушыларыңызға бәрібір. Олар жауап жылдамдығы мен құнына алаңдайды.
-
Көшуге дайын болыңыз. LLM - тауар, бұл ауыстыруға болатынын білдіреді. Бүгін GPT-ны, ертең Claude-ты, арғы күні Qwen-ді пайдаланыңыз. Сіздің архитектураңыз бұл ауысуды қолдауы керек.
Қызықты парадокс
LLM-ді ең жақсы түсінетін адамдар LLM туралы көп айтпайды.
"Andrej Karpathy 240 жол таза Python-да шағын GPT жазды. TensorFlow жоқ. PyTorch жоқ. Тек математика. Бұл LLM сиқыр емес екенін көрсетеді - олар жай ғана келесі токенді болжау."
«Келесі токенді болжау» осы технологияның барлығы екенін түсінгенде, көптеген дүрбелең жоғалады. Бұл кемсіту емес. Микротолқынды пеш су молекулаларын қыздырады, бірақ ол ас үйді өзгертті.
Келесі қадам
LLM JPEG сияқты нәрсеге айналады: барлық жерде бар, ешкім талқыламайды, бірақ қажет.
Оған дейін ақылды адамдар баға соғысында ең арзан жеткізушіні таңдайды. Өйткені технология тауарға айналғанда, жалғыз маңызды нәрсе - құны.





