Истинският ров около замъка на машинното обучение

Когато говорим за AI конкуренцията, обикновено се фокусираме върху архитектурата на моделите, мащаба на параметрите и инвестициите в изчислителна мощност. Но нито едно от тези неща не е истинска бариера.

Алгоритмите могат да бъдат копирани. Изчислителната мощност може да бъде наета. Но собствените тръбопроводи за данни от реалния свят? Това е ровът около замъка.

Трите етапа на ML конкуренцията

През последното десетилетие фокусът на конкуренцията в машинното обучение претърпя три промени:

Първи етап: Алгоритмична конкуренция (2012-2017)

Кой има по-добра архитектура на модела
Изобретателите на CNN, RNN и Transformer получават предимство
Но след публикуването на статията, всеки може да я използва

Втори етап: Конкуренция за изчислителна мощност (2017-2022)

Кой има повече GPU
Обучението на GPT-3 изисква 1000+ V100
Но облачните услуги превръщат изчислителната мощност в купуваем продукт

Трети етап: Конкуренция за данни (2022-сега)

Кой има уникален цикъл на данни
Синтетичните данни не могат да заменят данните от реалния свят
Това е незаменима бариера

Защо данните са последният ров около замъка?

Три причини:

Оскъдност: Висококачествените, добре анотирани реални данни са естествено оскъдни
Непрехвърлимост: Дори да сте готови да платите, не можете да купите тръбопроводите за данни на конкурентите
Ефект на сложната лихва: По-добри данни → по-добър продукт → повече потребители → повече данни

ML специалист написа в X:

"Algorithms can be replicated. Compute can be rented. But proprietary real-world data pipelines? That's a moat."

Това улавя същността на проблема. Когато видите, че OpenAI подписва ексклузивни споразумения с издатели, а Google харчи милиарди за закупуване на достъп до данни на Reddit, те не купуват съдържание - те купуват ров около замъка за данни за обучение.

Схема на тръбопровод за данни

Завръщане към компромиса между отклонение и дисперсия

Интересното е, че когато обсъждаме качеството на данните, най-класическата концепция на машинното обучение се завръща: компромисът между отклонение и дисперсия.

"Machine Learning in a nutshell: minimize error to achieve optimal bias-variance tradeoff. Higher the bias, more the error between predictions and ground truth - i.e. underfitting. Higher the variance, more the error from small fluctuations in the training set - i.e. overfitting." — @bindureddy

В ерата на LLM веднъж си помислихме, че тази концепция е остаряла. Но се оказва, че същността на проблема с качеството на данните все още е балансът между отклонение и дисперсия - боклук данните генерират отклонение, а хомогенните данни водят до дисперсия.

Промяна в математическата перспектива

Друга тенденция, на която си струва да се обърне внимание, е: разбирането на математическите основи на ML се задълбочава.

Един изследовател отбеляза:

"The most powerful tool in your mathematical toolkit isn't a formula, it's a change of perspective... We're taught to see matrices as 'grids of numbers.' But to a machine learning engineer, a matrix is often secretly a graph."

Тази промяна в перспективата - от "мрежа от числа" към "графова структура" - разкрива когнитивния ъпгрейд, през който преминава ML. Когато все повече хора разберат как линейната алгебра, теорията на вероятностите и теорията на оптимизацията поддържат тези "магии", индустрията ще премине от поклонение пред черната кутия към разбиране на бялата кутия.

Проблем с екологичните разходи

Не може да се пренебрегне фактът, че просперитетът на ML е придружен от реални екологични разходи:

74% от твърденията на технологичните компании за "AI подпомага климата" нямат доказателства
Емисиите на Google са се увеличили с 48% от 2019 до 2023 г.
Емисиите на Microsoft са се увеличили с 29% от 2020 г.

Тези цифри идват от разширяването на центровете за данни, а движещата сила за разширяването на центровете за данни е обучението и изводът на ML. Това не е крива, която може да бъде екстраполирана безкрайно.

Последици за практикуващите

Ако навлизате в областта на ML, има три области, на които си струва да обърнете внимание:

Инженеринг на данни: По-трудно е да бъде заменен от архитектурата на модела
Познания за областта: Да знаете какви данни са ценни е по-важно от това да знаете как да тренирате
Системно мислене: ML не е изолиран модел, а затворен цикъл от данни-модел-продукт-потребител

Както някой каза: Да станеш машина за учене сам по себе си е най-важното мета-умение в живота.

Но по-точният начин да се каже е: Да станеш машина за учене, която разбира данните, е истинското конкурентно предимство на тази епоха.

Истинският ров около замъка на машинното обучение

Трите етапа на ML конкуренцията

Защо данните са последният ров около замъка?

Завръщане към компромиса между отклонение и дисперсия

Промяна в математическата перспектива

Проблем с екологичните разходи

Последици за практикуващите

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian пусна Defuddle, повишавайки Obsidian Web Clipper до ново ниво

OpenAI внезапно обяви "три в едно": сливане на браузър, програмиране и ChatGPT, вътрешно признавайки, че е поело грешен курс през последната година

2026, не се насилвайте да бъдете "дисциплинирани"! Правете тези 8 малки неща и здравето ще дойде естествено

Майките, които се опитват да отслабнат, но не успяват, определено са попаднали тук

AI Browser 24小时稳定运行指南