Истинският ров около замъка на машинното обучение
Когато говорим за AI конкуренцията, обикновено се фокусираме върху архитектурата на моделите, мащаба на параметрите и инвестициите в изчислителна мощност. Но нито едно от тези неща не е истинска бариера.
Алгоритмите могат да бъдат копирани. Изчислителната мощност може да бъде наета. Но собствените тръбопроводи за данни от реалния свят? Това е ровът около замъка.
Трите етапа на ML конкуренцията
През последното десетилетие фокусът на конкуренцията в машинното обучение претърпя три промени:
Първи етап: Алгоритмична конкуренция (2012-2017)
- Кой има по-добра архитектура на модела
- Изобретателите на CNN, RNN и Transformer получават предимство
- Но след публикуването на статията, всеки може да я използва
Втори етап: Конкуренция за изчислителна мощност (2017-2022)
- Кой има повече GPU
- Обучението на GPT-3 изисква 1000+ V100
- Но облачните услуги превръщат изчислителната мощност в купуваем продукт
Трети етап: Конкуренция за данни (2022-сега)
- Кой има уникален цикъл на данни
- Синтетичните данни не могат да заменят данните от реалния свят
- Това е незаменима бариера
Защо данните са последният ров около замъка?
Три причини:
- Оскъдност: Висококачествените, добре анотирани реални данни са естествено оскъдни
- Непрехвърлимост: Дори да сте готови да платите, не можете да купите тръбопроводите за данни на конкурентите
- Ефект на сложната лихва: По-добри данни → по-добър продукт → повече потребители → повече данни
ML специалист написа в X:
"Algorithms can be replicated. Compute can be rented. But proprietary real-world data pipelines? That's a moat."
Това улавя същността на проблема. Когато видите, че OpenAI подписва ексклузивни споразумения с издатели, а Google харчи милиарди за закупуване на достъп до данни на Reddit, те не купуват съдържание - те купуват ров около замъка за данни за обучение.

Завръщане към компромиса между отклонение и дисперсия
Интересното е, че когато обсъждаме качеството на данните, най-класическата концепция на машинното обучение се завръща: компромисът между отклонение и дисперсия.
"Machine Learning in a nutshell: minimize error to achieve optimal bias-variance tradeoff. Higher the bias, more the error between predictions and ground truth - i.e. underfitting. Higher the variance, more the error from small fluctuations in the training set - i.e. overfitting." — @bindureddy
В ерата на LLM веднъж си помислихме, че тази концепция е остаряла. Но се оказва, че същността на проблема с качеството на данните все още е балансът между отклонение и дисперсия - боклук данните генерират отклонение, а хомогенните данни водят до дисперсия.
Промяна в математическата перспектива
Друга тенденция, на която си струва да се обърне внимание, е: разбирането на математическите основи на ML се задълбочава.
Един изследовател отбеляза:
"The most powerful tool in your mathematical toolkit isn't a formula, it's a change of perspective... We're taught to see matrices as 'grids of numbers.' But to a machine learning engineer, a matrix is often secretly a graph."
Тази промяна в перспективата - от "мрежа от числа" към "графова структура" - разкрива когнитивния ъпгрейд, през който преминава ML. Когато все повече хора разберат как линейната алгебра, теорията на вероятностите и теорията на оптимизацията поддържат тези "магии", индустрията ще премине от поклонение пред черната кутия към разбиране на бялата кутия.
Проблем с екологичните разходи
Не може да се пренебрегне фактът, че просперитетът на ML е придружен от реални екологични разходи:
- 74% от твърденията на технологичните компании за "AI подпомага климата" нямат доказателства
- Емисиите на Google са се увеличили с 48% от 2019 до 2023 г.
- Емисиите на Microsoft са се увеличили с 29% от 2020 г.
Тези цифри идват от разширяването на центровете за данни, а движещата сила за разширяването на центровете за данни е обучението и изводът на ML. Това не е крива, която може да бъде екстраполирана безкрайно.
Последици за практикуващите
Ако навлизате в областта на ML, има три области, на които си струва да обърнете внимание:
- Инженеринг на данни: По-трудно е да бъде заменен от архитектурата на модела
- Познания за областта: Да знаете какви данни са ценни е по-важно от това да знаете как да тренирате
- Системно мислене: ML не е изолиран модел, а затворен цикъл от данни-модел-продукт-потребител
Както някой каза: Да станеш машина за учене сам по себе си е най-важното мета-умение в живота.
Но по-точният начин да се каже е: Да станеш машина за учене, която разбира данните, е истинското конкурентно предимство на тази епоха.





