Вистинскиот ров на машинското учење
Кога зборуваме за конкуренцијата во вештачката интелигенција, обично се фокусираме на архитектурата на моделот, големината на параметрите и инвестициите во компјутерска моќ. Но, ниту едно од овие не е вистинска бариера.
Алгоритмите може да се копираат. Компјутерската моќ може да се изнајми. Но, сопствените канали за податоци од реалниот свет? Тоа е ровот.
Три фази на ML конкуренцијата
Во текот на изминатата деценија, фокусот на конкуренцијата во машинското учење претрпе три миграции:
Прва фаза: Алгоритамска конкуренција (2012-2017)
- Кој има подобра архитектура на модел
- Пронаоѓачите на CNN, RNN, Transformer добиваат предност
- Но, откако ќе се објави трудот, секој може да го користи
Втора фаза: Компјутерска конкуренција (2017-2022)
- Кој има повеќе GPU
- Обуката на GPT-3 бара 1000+ V100
- Но, услугите во облак ја прават компјутерската моќ куплива стока
Трета фаза: Конкуренција за податоци (2022-сега)
- Кој има уникатен круг на податоци
- Синтетичките податоци не можат да ги заменат податоците од реалниот свет
- Ова е нереплицирачка бариера
Зошто податоците се последниот ров?
Три причини:
- Недостаток: Висококвалитетни, добро означени реални податоци се природно ретки
- Неможност за тргување: Дури и ако сте подготвени да платите, не можете да купите канал за податоци на конкурентот
- Ефект на сложена камата: Подобри податоци → подобар производ → повеќе корисници → повеќе податоци
Еден ML практичар напиша на X:
"Algorithms can be replicated. Compute can be rented. But proprietary real-world data pipelines? That's a moat."
Ова ја доловува суштината на проблемот. Кога ќе видите дека OpenAI потпишува ексклузивни договори со издавачите, Google троши милијарди за да купи пристап до податоците на Reddit, тие не купуваат содржина - тие купуваат ров за податоци за обука.

Враќање на компромисот помеѓу пристрасност и варијанса
Интересно е што кога зборуваме за квалитетот на податоците, најкласичниот концепт на машинското учење се враќа: компромисот помеѓу пристрасност и варијанса.
"Machine Learning in a nutshell: minimize error to achieve optimal bias-variance tradeoff. Higher the bias, more the error between predictions and ground truth - i.e. underfitting. Higher the variance, more the error from small fluctuations in the training set - i.e. overfitting." — @bindureddy
Во ерата на LLM, еднаш мислевме дека овој концепт е застарен. Но, се испостави дека суштината на проблемот со квалитетот на податоците сè уште е рамнотежа помеѓу пристрасноста и варијансата - ѓубре податоци генерираат пристрасност, а хомогените податоци доведуваат до варијанса.
Промена на математичката перспектива
Друг тренд на кој треба да се обрне внимание е: разбирањето на математичките основи на ML се продлабочува.
Еден истражувач истакна:
"The most powerful tool in your mathematical toolkit isn't a formula, it's a change of perspective... We're taught to see matrices as 'grids of numbers.' But to a machine learning engineer, a matrix is often secretly a graph."
Оваа промена на перспективата - од „мрежа на броеви“ до „граф структура“ - открива когнитивна надградба низ која поминува ML. Кога сè повеќе луѓе ќе разберат како линеарната алгебра, теоријата на веројатност и теоријата на оптимизација ја поддржуваат оваа „магија“, индустријата ќе се префрли од обожување на црна кутија кон разбирање на бела кутија.
Проблем со трошоците за животната средина
Не може да се игнорира дека просперитетот на ML е придружен со вистинска еколошка цена:
- 74% од тврдењата на технолошките компании „AI помага на климата“ немаат докази
- Емисиите на Google се зголемија за 48% од 2019-2023 година
- Емисиите на Microsoft се зголемија за 29% од 2020 година
Овие бројки доаѓаат од проширувањето на центрите за податоци, а движечката сила на проширувањето на центрите за податоци е обуката и заклучувањето на ML. Ова не е крива што може да се екстраполира на неодредено време.
Импликации за практичарите
Ако влегувате во областа на ML, има три насоки на кои треба да обрнете внимание:
- Инженерство на податоци: потешко е да се замени од архитектурата на моделот
- Знаење за доменот: знаењето кои податоци се вредни е поважно од знаењето како да се тренира
- Системско размислување: ML не е изолиран модел, туку затворен круг на податоци-модел-производ-корисник
Како што рече некој: Да се стане машина за учење е најважната мета-вештина во животот.
Но, поточно е да се каже: Да се стане машина за учење која ги разбира податоците е вистинската конкурентска предност на оваа ера.





