Вистинскиот ров на машинското учење

Кога зборуваме за конкуренцијата во вештачката интелигенција, обично се фокусираме на архитектурата на моделот, големината на параметрите и инвестициите во компјутерска моќ. Но, ниту едно од овие не е вистинска бариера.

Алгоритмите може да се копираат. Компјутерската моќ може да се изнајми. Но, сопствените канали за податоци од реалниот свет? Тоа е ровот.

Три фази на ML конкуренцијата

Во текот на изминатата деценија, фокусот на конкуренцијата во машинското учење претрпе три миграции:

Прва фаза: Алгоритамска конкуренција (2012-2017)

Кој има подобра архитектура на модел
Пронаоѓачите на CNN, RNN, Transformer добиваат предност
Но, откако ќе се објави трудот, секој може да го користи

Втора фаза: Компјутерска конкуренција (2017-2022)

Кој има повеќе GPU
Обуката на GPT-3 бара 1000+ V100
Но, услугите во облак ја прават компјутерската моќ куплива стока

Трета фаза: Конкуренција за податоци (2022-сега)

Кој има уникатен круг на податоци
Синтетичките податоци не можат да ги заменат податоците од реалниот свет
Ова е нереплицирачка бариера

Зошто податоците се последниот ров?

Три причини:

Недостаток: Висококвалитетни, добро означени реални податоци се природно ретки
Неможност за тргување: Дури и ако сте подготвени да платите, не можете да купите канал за податоци на конкурентот
Ефект на сложена камата: Подобри податоци → подобар производ → повеќе корисници → повеќе податоци

Еден ML практичар напиша на X:

"Algorithms can be replicated. Compute can be rented. But proprietary real-world data pipelines? That's a moat."

Ова ја доловува суштината на проблемот. Кога ќе видите дека OpenAI потпишува ексклузивни договори со издавачите, Google троши милијарди за да купи пристап до податоците на Reddit, тие не купуваат содржина - тие купуваат ров за податоци за обука.

Шема на канал за податоци

Враќање на компромисот помеѓу пристрасност и варијанса

Интересно е што кога зборуваме за квалитетот на податоците, најкласичниот концепт на машинското учење се враќа: компромисот помеѓу пристрасност и варијанса.

"Machine Learning in a nutshell: minimize error to achieve optimal bias-variance tradeoff. Higher the bias, more the error between predictions and ground truth - i.e. underfitting. Higher the variance, more the error from small fluctuations in the training set - i.e. overfitting." — @bindureddy

Во ерата на LLM, еднаш мислевме дека овој концепт е застарен. Но, се испостави дека суштината на проблемот со квалитетот на податоците сè уште е рамнотежа помеѓу пристрасноста и варијансата - ѓубре податоци генерираат пристрасност, а хомогените податоци доведуваат до варијанса.

Промена на математичката перспектива

Друг тренд на кој треба да се обрне внимание е: разбирањето на математичките основи на ML се продлабочува.

Еден истражувач истакна:

"The most powerful tool in your mathematical toolkit isn't a formula, it's a change of perspective... We're taught to see matrices as 'grids of numbers.' But to a machine learning engineer, a matrix is often secretly a graph."

Оваа промена на перспективата - од „мрежа на броеви“ до „граф структура“ - открива когнитивна надградба низ која поминува ML. Кога сè повеќе луѓе ќе разберат како линеарната алгебра, теоријата на веројатност и теоријата на оптимизација ја поддржуваат оваа „магија“, индустријата ќе се префрли од обожување на црна кутија кон разбирање на бела кутија.

Проблем со трошоците за животната средина

Не може да се игнорира дека просперитетот на ML е придружен со вистинска еколошка цена:

74% од тврдењата на технолошките компании „AI помага на климата“ немаат докази
Емисиите на Google се зголемија за 48% од 2019-2023 година
Емисиите на Microsoft се зголемија за 29% од 2020 година

Овие бројки доаѓаат од проширувањето на центрите за податоци, а движечката сила на проширувањето на центрите за податоци е обуката и заклучувањето на ML. Ова не е крива што може да се екстраполира на неодредено време.

Импликации за практичарите

Ако влегувате во областа на ML, има три насоки на кои треба да обрнете внимание:

Инженерство на податоци: потешко е да се замени од архитектурата на моделот
Знаење за доменот: знаењето кои податоци се вредни е поважно од знаењето како да се тренира
Системско размислување: ML не е изолиран модел, туку затворен круг на податоци-модел-производ-корисник

Како што рече некој: Да се стане машина за учење е најважната мета-вештина во животот.

Но, поточно е да се каже: Да се стане машина за учење која ги разбира податоците е вистинската конкурентска предност на оваа ера.

Вистинскиот ров на машинското учење

Три фази на ML конкуренцијата

Зошто податоците се последниот ров?

Враќање на компромисот помеѓу пристрасност и варијанса

Промена на математичката перспектива

Проблем со трошоците за животната средина

Импликации за практичарите

You Might Also Like

Claude Code Buddy измена упатство: Како да добиете сјаен легендарен милениче

Obsidian ја лансираше Defuddle, го подигна Obsidian Web Clipper на ново ниво

OpenAI ненадејно објави "три во едно": спојување на прелистувач, програмирање и ChatGPT, внатрешно признавање на погрешниот пат во изминатата година

2026, не се присилувајте на "самодисциплина"! Направете ги овие 8 мали работи, здравјето ќе дојде природно

Тие мајки кои се трудат да ослабат, но не успеваат, сигурно се заглавени тука

AI Browser 24 часов стабилно работење водич