Tikrasis mašininio mokymosi barjeras

2/17/2026
3 min read

Kai kalbame apie AI konkurenciją, dažnai sutelkiame dėmesį į modelio architektūrą, parametrų mastą, skaičiavimo galią. Tačiau tai nėra tikri barjerai.

Algoritmus galima kopijuoti. Skaičiavimo galią galima išsinuomoti. Bet patentuoti realaus pasaulio duomenų srautai? Tai yra tikrasis barjeras.

ML Konkurencijos Trys Etapai

Per pastarąjį dešimtmetį mašininio mokymosi konkurencijos dėmesys pasikeitė tris kartus:

Pirmasis etapas: Algoritmų konkurencija (2012–2017)

  • Kas turi geresnę modelio architektūrą
  • CNN, RNN, Transformer išradėjai įgijo pranašumą
  • Tačiau paskelbus straipsnį, visi gali juo naudotis

Antrasis etapas: Skaičiavimo galios konkurencija (2017–2022)

  • Kas turi daugiau GPU
  • GPT-3 apmokymui reikia daugiau nei 1000 V100
  • Tačiau debesų paslaugos pavertė skaičiavimo galią perkamu produktu

Trečiasis etapas: Duomenų konkurencija (2022–dabar)

  • Kas turi unikalų duomenų srautą
  • Sintetiniai duomenys negali pakeisti realaus pasaulio duomenų
  • Tai yra nepakeičiamas barjeras

Kodėl duomenys yra paskutinis barjeras?

Trys priežastys:

  1. Retumas: Aukštos kokybės, gerai paženklinti tikri duomenys yra natūraliai reti
  2. Neperleidžiamumas: Net jei norite sumokėti, negalite nusipirkti konkurento duomenų srauto
  3. Sudėtinės palūkanos: Geresni duomenys → geresnis produktas → daugiau vartotojų → daugiau duomenų

Vienas ML specialistas parašė X:

"Algorithms can be replicated. Compute can be rented. But proprietary real-world data pipelines? That's a moat."

Tai atspindi problemos esmę. Kai matote, kad OpenAI pasirašo išskirtines sutartis su leidėjais, o „Google“ išleidžia milijardus, kad įsigytų prieigą prie „Reddit“ duomenų, jie perka ne turinį – jie perka mokymo duomenų barjerą.

Duomenų srauto schema

Grįžimas prie nuokrypio ir dispersijos kompromiso

Įdomu tai, kad kai kalbame apie duomenų kokybę, grįžta klasikinė mašininio mokymosi sąvoka: nuokrypio ir dispersijos kompromisas.

"Machine Learning in a nutshell: minimize error to achieve optimal bias-variance tradeoff. Higher the bias, more the error between predictions and ground truth - i.e. underfitting. Higher the variance, more the error from small fluctuations in the training set - i.e. overfitting." — @bindureddy

LLM eroje kartą manėme, kad ši sąvoka paseno. Tačiau paaiškėjo, kad duomenų kokybės problemos esmė vis dar yra nuokrypio ir dispersijos pusiausvyra – šiukšliniai duomenys sukuria nuokrypį, o homogeniški duomenys sukelia dispersiją.

Matematinės perspektyvos pokytis

Kita tendencija, į kurią verta atkreipti dėmesį, yra: gilėja ML matematinio pagrindo supratimas.

Vienas tyrėjas pažymėjo:

"The most powerful tool in your mathematical toolkit isn't a formula, it's a change of perspective... We're taught to see matrices as 'grids of numbers.' But to a machine learning engineer, a matrix is often secretly a graph."

Šis perspektyvos pokytis – nuo „skaičių tinklelio“ iki „grafo struktūros“ – atskleidžia ML vykstantį pažinimo atnaujinimą. Kai vis daugiau žmonių supranta, kaip tiesinė algebra, tikimybių teorija ir optimizavimo teorija palaiko šią „magiją“, pramonė pereis nuo juodos dėžės garbinimo prie baltos dėžės supratimo.

Aplinkosaugos sąnaudų problema

Negalima ignoruoti to, kad ML klestėjimą lydi tikra aplinkosauginė kaina:

  • 74 % technologijų įmonių pareiškimų „AI padeda klimatui“ trūksta įrodymų
  • „Google“ išmetamų teršalų kiekis 2019–2023 m. išaugo 48 %
  • „Microsoft“ išmetamų teršalų kiekis nuo 2020 m. išaugo 29 %

Šie skaičiai gaunami iš duomenų centrų plėtros, o duomenų centrų plėtrą skatina ML mokymas ir išvedimas. Tai nėra kreivė, kurią galima be galo ekstrapoliuoti.

Pamokos specialistams

Jei įžengiate į ML sritį, yra trys sritys, į kurias verta atkreipti dėmesį:

  1. Duomenų inžinerija: sunkiau pakeičiama nei modelio architektūra
  2. Srities žinios: žinoti, kokie duomenys yra vertingi, yra svarbiau nei žinoti, kaip apmokyti
  3. Sisteminė mąstysena: ML nėra izoliuotas modelis, o duomenų-modelio-produkto-vartotojo uždaras ciklas

Kaip kažkas pasakė: tapti pačia besimokančia mašina yra svarbiausias gyvenimo meta-įgūdis.

Tačiau tiksliau būtų sakyti: tapti duomenis suprantančia besimokančia mašina yra tikrasis šio amžiaus konkurencinis pranašumas.

Published in Technology

You Might Also Like