Tikrasis mašininio mokymosi barjeras
Kai kalbame apie AI konkurenciją, dažnai sutelkiame dėmesį į modelio architektūrą, parametrų mastą, skaičiavimo galią. Tačiau tai nėra tikri barjerai.
Algoritmus galima kopijuoti. Skaičiavimo galią galima išsinuomoti. Bet patentuoti realaus pasaulio duomenų srautai? Tai yra tikrasis barjeras.
ML Konkurencijos Trys Etapai
Per pastarąjį dešimtmetį mašininio mokymosi konkurencijos dėmesys pasikeitė tris kartus:
Pirmasis etapas: Algoritmų konkurencija (2012–2017)
- Kas turi geresnę modelio architektūrą
- CNN, RNN, Transformer išradėjai įgijo pranašumą
- Tačiau paskelbus straipsnį, visi gali juo naudotis
Antrasis etapas: Skaičiavimo galios konkurencija (2017–2022)
- Kas turi daugiau GPU
- GPT-3 apmokymui reikia daugiau nei 1000 V100
- Tačiau debesų paslaugos pavertė skaičiavimo galią perkamu produktu
Trečiasis etapas: Duomenų konkurencija (2022–dabar)
- Kas turi unikalų duomenų srautą
- Sintetiniai duomenys negali pakeisti realaus pasaulio duomenų
- Tai yra nepakeičiamas barjeras
Kodėl duomenys yra paskutinis barjeras?
Trys priežastys:
- Retumas: Aukštos kokybės, gerai paženklinti tikri duomenys yra natūraliai reti
- Neperleidžiamumas: Net jei norite sumokėti, negalite nusipirkti konkurento duomenų srauto
- Sudėtinės palūkanos: Geresni duomenys → geresnis produktas → daugiau vartotojų → daugiau duomenų
Vienas ML specialistas parašė X:
"Algorithms can be replicated. Compute can be rented. But proprietary real-world data pipelines? That's a moat."
Tai atspindi problemos esmę. Kai matote, kad OpenAI pasirašo išskirtines sutartis su leidėjais, o „Google“ išleidžia milijardus, kad įsigytų prieigą prie „Reddit“ duomenų, jie perka ne turinį – jie perka mokymo duomenų barjerą.

Grįžimas prie nuokrypio ir dispersijos kompromiso
Įdomu tai, kad kai kalbame apie duomenų kokybę, grįžta klasikinė mašininio mokymosi sąvoka: nuokrypio ir dispersijos kompromisas.
"Machine Learning in a nutshell: minimize error to achieve optimal bias-variance tradeoff. Higher the bias, more the error between predictions and ground truth - i.e. underfitting. Higher the variance, more the error from small fluctuations in the training set - i.e. overfitting." — @bindureddy
LLM eroje kartą manėme, kad ši sąvoka paseno. Tačiau paaiškėjo, kad duomenų kokybės problemos esmė vis dar yra nuokrypio ir dispersijos pusiausvyra – šiukšliniai duomenys sukuria nuokrypį, o homogeniški duomenys sukelia dispersiją.
Matematinės perspektyvos pokytis
Kita tendencija, į kurią verta atkreipti dėmesį, yra: gilėja ML matematinio pagrindo supratimas.
Vienas tyrėjas pažymėjo:
"The most powerful tool in your mathematical toolkit isn't a formula, it's a change of perspective... We're taught to see matrices as 'grids of numbers.' But to a machine learning engineer, a matrix is often secretly a graph."
Šis perspektyvos pokytis – nuo „skaičių tinklelio“ iki „grafo struktūros“ – atskleidžia ML vykstantį pažinimo atnaujinimą. Kai vis daugiau žmonių supranta, kaip tiesinė algebra, tikimybių teorija ir optimizavimo teorija palaiko šią „magiją“, pramonė pereis nuo juodos dėžės garbinimo prie baltos dėžės supratimo.
Aplinkosaugos sąnaudų problema
Negalima ignoruoti to, kad ML klestėjimą lydi tikra aplinkosauginė kaina:
- 74 % technologijų įmonių pareiškimų „AI padeda klimatui“ trūksta įrodymų
- „Google“ išmetamų teršalų kiekis 2019–2023 m. išaugo 48 %
- „Microsoft“ išmetamų teršalų kiekis nuo 2020 m. išaugo 29 %
Šie skaičiai gaunami iš duomenų centrų plėtros, o duomenų centrų plėtrą skatina ML mokymas ir išvedimas. Tai nėra kreivė, kurią galima be galo ekstrapoliuoti.
Pamokos specialistams
Jei įžengiate į ML sritį, yra trys sritys, į kurias verta atkreipti dėmesį:
- Duomenų inžinerija: sunkiau pakeičiama nei modelio architektūra
- Srities žinios: žinoti, kokie duomenys yra vertingi, yra svarbiau nei žinoti, kaip apmokyti
- Sisteminė mąstysena: ML nėra izoliuotas modelis, o duomenų-modelio-produkto-vartotojo uždaras ciklas
Kaip kažkas pasakė: tapti pačia besimokančia mašina yra svarbiausias gyvenimo meta-įgūdis.
Tačiau tiksliau būtų sakyti: tapti duomenis suprantančia besimokančia mašina yra tikrasis šio amžiaus konkurencinis pranašumas.





