Tikrasis mašininio mokymosi barjeras

Kai kalbame apie AI konkurenciją, dažnai sutelkiame dėmesį į modelio architektūrą, parametrų mastą, skaičiavimo galią. Tačiau tai nėra tikri barjerai.

Algoritmus galima kopijuoti. Skaičiavimo galią galima išsinuomoti. Bet patentuoti realaus pasaulio duomenų srautai? Tai yra tikrasis barjeras.

ML Konkurencijos Trys Etapai

Per pastarąjį dešimtmetį mašininio mokymosi konkurencijos dėmesys pasikeitė tris kartus:

Pirmasis etapas: Algoritmų konkurencija (2012–2017)

Kas turi geresnę modelio architektūrą
CNN, RNN, Transformer išradėjai įgijo pranašumą
Tačiau paskelbus straipsnį, visi gali juo naudotis

Antrasis etapas: Skaičiavimo galios konkurencija (2017–2022)

Kas turi daugiau GPU
GPT-3 apmokymui reikia daugiau nei 1000 V100
Tačiau debesų paslaugos pavertė skaičiavimo galią perkamu produktu

Trečiasis etapas: Duomenų konkurencija (2022–dabar)

Kas turi unikalų duomenų srautą
Sintetiniai duomenys negali pakeisti realaus pasaulio duomenų
Tai yra nepakeičiamas barjeras

Kodėl duomenys yra paskutinis barjeras?

Trys priežastys:

Retumas: Aukštos kokybės, gerai paženklinti tikri duomenys yra natūraliai reti
Neperleidžiamumas: Net jei norite sumokėti, negalite nusipirkti konkurento duomenų srauto
Sudėtinės palūkanos: Geresni duomenys → geresnis produktas → daugiau vartotojų → daugiau duomenų

Vienas ML specialistas parašė X:

"Algorithms can be replicated. Compute can be rented. But proprietary real-world data pipelines? That's a moat."

Tai atspindi problemos esmę. Kai matote, kad OpenAI pasirašo išskirtines sutartis su leidėjais, o „Google“ išleidžia milijardus, kad įsigytų prieigą prie „Reddit“ duomenų, jie perka ne turinį – jie perka mokymo duomenų barjerą.

Duomenų srauto schema

Grįžimas prie nuokrypio ir dispersijos kompromiso

Įdomu tai, kad kai kalbame apie duomenų kokybę, grįžta klasikinė mašininio mokymosi sąvoka: nuokrypio ir dispersijos kompromisas.

"Machine Learning in a nutshell: minimize error to achieve optimal bias-variance tradeoff. Higher the bias, more the error between predictions and ground truth - i.e. underfitting. Higher the variance, more the error from small fluctuations in the training set - i.e. overfitting." — @bindureddy

LLM eroje kartą manėme, kad ši sąvoka paseno. Tačiau paaiškėjo, kad duomenų kokybės problemos esmė vis dar yra nuokrypio ir dispersijos pusiausvyra – šiukšliniai duomenys sukuria nuokrypį, o homogeniški duomenys sukelia dispersiją.

Matematinės perspektyvos pokytis

Kita tendencija, į kurią verta atkreipti dėmesį, yra: gilėja ML matematinio pagrindo supratimas.

Vienas tyrėjas pažymėjo:

"The most powerful tool in your mathematical toolkit isn't a formula, it's a change of perspective... We're taught to see matrices as 'grids of numbers.' But to a machine learning engineer, a matrix is often secretly a graph."

Šis perspektyvos pokytis – nuo „skaičių tinklelio“ iki „grafo struktūros“ – atskleidžia ML vykstantį pažinimo atnaujinimą. Kai vis daugiau žmonių supranta, kaip tiesinė algebra, tikimybių teorija ir optimizavimo teorija palaiko šią „magiją“, pramonė pereis nuo juodos dėžės garbinimo prie baltos dėžės supratimo.

Aplinkosaugos sąnaudų problema

Negalima ignoruoti to, kad ML klestėjimą lydi tikra aplinkosauginė kaina:

74 % technologijų įmonių pareiškimų „AI padeda klimatui“ trūksta įrodymų
„Google“ išmetamų teršalų kiekis 2019–2023 m. išaugo 48 %
„Microsoft“ išmetamų teršalų kiekis nuo 2020 m. išaugo 29 %

Šie skaičiai gaunami iš duomenų centrų plėtros, o duomenų centrų plėtrą skatina ML mokymas ir išvedimas. Tai nėra kreivė, kurią galima be galo ekstrapoliuoti.

Pamokos specialistams

Jei įžengiate į ML sritį, yra trys sritys, į kurias verta atkreipti dėmesį:

Duomenų inžinerija: sunkiau pakeičiama nei modelio architektūra
Srities žinios: žinoti, kokie duomenys yra vertingi, yra svarbiau nei žinoti, kaip apmokyti
Sisteminė mąstysena: ML nėra izoliuotas modelis, o duomenų-modelio-produkto-vartotojo uždaras ciklas

Kaip kažkas pasakė: tapti pačia besimokančia mašina yra svarbiausias gyvenimo meta-įgūdis.

Tačiau tiksliau būtų sakyti: tapti duomenis suprantančia besimokančia mašina yra tikrasis šio amžiaus konkurencinis pranašumas.

Tikrasis mašininio mokymosi barjeras

ML Konkurencijos Trys Etapai

Kodėl duomenys yra paskutinis barjeras?

Grįžimas prie nuokrypio ir dispersijos kompromiso

Matematinės perspektyvos pokytis

Aplinkosaugos sąnaudų problema

Pamokos specialistams

You Might Also Like

Claude Code Buddy modificavimo vadovas: kaip gauti blizgantį legendinį augintinį

Obsidian pristatė Defuddle, pakeldama Obsidian Web Clipper į naujas aukštumas

OpenAI staiga paskelbė "trijų viename": naršyklė + programavimas + ChatGPT sujungimas, viduje pripažinta, kad per pastaruosius metus buvo padaryta klaida

2026, nebe reikės priversti save "savarankiškai"! Pasirūpinkite šiomis 8 mažomis užduotimis, sveikata ateis natūraliai

Motinos, kurios stengiasi numesti svorio, bet nesugeba, tikrai klysta čia

AI Naršyklė 24 valandų stabilaus veikimo vadovas