Mašīnmācīšanās patiesais aizsarggrāvis

Kad mēs runājam par AI konkurenci, mēs parasti koncentrējamies uz modeļu arhitektūru, parametru apjomu un skaitļošanas jaudas ieguldījumiem. Bet tie nav īsti šķēršļi.

Algoritmus var kopēt. Skaitļošanas jaudu var nomāt. Bet patentēti reālās pasaules datu kanāli? Tas ir aizsarggrāvis.

ML konkurences trīs posmi

Pēdējo desmit gadu laikā mašīnmācīšanās konkurences fokuss ir mainījies trīs reizes:

Pirmais posms: algoritmu konkurence (2012-2017)

Kam ir labāka modeļa arhitektūra
CNN, RNN, Transformer izgudrotāji iegūst priekšrocības
Bet pēc publikācijas visi var to izmantot

Otrais posms: skaitļošanas jaudas konkurence (2017-2022)

Kam ir vairāk GPU
GPT-3 apmācībai nepieciešami 1000+ V100
Bet mākoņpakalpojumi padara skaitļošanas jaudu par iegādājamu preci

Trešais posms: datu konkurence (2022-tagad)

Kam ir unikāls datu spararats
Sintētiskie dati nevar aizstāt reālās pasaules datus
Tas ir neatkārtojams šķērslis

Kāpēc dati ir pēdējais aizsarggrāvis?

Trīs iemesli:

Retums: augstas kvalitātes, labi marķēti reāli dati ir dabiski reti
Neapmaināmība: pat ja vēlaties maksāt, jūs nevarat iegādāties konkurentu datu kanālus
Saliktais efekts: labāki dati → labāks produkts → vairāk lietotāju → vairāk datu

Viens ML praktizētājs rakstīja X:

"Algorithms can be replicated. Compute can be rented. But proprietary real-world data pipelines? That's a moat."

Tas uztver jautājuma būtību. Kad redzat, ka OpenAI paraksta ekskluzīvus līgumus ar izdevējiem un Google tērē miljardus, lai iegādātos Reddit datu piekļuvi, viņi nepērk saturu - viņi pērk apmācības datu aizsarggrāvi.

Datu kanāla shēma

Novirzes-dispersijas kompromisa atgriešanās

Interesanti, ka, apspriežot datu kvalitāti, atgriežas mašīnmācīšanās klasiskākais jēdziens: novirzes-dispersijas kompromiss.

"Machine Learning in a nutshell: minimize error to achieve optimal bias-variance tradeoff. Higher the bias, more the error between predictions and ground truth - i.e. underfitting. Higher the variance, more the error from small fluctuations in the training set - i.e. overfitting." — @bindureddy

LLM laikmetā mēs reiz domājām, ka šis jēdziens ir novecojis. Bet izrādās, ka datu kvalitātes problēmu būtība joprojām ir novirzes un dispersijas līdzsvars - atkritumu dati rada novirzi, un homogenizēti dati izraisa dispersiju.

Matemātiskās perspektīvas maiņa

Cita tendence, kurai jāpievērš uzmanība, ir: padziļinās izpratne par ML matemātiskajiem pamatiem.

Viens pētnieks norādīja:

"The most powerful tool in your mathematical toolkit isn't a formula, it's a change of perspective... We're taught to see matrices as 'grids of numbers.' But to a machine learning engineer, a matrix is often secretly a graph."

Šī perspektīvas maiņa - no "skaitļu režģa" uz "grafu struktūru" - atklāj ML kognitīvo jauninājumu. Kad arvien vairāk cilvēku saprot, kā lineārā algebra, varbūtību teorija un optimizācijas teorija atbalsta šo "maģiju", nozare pāries no melnās kastes pielūgsmes uz baltās kastes izpratni.

Vides izmaksu problēma

Nevar ignorēt faktu, ka ML uzplaukums ir saistīts ar reālām vides izmaksām:

74% tehnoloģiju uzņēmumu "AI palīdz klimatam" paziņojumiem trūkst pierādījumu
Google emisijas 2019.-2023. gadā pieauga par 48%
Microsoft emisijas kopš 2020. gada ir pieaugušas par 29%

Šie skaitļi nāk no datu centru paplašināšanas, un datu centru paplašināšanas dzinējspēks ir ML apmācība un secinājumi. Šī nav līkne, kuru var bezgalīgi ekstrapolēt.

Ietekme uz praktizētājiem

Ja jūs ienākat ML jomā, ir trīs virzieni, kuriem jāpievērš uzmanība:

Datu inženierija: grūtāk aizstāt nekā modeļa arhitektūra
Jomas zināšanas: zināt, kādi dati ir vērtīgi, ir svarīgāk nekā zināt, kā apmācīt
Sistēmiska domāšana: ML nav izolēts modelis, bet gan datu-modeļa-produkta-lietotāja slēgta cilpa

Kā kāds teica: kļūt par mācīšanās mašīnu pašam ir vissvarīgākā meta prasme dzīvē.

Bet precīzāks apgalvojums ir: kļūt par mācīšanās mašīnu, kas saprot datus, ir patiesa konkurētspēja šajā laikmetā.

Mašīnmācīšanās patiesais aizsarggrāvis

ML konkurences trīs posmi

Kāpēc dati ir pēdējais aizsarggrāvis?

Novirzes-dispersijas kompromisa atgriešanās

Matemātiskās perspektīvas maiņa

Vides izmaksu problēma

Ietekme uz praktizētājiem

You Might Also Like

Claude Code Buddy modificēšanas ceļvedis: kā iegūt spīdīgu leģendāro mājdzīvnieku

Obsidian ir izlaidusi Defuddle, pacelot Obsidian Web Clipper uz jauniem augstumiem

OpenAI pēkšņi paziņo par "trīs vienā": pārlūks + programmēšana + ChatGPT apvienošana, iekšēji atzīst, ka pagājušajā gadā tika pieļautas kļūdas

2026, vairs neuzspied sevi "pašdisciplīnai"! Veic šos 8 sīkumus, veselība nāks dabiski

Māmiņas, kas cenšas zaudēt svaru, bet nesasniedz rezultātus, noteikti ir šeit

AI Pārlūka 24 stundu stabilas darbības ceļvedis