Mašīnmācīšanās patiesais aizsarggrāvis
Kad mēs runājam par AI konkurenci, mēs parasti koncentrējamies uz modeļu arhitektūru, parametru apjomu un skaitļošanas jaudas ieguldījumiem. Bet tie nav īsti šķēršļi.
Algoritmus var kopēt. Skaitļošanas jaudu var nomāt. Bet patentēti reālās pasaules datu kanāli? Tas ir aizsarggrāvis.
ML konkurences trīs posmi
Pēdējo desmit gadu laikā mašīnmācīšanās konkurences fokuss ir mainījies trīs reizes:
Pirmais posms: algoritmu konkurence (2012-2017)
- Kam ir labāka modeļa arhitektūra
- CNN, RNN, Transformer izgudrotāji iegūst priekšrocības
- Bet pēc publikācijas visi var to izmantot
Otrais posms: skaitļošanas jaudas konkurence (2017-2022)
- Kam ir vairāk GPU
- GPT-3 apmācībai nepieciešami 1000+ V100
- Bet mākoņpakalpojumi padara skaitļošanas jaudu par iegādājamu preci
Trešais posms: datu konkurence (2022-tagad)
- Kam ir unikāls datu spararats
- Sintētiskie dati nevar aizstāt reālās pasaules datus
- Tas ir neatkārtojams šķērslis
Kāpēc dati ir pēdējais aizsarggrāvis?
Trīs iemesli:
- Retums: augstas kvalitātes, labi marķēti reāli dati ir dabiski reti
- Neapmaināmība: pat ja vēlaties maksāt, jūs nevarat iegādāties konkurentu datu kanālus
- Saliktais efekts: labāki dati → labāks produkts → vairāk lietotāju → vairāk datu
Viens ML praktizētājs rakstīja X:
"Algorithms can be replicated. Compute can be rented. But proprietary real-world data pipelines? That's a moat."
Tas uztver jautājuma būtību. Kad redzat, ka OpenAI paraksta ekskluzīvus līgumus ar izdevējiem un Google tērē miljardus, lai iegādātos Reddit datu piekļuvi, viņi nepērk saturu - viņi pērk apmācības datu aizsarggrāvi.

Novirzes-dispersijas kompromisa atgriešanās
Interesanti, ka, apspriežot datu kvalitāti, atgriežas mašīnmācīšanās klasiskākais jēdziens: novirzes-dispersijas kompromiss.
"Machine Learning in a nutshell: minimize error to achieve optimal bias-variance tradeoff. Higher the bias, more the error between predictions and ground truth - i.e. underfitting. Higher the variance, more the error from small fluctuations in the training set - i.e. overfitting." — @bindureddy
LLM laikmetā mēs reiz domājām, ka šis jēdziens ir novecojis. Bet izrādās, ka datu kvalitātes problēmu būtība joprojām ir novirzes un dispersijas līdzsvars - atkritumu dati rada novirzi, un homogenizēti dati izraisa dispersiju.
Matemātiskās perspektīvas maiņa
Cita tendence, kurai jāpievērš uzmanība, ir: padziļinās izpratne par ML matemātiskajiem pamatiem.
Viens pētnieks norādīja:
"The most powerful tool in your mathematical toolkit isn't a formula, it's a change of perspective... We're taught to see matrices as 'grids of numbers.' But to a machine learning engineer, a matrix is often secretly a graph."
Šī perspektīvas maiņa - no "skaitļu režģa" uz "grafu struktūru" - atklāj ML kognitīvo jauninājumu. Kad arvien vairāk cilvēku saprot, kā lineārā algebra, varbūtību teorija un optimizācijas teorija atbalsta šo "maģiju", nozare pāries no melnās kastes pielūgsmes uz baltās kastes izpratni.
Vides izmaksu problēma
Nevar ignorēt faktu, ka ML uzplaukums ir saistīts ar reālām vides izmaksām:
- 74% tehnoloģiju uzņēmumu "AI palīdz klimatam" paziņojumiem trūkst pierādījumu
- Google emisijas 2019.-2023. gadā pieauga par 48%
- Microsoft emisijas kopš 2020. gada ir pieaugušas par 29%
Šie skaitļi nāk no datu centru paplašināšanas, un datu centru paplašināšanas dzinējspēks ir ML apmācība un secinājumi. Šī nav līkne, kuru var bezgalīgi ekstrapolēt.
Ietekme uz praktizētājiem
Ja jūs ienākat ML jomā, ir trīs virzieni, kuriem jāpievērš uzmanība:
- Datu inženierija: grūtāk aizstāt nekā modeļa arhitektūra
- Jomas zināšanas: zināt, kādi dati ir vērtīgi, ir svarīgāk nekā zināt, kā apmācīt
- Sistēmiska domāšana: ML nav izolēts modelis, bet gan datu-modeļa-produkta-lietotāja slēgta cilpa
Kā kāds teica: kļūt par mācīšanās mašīnu pašam ir vissvarīgākā meta prasme dzīvē.
Bet precīzāks apgalvojums ir: kļūt par mācīšanās mašīnu, kas saprot datus, ir patiesa konkurētspēja šajā laikmetā.





