Pravi obrambeni zid strojnog učenja
Kada govorimo o AI konkurenciji, obično se fokusiramo na arhitekture modela, veličinu parametara i ulaganje u računalnu snagu. Ali to nisu prave barijere.
Algoritmi se mogu kopirati. Računalna snaga se može iznajmiti. Ali vlasnički cjevovodi podataka iz stvarnog svijeta? To je obrambeni zid.
Tri faze ML konkurencije
U proteklom desetljeću, fokus konkurencije u strojnom učenju prošao je kroz tri migracije:
Prva faza: Konkurencija algoritama (2012.-2017.)
- Tko ima bolju arhitekturu modela
- Izumitelji CNN-a, RNN-a i Transformera stekli su prednost
- Ali nakon objave rada, svi ga mogu koristiti
Druga faza: Konkurencija računalne snage (2017.-2022.)
- Tko ima više GPU-ova
- Za treniranje GPT-3 potrebno je 1000+ V100
- Ali usluge u oblaku čine računalnu snagu robom koju je moguće kupiti
Treća faza: Konkurencija podataka (2022.-danas)
- Tko ima jedinstveni podatkovni krug
- Sintetički podaci ne mogu zamijeniti podatke iz stvarnog svijeta
- Ovo je nezamjenjiva barijera
Zašto su podaci posljednji obrambeni zid?
Tri razloga:
- Rijetkost: Visokokvalitetni, dobro označeni stvarni podaci su prirodno rijetki
- Ne može se trgovati: Čak i ako ste spremni platiti, ne možete kupiti podatkovne cjevovode konkurenata
- Efekt složenosti: Bolji podaci → bolji proizvod → više korisnika → više podataka
ML praktičar je napisao na X-u:
"Algorithms can be replicated. Compute can be rented. But proprietary real-world data pipelines? That's a moat."
Ovo pogađa bit problema. Kada vidite da OpenAI potpisuje ekskluzivne ugovore s izdavačima, a Google troši milijarde na kupnju pristupa podacima Reddita, oni ne kupuju sadržaj - oni kupuju obrambeni zid podataka za treniranje.

Povratak kompromisa pristranosti i varijance
Zanimljivo je da se, kada raspravljamo o kvaliteti podataka, vraća najklasičniji koncept strojnog učenja: kompromis pristranosti i varijance.
"Machine Learning in a nutshell: minimize error to achieve optimal bias-variance tradeoff. Higher the bias, more the error between predictions and ground truth - i.e. underfitting. Higher the variance, more the error from small fluctuations in the training set - i.e. overfitting." — @bindureddy
U eri LLM-ova, neko smo vrijeme mislili da je ovaj koncept zastario. Ali ispostavilo se da je bit problema kvalitete podataka i dalje ravnoteža između pristranosti i varijance - smeće podaci stvaraju pristranost, a homogeni podaci dovode do varijance.
Promjena matematičke perspektive
Još jedan trend na koji treba obratiti pozornost je: produbljivanje razumijevanja matematičkih temelja ML-a.
Jedan istraživač je istaknuo:
"The most powerful tool in your mathematical toolkit isn't a formula, it's a change of perspective... We're taught to see matrices as 'grids of numbers.' But to a machine learning engineer, a matrix is often secretly a graph."
Ova promjena perspektive - od "mreže brojeva" do "grafičke strukture" - otkriva kognitivnu nadogradnju koju ML prolazi. Kada sve više ljudi razumije kako linearna algebra, teorija vjerojatnosti i teorija optimizacije podupiru ove "čarolije", industrija će prijeći od obožavanja crne kutije do razumijevanja bijele kutije.
Problem troškova okoliša
Ne smijemo zanemariti da prosperitet ML-a prati stvarna cijena za okoliš:
- 74% izjava tehnoloških tvrtki o "AI-u koji pomaže klimi" nema dokaza
- Emisije Googlea porasle su za 48% od 2019. do 2023.
- Emisije Microsofta porasle su za 29% od 2020.
Ovi brojevi dolaze od širenja podatkovnih centara, a pokretačka snaga širenja podatkovnih centara je upravo ML treniranje i zaključivanje. Ovo nije krivulja koja se može beskonačno ekstrapolirati.
Implikacije za praktičare
Ako ulazite u područje ML-a, postoje tri smjera na koja vrijedi obratiti pozornost:
- Podatkovni inženjering: Teže ga je zamijeniti od arhitekture modela
- Poznavanje domene: Znati koji su podaci vrijedni važnije je od znati kako trenirati
- Sistemsko razmišljanje: ML nije izolirani model, već zatvorena petlja podataka-model-proizvod-korisnik
Kao što je netko rekao: Postati sam stroj za učenje najvažnija je metavještina u životu.
Ali točnije je reći: Postati stroj za učenje koji razumije podatke prava je konkurentska prednost ovog doba.





