De echte slotgracht van machine learning
Wanneer we het hebben over AI-concurrentie, focussen we ons meestal op modelarchitecturen, parameterschalen en investeringen in rekenkracht. Maar dit zijn niet de echte barrières.
Algoritmen kunnen worden gekopieerd. Rekenkracht kan worden gehuurd. Maar propriëtaire data pipelines uit de echte wereld? Dat is de slotgracht.
De drie fasen van ML-concurrentie
De afgelopen tien jaar heeft de focus van de concurrentie in machine learning drie verschuivingen doorgemaakt:
Fase 1: Algoritmeconcurrentie (2012-2017)
- Wie heeft een betere modelarchitectuur
- De uitvinders van CNN, RNN en Transformer hebben een voordeel
- Maar na publicatie van de paper kan iedereen het gebruiken
Fase 2: Rekenkrachtconcurrentie (2017-2022)
- Wie heeft meer GPU's
- Het trainen van GPT-3 vereist 1000+ V100's
- Maar cloudservices maken rekenkracht tot een koopwaar
Fase 3: Dataconcurrentie (2022-heden)
- Wie heeft een unieke data flywheel
- Synthetische data kan echte data uit de wereld niet vervangen
- Dit is de onvervangbare barrière
Waarom data de laatste slotgracht is?
Drie redenen:
- Schaarste: Hoogwaardige, goed gelabelde echte data is van nature schaars
- Niet-verhandelbaarheid: Zelfs als je bereid bent te betalen, kun je de data pipelines van concurrenten niet kopen
- Samengestelde rente-effect: Betere data → betere producten → meer gebruikers → meer data
Een ML-beoefenaar schreef op X:
"Algorithms can be replicated. Compute can be rented. But proprietary real-world data pipelines? That's a moat."
Dit vat de essentie van het probleem samen. Wanneer je ziet dat OpenAI exclusieve overeenkomsten sluit met uitgevers en Google miljarden uitgeeft aan toegang tot Reddit-data, kopen ze geen content - ze kopen een slotgracht van trainingsdata.

De terugkeer van de bias-variantie afweging
Interessant is dat het meest klassieke concept van machine learning terugkeert wanneer we de datakwaliteit bespreken: de bias-variantie afweging.
"Machine Learning in a nutshell: minimize error to achieve optimal bias-variance tradeoff. Higher the bias, more the error between predictions and ground truth - i.e. underfitting. Higher the variance, more the error from small fluctuations in the training set - i.e. overfitting." — @bindureddy
In het LLM-tijdperk dachten we ooit dat dit concept achterhaald was. Maar het blijkt dat de essentie van het datakwaliteitsprobleem nog steeds de balans is tussen bias en variantie - rommeldata veroorzaakt bias, homogene data leidt tot variantie.
Een verschuiving in het wiskundige perspectief
Een andere trend die de moeite waard is om in de gaten te houden, is dat het begrip van de wiskundige basis van ML wordt verdiept.
Een onderzoeker wees erop:
"The most powerful tool in your mathematical toolkit isn't a formula, it's a change of perspective... We're taught to see matrices as 'grids of numbers.' But to a machine learning engineer, a matrix is often secretly a graph."
Deze perspectiefverschuiving - van "raster van getallen" naar "graafstructuur" - onthult de cognitieve upgrade die ML doormaakt. Wanneer steeds meer mensen begrijpen hoe lineaire algebra, kansrekening en optimalisatietheorie deze "magie" ondersteunen, zal de industrie verschuiven van black box-aanbidding naar white box-begrip.
Het probleem van de milieukosten
Wat niet mag worden genegeerd, is dat de bloei van ML gepaard gaat met een echte milieuprijs:
- 74% van de "AI-gestuurde klimaat"-claims van technologiebedrijven ontbreekt bewijs
- De uitstoot van Google is tussen 2019 en 2023 met 48% gestegen
- De uitstoot van Microsoft is sinds 2020 met 29% gestegen
Deze cijfers zijn afkomstig van de uitbreiding van datacenters, en de drijvende kracht achter de uitbreiding van datacenters is ML-training en -inferentie. Dit is geen curve die oneindig kan worden geëxtrapoleerd.
Implicaties voor beoefenaars
Als je het ML-veld betreedt, zijn er drie richtingen die de moeite waard zijn om in de gaten te houden:
- Data engineering: Moeilijker te vervangen dan modelarchitecturen
- Domeinkennis: Weten welke data waardevol is, is belangrijker dan weten hoe je moet trainen
- Systeemdenken: ML is geen geïsoleerd model, maar een gesloten lus van data-model-product-gebruiker
Zoals iemand zei: zelf een leermachine worden is de belangrijkste meta-vaardigheid in het leven.
Maar een nauwkeuriger formulering is: een leermachine worden die data begrijpt, is het echte concurrentievoordeel van dit tijdperk.





