La veritable defensa del Machine Learning

2/17/2026
4 min read

Quan parlem de la competència en IA, normalment ens centrem en l'arquitectura del model, l'escala dels paràmetres i la inversió en potència de càlcul. Però aquests no són els veritables obstacles.

Els algorismes es poden replicar. La potència de càlcul es pot llogar. Però, què passa amb els conductes de dades propietaris del món real? Aquesta és la defensa.

Les tres etapes de la competència en ML

En els darrers deu anys, el focus de la competència en l'aprenentatge automàtic ha experimentat tres migracions:

Primera etapa: competència d'algorismes (2012-2017)

  • Qui té una millor arquitectura de model
  • Els inventors de CNN, RNN i Transformer obtenen avantatge
  • Però després de la publicació de l'article, tothom ho pot utilitzar

Segona etapa: competència de potència de càlcul (2017-2022)

  • Qui té més GPU
  • Entrenar GPT-3 requereix més de 1000 V100
  • Però els serveis al núvol fan que la potència de càlcul es converteixi en un producte que es pot comprar

Tercera etapa: competència de dades (2022-ara)

  • Qui té un bucle de retroalimentació de dades únic
  • Les dades sintètiques no poden substituir les dades del món real
  • Aquesta és la barrera irremplaçable

Per què les dades són l'última defensa?

Tres raons:

  1. Escassetat: les dades reals d'alta qualitat i ben etiquetades són naturalment escasses
  2. No negociabilitat: fins i tot si estàs disposat a pagar, no pots comprar el conducte de dades dels teus competidors
  3. Efecte d'interès compost: millors dades → millor producte → més usuaris → més dades

Un professional de ML va escriure a X:

"Algorithms can be replicated. Compute can be rented. But proprietary real-world data pipelines? That's a moat."

Això capta l'essència del problema. Quan veus que OpenAI signa acords exclusius amb editors i Google gasta milers de milions per comprar accés a les dades de Reddit, no estan comprant contingut, sinó que estan comprant una defensa per a les dades d'entrenament.

Esquema del conducte de dades

El retorn de la compensació biaix-variància

Curiosament, quan parlem de la qualitat de les dades, el concepte més clàssic de l'aprenentatge automàtic està tornant: la compensació biaix-variància.

"Machine Learning in a nutshell: minimize error to achieve optimal bias-variance tradeoff. Higher the bias, more the error between predictions and ground truth - i.e. underfitting. Higher the variance, more the error from small fluctuations in the training set - i.e. overfitting." — @bindureddy

En l'era de LLM, vam pensar una vegada que aquest concepte estava obsolet. Però resulta que l'essència del problema de la qualitat de les dades segueix sent l'equilibri entre biaix i variància: les dades escombraries generen biaix i les dades homogènies condueixen a la variància.

Un canvi de perspectiva matemàtica

Una altra tendència que val la pena destacar és que la comprensió dels fonaments matemàtics de ML s'està aprofundint.

Un investigador va assenyalar:

"The most powerful tool in your mathematical toolkit isn't a formula, it's a change of perspective... We're taught to see matrices as 'grids of numbers.' But to a machine learning engineer, a matrix is often secretly a graph."

Aquest canvi de perspectiva, de "quadrícula de nombres" a "estructura de gràfics", revela l'actualització cognitiva que està experimentant ML. Quan més i més persones entenguin com l'àlgebra lineal, la teoria de la probabilitat i la teoria de l'optimització donen suport a aquesta "màgia", la indústria passarà de l'adoració de la caixa negra a la comprensió de la caixa blanca.

El problema dels costos ambientals

El que no es pot ignorar és que la prosperitat de ML va acompanyada d'un cost ambiental real:

  • El 74% de les declaracions de les empreses tecnològiques sobre "IA que ajuda al clima" no tenen proves
  • Les emissions de Google van augmentar un 48% entre 2019 i 2023
  • Les emissions de Microsoft han augmentat un 29% des del 2020

Aquestes xifres provenen de l'expansió dels centres de dades, i el motor de l'expansió dels centres de dades és l'entrenament i la inferència de ML. Aquesta no és una corba que es pugui extrapolar indefinidament.

Implicacions per als professionals

Si esteu entrant al camp de ML, hi ha tres direccions que val la pena destacar:

  1. Enginyeria de dades: més difícil de substituir que l'arquitectura del model
  2. Coneixement del domini: saber quines dades són valuoses és més important que saber com entrenar
  3. Pensament sistèmic: ML no és un model aïllat, sinó un bucle tancat de dades-model-producte-usuari

Com algú va dir: convertir-se en una màquina d'aprenentatge en si mateix és la meta-habilitat més important de la vida.

Però una afirmació més precisa seria: convertir-se en una màquina d'aprenentatge que entengui les dades és la veritable competitivitat d'aquesta era.

Published in Technology

You Might Also Like