Llogoreja e vërtetë e mësimit të makinerive
Kur flasim për konkurrencën e AI, zakonisht fokusohemi në arkitekturën e modelit, shkallën e parametrave, investimin në fuqinë llogaritëse. Por këto nuk janë pengesa të vërteta.
Algoritmet mund të kopjohen. Fuqia llogaritëse mund të merret me qira. Por tubacionet e të dhënave pronësore të botës reale? Kjo është llogoreja.
Tre fazat e konkurrencës ML
Dekadën e fundit, fokusi i konkurrencës së mësimit të makinerive ka kaluar nëpër tre migrime:
Faza e parë: Konkurrenca e algoritmeve (2012-2017)
- Kush ka një arkitekturë më të mirë modeli
- Shpikësit e CNN, RNN, Transformer fitojnë avantazh
- Por pasi të publikohet një punim, të gjithë mund ta përdorin atë
Faza e dytë: Konkurrenca e fuqisë llogaritëse (2017-2022)
- Kush ka më shumë GPU
- Trajnimi i GPT-3 kërkon 1000+ V100
- Por shërbimet cloud e bëjnë fuqinë llogaritëse një mall të blerë
Faza e tretë: Konkurrenca e të dhënave (2022-tani)
- Kush ka një rrotë të veçantë të të dhënave
- Të dhënat sintetike nuk mund të zëvendësojnë të dhënat e botës reale
- Kjo është pengesa e pakopjueshme
Pse të dhënat janë llogoreja e fundit?
Tre arsye:
- Mungesa: Të dhënat reale me cilësi të lartë, të etiketuara mirë janë natyrshëm të pakta
- Jo-tregtueshmëria: Edhe nëse jeni të gatshëm të paguani, nuk mund të blini tubacionet e të dhënave të konkurrentëve
- Efekti i përbërë: Të dhëna më të mira → produkte më të mira → më shumë përdorues → më shumë të dhëna
Një praktikues i ML shkroi në X:
"Algorithms can be replicated. Compute can be rented. But proprietary real-world data pipelines? That's a moat."
Kjo kap thelbin e problemit. Kur shihni OpenAI duke nënshkruar marrëveshje ekskluzive me botuesit, Google shpenzon miliarda për të blerë akses në të dhënat e Reddit, ata nuk po blejnë përmbajtje - ata po blejnë një llogore të të dhënave trajnuese.

Kthimi i kompromisit të anshmërisë-variancës
Interesante, kur diskutojmë cilësinë e të dhënave, koncepti më klasik i mësimit të makinerive po kthehet: kompromisi i anshmërisë-variancës.
"Machine Learning in a nutshell: minimize error to achieve optimal bias-variance tradeoff. Higher the bias, more the error between predictions and ground truth - i.e. underfitting. Higher the variance, more the error from small fluctuations in the training set - i.e. overfitting." — @bindureddy
Në epokën LLM, dikur menduam se ky koncept ishte i vjetëruar. Por rezulton se thelbi i problemit të cilësisë së të dhënave është ende një ekuilibër midis anshmërisë dhe variancës - të dhënat e padobishme gjenerojnë anshmëri, dhe të dhënat homogjene çojnë në variancë.
Ndryshimi i perspektivës matematikore
Një tjetër tendencë për t'u vëzhguar është: thellimi i të kuptuarit të themeleve matematikore të ML.
Një studiues vuri në dukje:
"The most powerful tool in your mathematical toolkit isn't a formula, it's a change of perspective... We're taught to see matrices as 'grids of numbers.' But to a machine learning engineer, a matrix is often secretly a graph."
Ky ndryshim i perspektivës - nga "rrjeta numrash" në "strukturë grafiku" - zbulon përmirësimin njohës që po përjeton ML. Kur gjithnjë e më shumë njerëz të kuptojnë se si algjebra lineare, teoria e probabilitetit, teoria e optimizimit mbështesin këto "magji", industria do të kalojë nga adhurimi i kutisë së zezë në të kuptuarit e kutisë së bardhë.
Problemi i kostos mjedisore
Nuk mund të injorohet fakti që lulëzimi i ML shoqërohet me një kosto reale mjedisore:
- 74% e deklaratave të kompanive teknologjike "AI ndihmon klimën" nuk kanë prova
- Emisionet e Google u rritën me 48% nga 2019-2023
- Emisionet e Microsoft janë rritur me 29% që nga viti 2020
Këto shifra vijnë nga zgjerimi i qendrave të të dhënave, dhe shtytësi i zgjerimit të qendrave të të dhënave është trajnimi dhe inferenca ML. Ky nuk është një kurbë që mund të ekstrapolohet pafundësisht.
Implikimet për praktikuesit
Nëse po hyni në fushën e ML, ka tre drejtime për t'u kushtuar vëmendje:
- Inxhinieria e të dhënave: Më e vështirë për t'u zëvendësuar sesa arkitektura e modelit
- Njohuri të fushës: Të dish se cilat të dhëna kanë vlerë është më e rëndësishme sesa të dish se si të trajnosh
- Mendimi sistemik: ML nuk është një model i izoluar, por një lak i mbyllur i të dhënave-model-produkt-përdorues
Siç tha dikush: Të bëhesh vetë një makinë mësimi është meta-aftësia më e rëndësishme në jetë.
Por një thënie më e saktë është: Të bëhesh një makinë mësimi që kupton të dhënat është konkurrenca e vërtetë në këtë epokë.





