Llogoreja e vërtetë e mësimit të makinerive

Kur flasim për konkurrencën e AI, zakonisht fokusohemi në arkitekturën e modelit, shkallën e parametrave, investimin në fuqinë llogaritëse. Por këto nuk janë pengesa të vërteta.

Algoritmet mund të kopjohen. Fuqia llogaritëse mund të merret me qira. Por tubacionet e të dhënave pronësore të botës reale? Kjo është llogoreja.

Tre fazat e konkurrencës ML

Dekadën e fundit, fokusi i konkurrencës së mësimit të makinerive ka kaluar nëpër tre migrime:

Faza e parë: Konkurrenca e algoritmeve (2012-2017)

Kush ka një arkitekturë më të mirë modeli
Shpikësit e CNN, RNN, Transformer fitojnë avantazh
Por pasi të publikohet një punim, të gjithë mund ta përdorin atë

Faza e dytë: Konkurrenca e fuqisë llogaritëse (2017-2022)

Kush ka më shumë GPU
Trajnimi i GPT-3 kërkon 1000+ V100
Por shërbimet cloud e bëjnë fuqinë llogaritëse një mall të blerë

Faza e tretë: Konkurrenca e të dhënave (2022-tani)

Kush ka një rrotë të veçantë të të dhënave
Të dhënat sintetike nuk mund të zëvendësojnë të dhënat e botës reale
Kjo është pengesa e pakopjueshme

Pse të dhënat janë llogoreja e fundit?

Tre arsye:

Mungesa: Të dhënat reale me cilësi të lartë, të etiketuara mirë janë natyrshëm të pakta
Jo-tregtueshmëria: Edhe nëse jeni të gatshëm të paguani, nuk mund të blini tubacionet e të dhënave të konkurrentëve
Efekti i përbërë: Të dhëna më të mira → produkte më të mira → më shumë përdorues → më shumë të dhëna

Një praktikues i ML shkroi në X:

"Algorithms can be replicated. Compute can be rented. But proprietary real-world data pipelines? That's a moat."

Kjo kap thelbin e problemit. Kur shihni OpenAI duke nënshkruar marrëveshje ekskluzive me botuesit, Google shpenzon miliarda për të blerë akses në të dhënat e Reddit, ata nuk po blejnë përmbajtje - ata po blejnë një llogore të të dhënave trajnuese.

Skema e tubacionit të të dhënave

Kthimi i kompromisit të anshmërisë-variancës

Interesante, kur diskutojmë cilësinë e të dhënave, koncepti më klasik i mësimit të makinerive po kthehet: kompromisi i anshmërisë-variancës.

"Machine Learning in a nutshell: minimize error to achieve optimal bias-variance tradeoff. Higher the bias, more the error between predictions and ground truth - i.e. underfitting. Higher the variance, more the error from small fluctuations in the training set - i.e. overfitting." — @bindureddy

Në epokën LLM, dikur menduam se ky koncept ishte i vjetëruar. Por rezulton se thelbi i problemit të cilësisë së të dhënave është ende një ekuilibër midis anshmërisë dhe variancës - të dhënat e padobishme gjenerojnë anshmëri, dhe të dhënat homogjene çojnë në variancë.

Ndryshimi i perspektivës matematikore

Një tjetër tendencë për t'u vëzhguar është: thellimi i të kuptuarit të themeleve matematikore të ML.

Një studiues vuri në dukje:

"The most powerful tool in your mathematical toolkit isn't a formula, it's a change of perspective... We're taught to see matrices as 'grids of numbers.' But to a machine learning engineer, a matrix is often secretly a graph."

Ky ndryshim i perspektivës - nga "rrjeta numrash" në "strukturë grafiku" - zbulon përmirësimin njohës që po përjeton ML. Kur gjithnjë e më shumë njerëz të kuptojnë se si algjebra lineare, teoria e probabilitetit, teoria e optimizimit mbështesin këto "magji", industria do të kalojë nga adhurimi i kutisë së zezë në të kuptuarit e kutisë së bardhë.

Problemi i kostos mjedisore

Nuk mund të injorohet fakti që lulëzimi i ML shoqërohet me një kosto reale mjedisore:

74% e deklaratave të kompanive teknologjike "AI ndihmon klimën" nuk kanë prova
Emisionet e Google u rritën me 48% nga 2019-2023
Emisionet e Microsoft janë rritur me 29% që nga viti 2020

Këto shifra vijnë nga zgjerimi i qendrave të të dhënave, dhe shtytësi i zgjerimit të qendrave të të dhënave është trajnimi dhe inferenca ML. Ky nuk është një kurbë që mund të ekstrapolohet pafundësisht.

Implikimet për praktikuesit

Nëse po hyni në fushën e ML, ka tre drejtime për t'u kushtuar vëmendje:

Inxhinieria e të dhënave: Më e vështirë për t'u zëvendësuar sesa arkitektura e modelit
Njohuri të fushës: Të dish se cilat të dhëna kanë vlerë është më e rëndësishme sesa të dish se si të trajnosh
Mendimi sistemik: ML nuk është një model i izoluar, por një lak i mbyllur i të dhënave-model-produkt-përdorues

Siç tha dikush: Të bëhesh vetë një makinë mësimi është meta-aftësia më e rëndësishme në jetë.

Por një thënie më e saktë është: Të bëhesh një makinë mësimi që kupton të dhënat është konkurrenca e vërtetë në këtë epokë.

Llogoreja e vërtetë e mësimit të makinerive

Tre fazat e konkurrencës ML

Pse të dhënat janë llogoreja e fundit?

Kthimi i kompromisit të anshmërisë-variancës

Ndryshimi i perspektivës matematikore

Problemi i kostos mjedisore

Implikimet për praktikuesit

You Might Also Like

Claude Code Buddy 修改指南：如何获得闪光传说级宠物

Obsidian ka lançuar Defuddle, duke e çuar Obsidian Web Clipper në një nivel të ri

OpenAI papritur shpall "tre në një": shkrimi i shfletuesit + programimi + bashkimi i ChatGPT, brenda pranojnë se vitin e kaluar kanë bërë gabime

2026, mos e detyro veten "disiplinë"! Bëni këto 8 gjëra të vogla, shëndeti do të vijë natyrshëm

Mamat që përpiqen të humbin peshë dhe nuk arrijnë, patjetër që kanë rënë këtu

AI Browser 24-orësh Stabiliteti i Udhëzimeve