Raunverulegur varnargarður vélanáms
Þegar við tölum um samkeppni í gervigreind, einblínum við oft á líkanagerð, stærð breytna og fjárfestingu í reiknikrafti. En ekkert af þessu er raunveruleg hindrun.
Reiknirit er hægt að afrita. Reiknikraft er hægt að leigja. En einkareknar gagnaleiðslur í raunveruleikanum? Það er varnargarðurinn.
Þrjú stig ML samkeppni
Á síðasta áratug hefur áhersla samkeppni í vélanámi færst þrisvar sinnum:
Fyrsta stig: Samkeppni reiknirita (2012-2017)
- Hver er með betri líkanagerð
- Uppfinningamenn CNN, RNN og Transformer öðlast forskot
- En eftir að ritgerð er birt geta allir notað hana
Annað stig: Samkeppni reiknikrafts (2017-2022)
- Hver er með fleiri GPU
- Þjálfun GPT-3 krefst 1000+ V100
- En skýjaþjónusta gerir reiknikraft að vöru sem hægt er að kaupa
Þriðja stig: Gagnasamkeppni (2022-nú)
- Hver er með einstaka gagnahringrás
- Gervigögn geta ekki komið í stað raunverulegra gagna
- Þetta er óendurtekjanleg hindrun
Hvers vegna eru gögn síðasti varnargarðurinn?
Þrjár ástæður:
- Skortur: Hágæða, vel merkt raunveruleg gögn eru náttúrulega af skornum skammti
- Óframseljanleiki: Jafnvel þótt þú sért tilbúinn að borga geturðu ekki keypt gagnaleiðslur keppinauta
- Samsett áhrif: Betri gögn → betri vara → fleiri notendur → fleiri gögn
ML iðkandi skrifaði á X:
"Algorithms can be replicated. Compute can be rented. But proprietary real-world data pipelines? That's a moat."
Þetta nær kjarna málsins. Þegar þú sérð OpenAI undirrita einkasamninga við útgefendur, Google eyða milljörðum í að kaupa aðgang að Reddit gögnum, þá eru þeir ekki að kaupa efni - þeir eru að kaupa varnargarð fyrir þjálfunargögn.

Afturhvarf hlutdrægni-fráviks jafnvægis
Það er áhugavert að þegar við ræðum gæði gagna er verið að endurvekja klassískasta hugtak vélanáms: hlutdrægni-fráviks jafnvægi.
"Machine Learning in a nutshell: minimize error to achieve optimal bias-variance tradeoff. Higher the bias, more the error between predictions and ground truth - i.e. underfitting. Higher the variance, more the error from small fluctuations in the training set - i.e. overfitting." — @bindureddy
Á tímum LLM héldum við einu sinni að þetta hugtak væri úrelt. En í ljós kemur að kjarni gæðavandamála gagna er enn jafnvægi á milli hlutdrægni og fráviks - ruslgögn valda hlutdrægni og einsleit gögn leiða til fráviks.
Breyting á stærðfræðilegu sjónarhorni
Annað athyglisvert stefna er: skilningur á stærðfræðilegum grunni ML er að dýpka.
Rannsakandi benti á:
"The most powerful tool in your mathematical toolkit isn't a formula, it's a change of perspective... We're taught to see matrices as 'grids of numbers.' But to a machine learning engineer, a matrix is often secretly a graph."
Þessi sjónarhornsbreyting - frá "númeranet" til "grafbyggingar" - sýnir vitræna uppfærslu sem ML er að ganga í gegnum. Þegar fleiri og fleiri skilja hvernig línuleg algebra, líkindafræði og hagræðingarkenning styðja þessa "töfra", mun iðnaðurinn fara frá dýrkun svörtu kassa yfir í skilning á hvítum kassa.
Umhverfiskostnaðarvandamál
Það má ekki hunsa að velmegun ML fylgir raunverulegur umhverfiskostnaður:
- 74% af fullyrðingum tæknifyrirtækja um "gervigreind hjálpar loftslagi" skortir sannanir
- Losun Google jókst um 48% á árunum 2019-2023
- Losun Microsoft hefur aukist um 29% síðan 2020
Þessar tölur koma frá stækkun gagnavera og drifkraftur stækkunar gagnavera er þjálfun og ályktun ML. Þetta er ekki ferill sem hægt er að framlengja endalaust.
Ábendingar fyrir iðkendur
Ef þú ert að fara inn á ML sviðið eru þrjár áttir sem vert er að fylgjast með:
- Gagnaverkfræði: erfiðara að skipta út en líkanagerð
- Sviðsþekking: að vita hvaða gögn eru verðmæt er mikilvægara en að vita hvernig á að þjálfa
- Kerfishugsun: ML er ekki einangrað líkan, heldur lokuð hringrás gagna-líkans-vöru-notenda
Eins og einhver sagði: Að verða námsvél sjálfur er mikilvægasta meta-hæfileikinn í lífinu.
En nákvæmari orð eru: Að verða námsvél sem skilur gögn er raunveruleg samkeppnisforskot þessa tíma.





