Raunverulegur varnargarður vélanáms

Þegar við tölum um samkeppni í gervigreind, einblínum við oft á líkanagerð, stærð breytna og fjárfestingu í reiknikrafti. En ekkert af þessu er raunveruleg hindrun.

Reiknirit er hægt að afrita. Reiknikraft er hægt að leigja. En einkareknar gagnaleiðslur í raunveruleikanum? Það er varnargarðurinn.

Þrjú stig ML samkeppni

Á síðasta áratug hefur áhersla samkeppni í vélanámi færst þrisvar sinnum:

Fyrsta stig: Samkeppni reiknirita (2012-2017)

Hver er með betri líkanagerð
Uppfinningamenn CNN, RNN og Transformer öðlast forskot
En eftir að ritgerð er birt geta allir notað hana

Annað stig: Samkeppni reiknikrafts (2017-2022)

Hver er með fleiri GPU
Þjálfun GPT-3 krefst 1000+ V100
En skýjaþjónusta gerir reiknikraft að vöru sem hægt er að kaupa

Þriðja stig: Gagnasamkeppni (2022-nú)

Hver er með einstaka gagnahringrás
Gervigögn geta ekki komið í stað raunverulegra gagna
Þetta er óendurtekjanleg hindrun

Hvers vegna eru gögn síðasti varnargarðurinn?

Þrjár ástæður:

Skortur: Hágæða, vel merkt raunveruleg gögn eru náttúrulega af skornum skammti
Óframseljanleiki: Jafnvel þótt þú sért tilbúinn að borga geturðu ekki keypt gagnaleiðslur keppinauta
Samsett áhrif: Betri gögn → betri vara → fleiri notendur → fleiri gögn

ML iðkandi skrifaði á X:

"Algorithms can be replicated. Compute can be rented. But proprietary real-world data pipelines? That's a moat."

Þetta nær kjarna málsins. Þegar þú sérð OpenAI undirrita einkasamninga við útgefendur, Google eyða milljörðum í að kaupa aðgang að Reddit gögnum, þá eru þeir ekki að kaupa efni - þeir eru að kaupa varnargarð fyrir þjálfunargögn.

Gagnaleiðsluskýring

Afturhvarf hlutdrægni-fráviks jafnvægis

Það er áhugavert að þegar við ræðum gæði gagna er verið að endurvekja klassískasta hugtak vélanáms: hlutdrægni-fráviks jafnvægi.

"Machine Learning in a nutshell: minimize error to achieve optimal bias-variance tradeoff. Higher the bias, more the error between predictions and ground truth - i.e. underfitting. Higher the variance, more the error from small fluctuations in the training set - i.e. overfitting." — @bindureddy

Á tímum LLM héldum við einu sinni að þetta hugtak væri úrelt. En í ljós kemur að kjarni gæðavandamála gagna er enn jafnvægi á milli hlutdrægni og fráviks - ruslgögn valda hlutdrægni og einsleit gögn leiða til fráviks.

Breyting á stærðfræðilegu sjónarhorni

Annað athyglisvert stefna er: skilningur á stærðfræðilegum grunni ML er að dýpka.

Rannsakandi benti á:

"The most powerful tool in your mathematical toolkit isn't a formula, it's a change of perspective... We're taught to see matrices as 'grids of numbers.' But to a machine learning engineer, a matrix is often secretly a graph."

Þessi sjónarhornsbreyting - frá "númeranet" til "grafbyggingar" - sýnir vitræna uppfærslu sem ML er að ganga í gegnum. Þegar fleiri og fleiri skilja hvernig línuleg algebra, líkindafræði og hagræðingarkenning styðja þessa "töfra", mun iðnaðurinn fara frá dýrkun svörtu kassa yfir í skilning á hvítum kassa.

Umhverfiskostnaðarvandamál

Það má ekki hunsa að velmegun ML fylgir raunverulegur umhverfiskostnaður:

74% af fullyrðingum tæknifyrirtækja um "gervigreind hjálpar loftslagi" skortir sannanir
Losun Google jókst um 48% á árunum 2019-2023
Losun Microsoft hefur aukist um 29% síðan 2020

Þessar tölur koma frá stækkun gagnavera og drifkraftur stækkunar gagnavera er þjálfun og ályktun ML. Þetta er ekki ferill sem hægt er að framlengja endalaust.

Ábendingar fyrir iðkendur

Ef þú ert að fara inn á ML sviðið eru þrjár áttir sem vert er að fylgjast með:

Gagnaverkfræði: erfiðara að skipta út en líkanagerð
Sviðsþekking: að vita hvaða gögn eru verðmæt er mikilvægara en að vita hvernig á að þjálfa
Kerfishugsun: ML er ekki einangrað líkan, heldur lokuð hringrás gagna-líkans-vöru-notenda

Eins og einhver sagði: Að verða námsvél sjálfur er mikilvægasta meta-hæfileikinn í lífinu.

En nákvæmari orð eru: Að verða námsvél sem skilur gögn er raunveruleg samkeppnisforskot þessa tíma.

Raunverulegur varnargarður vélanáms

Þrjú stig ML samkeppni

Hvers vegna eru gögn síðasti varnargarðurinn?

Afturhvarf hlutdrægni-fráviks jafnvægis

Breyting á stærðfræðilegu sjónarhorni

Umhverfiskostnaðarvandamál

Ábendingar fyrir iðkendur

You Might Also Like

Claude Code Buddy breytingarleiðbeiningar: Hvernig á að fá glitrandi goðsagnir dýr

Obsidian hefur gefið út Defuddle, sem lyftir Obsidian Web Clipper á nýjan hæð

OpenAI tilkynnti skyndilega "þrjú í eitt": Vafri + forritun + ChatGPT sameining, innanhúss viðurkenndu þau að hafa farið rangt að síðasta árið

2026, ekki lengur að þrýsta á sjálfan sig "sjálfsaga"! Gerðu þessar 8 litlu hluti, heilsa kemur náttúrulega

Mæðurnar sem reyna að léttast en ná ekki árangri, eru örugglega að lenda í þessu

AI Browser 24 tíma stöðugleika leiðbeiningar