Машины сургалтын жинхэнэ хамгаалалтын шугам

Бид хиймэл оюун ухааны өрсөлдөөний талаар ярихдаа ихэвчлэн загварын архитектур, параметрийн хэмжээ, тооцоолох хүчин чадалд анхаарлаа хандуулдаг. Гэхдээ эдгээр нь жинхэнэ саад биш юм.

Алгоритмыг хуулбарлаж болно. Тооцоолох хүчин чадлыг түрээсэлж болно. Харин өмчийн бодит ертөнцийн өгөгдлийн хоолойнууд уу? Энэ бол хамгаалалтын шугам юм.

ML өрсөлдөөний гурван үе шат

Сүүлийн арван жилд машины сургалтын өрсөлдөөний гол цэг гурван удаа шилжсэн:

Эхний үе шат: Алгоритмын өрсөлдөөн (2012-2017)

Хэн илүү сайн загварын архитектуртай вэ
CNN, RNN, Transformer-ийг зохион бүтээгчид давуу талтай байсан
Гэхдээ судалгааны ажил нийтлэгдсэний дараа хүн бүр ашиглах боломжтой болсон

Хоёр дахь үе шат: Тооцоолох хүчин чадлын өрсөлдөөн (2017-2022)

Хэнд илүү GPU байна
GPT-3-ыг сургахын тулд 1000+ V100 хэрэгтэй
Гэхдээ үүлэн үйлчилгээ нь тооцоолох хүчин чадлыг худалдаж авах боломжтой бараа болгосон

Гурав дахь үе шат: Өгөгдлийн өрсөлдөөн (2022-одоо)

Хэнд өвөрмөц өгөгдлийн эргэлт байна
Хиймэл өгөгдөл нь бодит ертөнцийн өгөгдлийг орлож чадахгүй
Энэ бол хуулбарлах боломжгүй саад юм

Яагаад өгөгдөл нь эцсийн хамгаалалтын шугам болдог вэ?

Гурван шалтгаан:

Ховор байдал: Өндөр чанартай, сайн тэмдэглэгдсэн бодит өгөгдөл нь төрөлхийн ховор байдаг
Худалдаалах боломжгүй байдал: Мөнгө төлөхөд бэлэн байсан ч өрсөлдөгчийн өгөгдлийн хоолойг худалдаж авах боломжгүй
Нийлмэл нөлөө: Илүү сайн өгөгдөл → Илүү сайн бүтээгдэхүүн → Илүү олон хэрэглэгч → Илүү олон өгөгдөл

ML-ийн мэргэжилтэн X дээр бичсэн:

"Algorithms can be replicated. Compute can be rented. But proprietary real-world data pipelines? That's a moat."

Энэ нь асуудлын гол санааг олж авсан. OpenAI хэвлэн нийтлэгчидтэй онцгой гэрээ байгуулж, Google Reddit-ийн өгөгдөлд хандах эрхийг худалдаж авахад хэдэн тэрбум доллар зарцуулж байгааг харахад тэд агуулгыг биш, харин сургалтын өгөгдлийн хамгаалалтын шугамыг худалдаж авч байна.

Өгөгдлийн хоолойн зураг

Хазайлт-Вариансын арилжааны эргэлт

Сонирхолтой нь бид өгөгдлийн чанарын талаар ярихдаа машины сургалтын хамгийн сонгодог ойлголт эргэн ирж байна: хазайлт-вариансын арилжаа.

"Machine Learning in a nutshell: minimize error to achieve optimal bias-variance tradeoff. Higher the bias, more the error between predictions and ground truth - i.e. underfitting. Higher the variance, more the error from small fluctuations in the training set - i.e. overfitting." — @bindureddy

LLM-ийн эрин үед бид энэ ойлголтыг хуучирсан гэж бодож байсан. Гэхдээ өгөгдлийн чанарын асуудлын мөн чанар нь хазайлт ба вариацын тэнцвэртэй байдал хэвээр байгаа нь батлагдсан - хог өгөгдөл нь хазайлт үүсгэдэг, ижил төрлийн өгөгдөл нь вариац үүсгэдэг.

Математикийн өнцгийн өөрчлөлт

Анхаарал хандуулах ёстой өөр нэг чиг хандлага бол ML-ийн математикийн үндсийг ойлгох нь гүнзгийрч байна.

Нэгэн судлаач онцолсон:

"The most powerful tool in your mathematical toolkit isn't a formula, it's a change of perspective... We're taught to see matrices as 'grids of numbers.' But to a machine learning engineer, a matrix is often secretly a graph."

Энэхүү өнцгийн өөрчлөлт - "тооны тор"-оос "график бүтэц" руу - ML-ийн танин мэдэхүйн шинэчлэлтийг илчилж байна. Улам олон хүн шугаман алгебр, магадлалын онол, оновчлолын онол эдгээр "ид шидийг" хэрхэн дэмжиж байгааг ойлгох үед салбар хар хайрцаг шүтлэгээс цагаан хайрцаг ойлголт руу шилжих болно.

Байгаль орчны зардлын асуудал

ML-ийн хөгжил цэцэглэлт нь бодит байгаль орчны үнэтэй дагалдаж байгааг үл тоомсорлож болохгүй:

Технологийн компаниудын 74% нь "хиймэл оюун ухаан цаг уурт тусална" гэсэн мэдэгдэл нь нотолгоогүй байна
Google-ийн ялгаруулалт 2019-2023 онд 48%-иар өссөн
Microsoft-ийн ялгаруулалт 2020 оноос хойш 29%-иар өссөн

Эдгээр тоо нь өгөгдлийн төвийн өргөжилтөөс үүдэлтэй бөгөөд өгөгдлийн төвийн өргөжилтийн хөдөлгөгч хүч нь ML сургалт ба дүгнэлт юм. Энэ бол хязгааргүйгээр өргөжүүлж болох муруй биш юм.

Мэргэжилтнүүдэд өгөх зөвлөмж

Хэрэв та ML-ийн салбарт орж байгаа бол анхаарах ёстой гурван чиглэл байна:

Өгөгдлийн инженерчлэл: Загварын архитектураас илүү орлуулахад хэцүү
Салбарын мэдлэг: Ямар өгөгдөл үнэ цэнтэй болохыг мэдэх нь хэрхэн сургахыг мэдэхээс илүү чухал
Системийн сэтгэлгээ: ML бол тусгаарлагдсан загвар биш, харин өгөгдөл-загвар-бүтээгдэхүүн-хэрэглэгчийн хаалттай гогцоо юм

Хэн нэгэн хэлсэнчлэн: Өөрөө суралцах машин болох нь амьдралын хамгийн чухал мета-ур чадвар юм.

Гэхдээ илүү нарийвчлалтай хэлбэл: Өгөгдлийг ойлгодог суралцах машин болох нь энэ эриний жинхэнэ өрсөлдөх чадвар юм.

Машины сургалтын жинхэнэ хамгаалалтын шугам

ML өрсөлдөөний гурван үе шат

Яагаад өгөгдөл нь эцсийн хамгаалалтын шугам болдог вэ?

Хазайлт-Вариансын арилжааны эргэлт

Математикийн өнцгийн өөрчлөлт

Байгаль орчны зардлын асуудал

Мэргэжилтнүүдэд өгөх зөвлөмж

You Might Also Like

Claude Code Buddy засварын гарын авлага: Гялалзсан домогт амьтан хэрхэн авах вэ

Obsidian Defuddle-г танилцууллаа, Obsidian Web Clipper-ийг шинэ түвшинд гаргалаа

OpenAI гэнэт "Гурван нэг"-ийг зарлалаа: Браузер + Программчлал + ChatGPT нэгдэж, дотооддоо өнгөрсөн жил буруу замаар явсан гэдгээ хүлээн зөвшөөрчээ

2026, өөрийгөө "засаглах" гэж бүү шах! Энэ 8 жижиг зүйлийг сайн хий, эрүүл мэнд өөрөө ирнэ

Тэрээр жингээ хасахад хичээж байгаа ээжүүд, яагаад чадахгүй байна вэ?

AI Браузер 24 цагийн тогтвортой ажиллах гарын авлага