Машины сургалтын жинхэнэ хамгаалалтын шугам
Бид хиймэл оюун ухааны өрсөлдөөний талаар ярихдаа ихэвчлэн загварын архитектур, параметрийн хэмжээ, тооцоолох хүчин чадалд анхаарлаа хандуулдаг. Гэхдээ эдгээр нь жинхэнэ саад биш юм.
Алгоритмыг хуулбарлаж болно. Тооцоолох хүчин чадлыг түрээсэлж болно. Харин өмчийн бодит ертөнцийн өгөгдлийн хоолойнууд уу? Энэ бол хамгаалалтын шугам юм.
ML өрсөлдөөний гурван үе шат
Сүүлийн арван жилд машины сургалтын өрсөлдөөний гол цэг гурван удаа шилжсэн:
Эхний үе шат: Алгоритмын өрсөлдөөн (2012-2017)
- Хэн илүү сайн загварын архитектуртай вэ
- CNN, RNN, Transformer-ийг зохион бүтээгчид давуу талтай байсан
- Гэхдээ судалгааны ажил нийтлэгдсэний дараа хүн бүр ашиглах боломжтой болсон
Хоёр дахь үе шат: Тооцоолох хүчин чадлын өрсөлдөөн (2017-2022)
- Хэнд илүү GPU байна
- GPT-3-ыг сургахын тулд 1000+ V100 хэрэгтэй
- Гэхдээ үүлэн үйлчилгээ нь тооцоолох хүчин чадлыг худалдаж авах боломжтой бараа болгосон
Гурав дахь үе шат: Өгөгдлийн өрсөлдөөн (2022-одоо)
- Хэнд өвөрмөц өгөгдлийн эргэлт байна
- Хиймэл өгөгдөл нь бодит ертөнцийн өгөгдлийг орлож чадахгүй
- Энэ бол хуулбарлах боломжгүй саад юм
Яагаад өгөгдөл нь эцсийн хамгаалалтын шугам болдог вэ?
Гурван шалтгаан:
- Ховор байдал: Өндөр чанартай, сайн тэмдэглэгдсэн бодит өгөгдөл нь төрөлхийн ховор байдаг
- Худалдаалах боломжгүй байдал: Мөнгө төлөхөд бэлэн байсан ч өрсөлдөгчийн өгөгдлийн хоолойг худалдаж авах боломжгүй
- Нийлмэл нөлөө: Илүү сайн өгөгдөл → Илүү сайн бүтээгдэхүүн → Илүү олон хэрэглэгч → Илүү олон өгөгдөл
ML-ийн мэргэжилтэн X дээр бичсэн:
"Algorithms can be replicated. Compute can be rented. But proprietary real-world data pipelines? That's a moat."
Энэ нь асуудлын гол санааг олж авсан. OpenAI хэвлэн нийтлэгчидтэй онцгой гэрээ байгуулж, Google Reddit-ийн өгөгдөлд хандах эрхийг худалдаж авахад хэдэн тэрбум доллар зарцуулж байгааг харахад тэд агуулгыг биш, харин сургалтын өгөгдлийн хамгаалалтын шугамыг худалдаж авч байна.

Хазайлт-Вариансын арилжааны эргэлт
Сонирхолтой нь бид өгөгдлийн чанарын талаар ярихдаа машины сургалтын хамгийн сонгодог ойлголт эргэн ирж байна: хазайлт-вариансын арилжаа.
"Machine Learning in a nutshell: minimize error to achieve optimal bias-variance tradeoff. Higher the bias, more the error between predictions and ground truth - i.e. underfitting. Higher the variance, more the error from small fluctuations in the training set - i.e. overfitting." — @bindureddy
LLM-ийн эрин үед бид энэ ойлголтыг хуучирсан гэж бодож байсан. Гэхдээ өгөгдлийн чанарын асуудлын мөн чанар нь хазайлт ба вариацын тэнцвэртэй байдал хэвээр байгаа нь батлагдсан - хог өгөгдөл нь хазайлт үүсгэдэг, ижил төрлийн өгөгдөл нь вариац үүсгэдэг.
Математикийн өнцгийн өөрчлөлт
Анхаарал хандуулах ёстой өөр нэг чиг хандлага бол ML-ийн математикийн үндсийг ойлгох нь гүнзгийрч байна.
Нэгэн судлаач онцолсон:
"The most powerful tool in your mathematical toolkit isn't a formula, it's a change of perspective... We're taught to see matrices as 'grids of numbers.' But to a machine learning engineer, a matrix is often secretly a graph."
Энэхүү өнцгийн өөрчлөлт - "тооны тор"-оос "график бүтэц" руу - ML-ийн танин мэдэхүйн шинэчлэлтийг илчилж байна. Улам олон хүн шугаман алгебр, магадлалын онол, оновчлолын онол эдгээр "ид шидийг" хэрхэн дэмжиж байгааг ойлгох үед салбар хар хайрцаг шүтлэгээс цагаан хайрцаг ойлголт руу шилжих болно.
Байгаль орчны зардлын асуудал
ML-ийн хөгжил цэцэглэлт нь бодит байгаль орчны үнэтэй дагалдаж байгааг үл тоомсорлож болохгүй:
- Технологийн компаниудын 74% нь "хиймэл оюун ухаан цаг уурт тусална" гэсэн мэдэгдэл нь нотолгоогүй байна
- Google-ийн ялгаруулалт 2019-2023 онд 48%-иар өссөн
- Microsoft-ийн ялгаруулалт 2020 оноос хойш 29%-иар өссөн
Эдгээр тоо нь өгөгдлийн төвийн өргөжилтөөс үүдэлтэй бөгөөд өгөгдлийн төвийн өргөжилтийн хөдөлгөгч хүч нь ML сургалт ба дүгнэлт юм. Энэ бол хязгааргүйгээр өргөжүүлж болох муруй биш юм.
Мэргэжилтнүүдэд өгөх зөвлөмж
Хэрэв та ML-ийн салбарт орж байгаа бол анхаарах ёстой гурван чиглэл байна:
- Өгөгдлийн инженерчлэл: Загварын архитектураас илүү орлуулахад хэцүү
- Салбарын мэдлэг: Ямар өгөгдөл үнэ цэнтэй болохыг мэдэх нь хэрхэн сургахыг мэдэхээс илүү чухал
- Системийн сэтгэлгээ: ML бол тусгаарлагдсан загвар биш, харин өгөгдөл-загвар-бүтээгдэхүүн-хэрэглэгчийн хаалттай гогцоо юм
Хэн нэгэн хэлсэнчлэн: Өөрөө суралцах машин болох нь амьдралын хамгийн чухал мета-ур чадвар юм.
Гэхдээ илүү нарийвчлалтай хэлбэл: Өгөгдлийг ойлгодог суралцах машин болох нь энэ эриний жинхэнэ өрсөлдөх чадвар юм.





