Машиналық оқытудың нағыз қорғаны
Біз AI бәсекесі туралы айтқанда, әдетте модель архитектурасына, параметрлер ауқымына, есептеу қуатына назар аударамыз. Бірақ бұлардың ешқайсысы нағыз тосқауыл емес.
Алгоритмдерді көшіруге болады. Есептеу қуатын жалға алуға болады. Бірақ меншікті нақты әлемдік деректер құбыры ше? Міне, нағыз қорған осы.
ML бәсекесінің үш кезеңі
Соңғы он жылда машиналық оқытудың бәсекелестік фокусы үш рет өзгерді:
Бірінші кезең: Алгоритмдік бәсеке (2012-2017)
- Кімнің модельдік архитектурасы жақсырақ
- CNN, RNN, Transformer-ді ойлап тапқандар артықшылыққа ие болды
- Бірақ мақала жарияланғаннан кейін оны бәрі қолдана алады
Екінші кезең: Есептеу қуатының бәсекесі (2017-2022)
- Кімде GPU көп
- GPT-3-ті жаттықтыру үшін 1000+ V100 қажет
- Бірақ бұлттық қызмет есептеу қуатын сатып алуға болатын тауарға айналдырды
Үшінші кезең: Деректер бәсекесі (2022-қазір)
- Кімде бірегей деректер айналымы бар
- Синтетикалық деректер нақты әлемдік деректерді алмастыра алмайды
- Бұл көшіруге болмайтын тосқауыл
Неліктен деректер соңғы қорған болып табылады?
Үш себеп:
- Сиректік: Жоғары сапалы, жақсы белгіленген нақты деректер табиғи түрде сирек
- Сатылмайтындық: Ақша төлеуге дайын болсаңыз да, бәсекелестің деректер құбырын сатып ала алмайсыз
- Күрделі әсер: Жақсырақ деректер → Жақсырақ өнім → Көбірек пайдаланушы → Көбірек деректер
ML практигі X-те былай деп жазды:
"Algorithms can be replicated. Compute can be rented. But proprietary real-world data pipelines? That's a moat."
Бұл мәселенің мәнін түсіндіреді. OpenAI баспагерлермен эксклюзивті келісімге отырғанын, Google Reddit деректеріне қол жеткізу үшін миллиардтаған доллар жұмсағанын көргенде, олар мазмұнды емес, жаттығу деректерінің қорғанын сатып алады.

Ығысу-дисперсиялық теңгерімге қайта оралу
Қызығы, деректер сапасы туралы айтқанда, машиналық оқытудың ең классикалық тұжырымдамасы қайта оралып жатыр: ығысу-дисперсиялық теңгерім.
"Machine Learning in a nutshell: minimize error to achieve optimal bias-variance tradeoff. Higher the bias, more the error between predictions and ground truth - i.e. underfitting. Higher the variance, more the error from small fluctuations in the training set - i.e. overfitting." — @bindureddy
LLM дәуірінде біз бұл тұжырымдама ескірді деп ойладық. Бірақ деректер сапасы мәселесінің мәні әлі де ығысу мен дисперсияның тепе-теңдігі екені дәлелденді - қоқыс деректер ығысуды тудырады, ал біртекті деректер дисперсияға әкеледі.
Математикалық көзқарастың өзгеруі
Назар аударуға тұрарлық тағы бір тенденция: ML математикалық негіздерін түсіну тереңдей түсуде.
Бір зерттеуші былай деп атап өтті:
"The most powerful tool in your mathematical toolkit isn't a formula, it's a change of perspective... We're taught to see matrices as 'grids of numbers.' But to a machine learning engineer, a matrix is often secretly a graph."
Бұл көзқарас ауысуы - "сандық тордан" "график құрылымына" - ML бастан кешіріп жатқан танымдық жаңартуды көрсетеді. Көбірек адамдар сызықтық алгебра, ықтималдық теориясы, оңтайландыру теориясы осы "сиқырды" қалай қолдайтынын түсінгенде, сала қара жәшікке табынудан ақ жәшікті түсінуге ауысады.
Қоршаған ортаға келетін шығындар мәселесі
Ескерусіз қалдыруға болмайтын нәрсе - ML-дің өркендеуі нақты қоршаған ортаға келетін шығындармен бірге жүреді:
- Технологиялық компаниялардың 74%-ының "AI климатқа көмектеседі" деген мәлімдемелерінде дәлел жоқ
- Google шығарындылары 2019-2023 жылдары 48%-ға өсті
- Microsoft шығарындылары 2020 жылдан бері 29%-ға өсті
Бұл сандар деректер орталықтарының кеңеюінен алынған, ал деректер орталықтарының кеңеюінің қозғаушы күші ML жаттығулары мен қорытындылары болып табылады. Бұл шексіз экстраполяциялауға болатын қисық емес.
Практиктерге арналған сабақтар
Егер сіз ML саласына кіріп жатсаңыз, назар аударуға тұрарлық үш бағыт бар:
- Деректер инженериясы: Модель архитектурасына қарағанда ауыстыру қиынырақ
- Салалық білім: Қандай деректердің құнды екенін білу, жаттықтыруды білуден маңыздырақ
- Жүйелік ойлау: ML оқшауланған модель емес, деректер-модель-өнім-пайдаланушы тұйық циклі
Біреу айтқандай: оқу машинасының өзі болу - өмірдегі ең маңызды мета-дағды.
Бірақ дәлірек айтсақ: деректерді түсінетін оқу машинасы болу - бұл дәуірдің нағыз бәсекеге қабілеттілігі.





