მანქანური სწავლების ნამდვილი თავდაცვითი ზღუდე
როდესაც ხელოვნური ინტელექტის კონკურენციაზე ვსაუბრობთ, ჩვეულებრივ ყურადღებას ვამახვილებთ მოდელის არქიტექტურაზე, პარამეტრების მასშტაბზე, გამოთვლით რესურსებზე. მაგრამ ეს ყველაფერი ნამდვილი ბარიერი არ არის.
ალგორითმების კოპირება შესაძლებელია. გამოთვლითი რესურსების დაქირავება შესაძლებელია. მაგრამ საკუთარი რეალური სამყაროს მონაცემთა მილსადენები? ეს არის თავდაცვითი ზღუდე.
ML კონკურენციის სამი ეტაპი
ბოლო ათწლეულის განმავლობაში, მანქანური სწავლების კონკურენციის ფოკუსმა სამი მიგრაცია განიცადა:
პირველი ეტაპი: ალგორითმების კონკურენცია (2012-2017)
- ვის აქვს უკეთესი მოდელის არქიტექტურა
- CNN, RNN, Transformer-ის გამომგონებლები იღებენ უპირატესობას
- მაგრამ სტატიის გამოქვეყნების შემდეგ, ყველას შეუძლია გამოიყენოს
მეორე ეტაპი: გამოთვლითი რესურსების კონკურენცია (2017-2022)
- ვის აქვს მეტი GPU
- GPT-3-ის გასაწვრთნელად საჭიროა 1000+ V100
- მაგრამ ღრუბლოვანი სერვისები გამოთვლით რესურსებს ყიდვად საქონლად აქცევს
მესამე ეტაპი: მონაცემთა კონკურენცია (2022-დღემდე)
- ვის აქვს უნიკალური მონაცემთა მფრინავი ბორბალი
- სინთეზური მონაცემები ვერ ჩაანაცვლებს რეალურ სამყაროს მონაცემებს
- ეს არის შეუცვლელი ბარიერი
რატომ არის მონაცემები ბოლო თავდაცვითი ზღუდე?
სამი მიზეზი:
- იშვიათობა: მაღალი ხარისხის, კარგად მარკირებული რეალური მონაცემები ბუნებრივად იშვიათია
- არაგაცვლითობა: მაშინაც კი, თუ გადახდის სურვილი გაქვთ, ვერ შეიძენთ კონკურენტის მონაცემთა მილსადენს
- რთული ეფექტი: უკეთესი მონაცემები → უკეთესი პროდუქტი → მეტი მომხმარებელი → მეტი მონაცემი
ერთმა ML პრაქტიკოსმა X-ზე დაწერა:
"Algorithms can be replicated. Compute can be rented. But proprietary real-world data pipelines? That's a moat."
ეს ასახავს საკითხის არსს. როდესაც ხედავთ, რომ OpenAI გამომცემლებთან აფორმებს ექსკლუზიურ კონტრაქტებს, Google კი მილიარდებს ხარჯავს Reddit-ის მონაცემებზე წვდომის უფლების შესაძენად, ისინი არ ყიდულობენ კონტენტს - ისინი ყიდულობენ სასწავლო მონაცემების თავდაცვით ზღუდეს.

გადახრა-დისპერსიის კომპრომისის დაბრუნება
საინტერესოა, რომ როდესაც მონაცემთა ხარისხზე ვსაუბრობთ, მანქანური სწავლების ყველაზე კლასიკური კონცეფცია ბრუნდება: გადახრა-დისპერსიის კომპრომისი.
"Machine Learning in a nutshell: minimize error to achieve optimal bias-variance tradeoff. Higher the bias, more the error between predictions and ground truth - i.e. underfitting. Higher the variance, more the error from small fluctuations in the training set - i.e. overfitting." — @bindureddy
LLM-ის ეპოქაში, ჩვენ ერთ დროს გვეგონა, რომ ეს კონცეფცია მოძველდა. მაგრამ აღმოჩნდა, რომ მონაცემთა ხარისხის პრობლემის არსი კვლავ გადახრისა და დისპერსიის ბალანსია - უსარგებლო მონაცემები წარმოქმნის გადახრას, ხოლო ჰომოგენური მონაცემები იწვევს დისპერსიას.
მათემატიკური პერსპექტივის ცვლილება
კიდევ ერთი ტენდენცია, რომელსაც ყურადღება უნდა მიექცეს, არის: ML-ის მათემატიკური საფუძვლების გაგების გაღრმავება.
ერთმა მკვლევარმა აღნიშნა:
"The most powerful tool in your mathematical toolkit isn't a formula, it's a change of perspective... We're taught to see matrices as 'grids of numbers.' But to a machine learning engineer, a matrix is often secretly a graph."
ეს პერსპექტივის ცვლილება - "რიცხვების ბადედან" "გრაფიკულ სტრუქტურამდე" - ავლენს ML-ის შემეცნებით განახლებას. როდესაც უფრო და უფრო მეტი ადამიანი გაიგებს, თუ როგორ უჭერს მხარს წრფივი ალგებრა, ალბათობის თეორია, ოპტიმიზაციის თეორია ამ "ჯადოქრობას", ინდუსტრია შავი ყუთის თაყვანისცემიდან თეთრი ყუთის გაგებამდე მივა.
გარემოსდაცვითი ხარჯების საკითხი
არ უნდა უგულებელვყოთ, რომ ML-ის აყვავებას თან ახლავს რეალური გარემოსდაცვითი ზიანი:
- ტექნოლოგიური კომპანიების 74%-ის "ხელოვნური ინტელექტი ხელს უწყობს კლიმატს" განცხადებას არ გააჩნია მტკიცებულება
- Google-ის ემისიები 2019-2023 წლებში 48%-ით გაიზარდა
- Microsoft-ის ემისიები 2020 წლიდან 29%-ით გაიზარდა
ეს რიცხვები მომდინარეობს მონაცემთა ცენტრების გაფართოებიდან, ხოლო მონაცემთა ცენტრების გაფართოების მამოძრავებელი ძალა არის ML-ის წვრთნა და დასკვნა. ეს არ არის მრუდი, რომლის უსასრულოდ ექსტრაპოლირებაც შესაძლებელია.
მინიშნებები პრაქტიკოსებისთვის
თუ თქვენ შედიხართ ML-ის სფეროში, არის სამი მიმართულება, რომელსაც ყურადღება უნდა მიაქციოთ:
- მონაცემთა ინჟინერია: უფრო რთულია ჩანაცვლება, ვიდრე მოდელის არქიტექტურა
- დომენის ცოდნა: იმის ცოდნა, თუ რა მონაცემებს აქვს ღირებულება, უფრო მნიშვნელოვანია, ვიდრე იმის ცოდნა, თუ როგორ უნდა გაწვრთნა
- სისტემური აზროვნება: ML არ არის იზოლირებული მოდელი, არამედ მონაცემები-მოდელი-პროდუქტი-მომხმარებლის დახურული ციკლი
როგორც ვიღაცამ თქვა: თავად გახდე სასწავლო მანქანა, არის ცხოვრების ყველაზე მნიშვნელოვანი მეტა-უნარი.
მაგრამ უფრო ზუსტი იქნება იმის თქმა: გახდე მონაცემების გაგების სასწავლო მანქანა, არის ამ ეპოქის ნამდვილი კონკურენტუნარიანობა.





