Το πραγματικό χαντάκι της μηχανικής μάθησης
Όταν μιλάμε για τον ανταγωνισμό στην τεχνητή νοημοσύνη, συνήθως εστιάζουμε στην αρχιτεκτονική των μοντέλων, το μέγεθος των παραμέτρων και τις επενδύσεις στην υπολογιστική ισχύ. Αλλά αυτά δεν είναι πραγματικά εμπόδια.
Οι αλγόριθμοι μπορούν να αντιγραφούν. Η υπολογιστική ισχύς μπορεί να ενοικιαστεί. Αλλά οι ιδιόκτητοι αγωγοί δεδομένων πραγματικού κόσμου; Αυτό είναι το χαντάκι.
Τρία στάδια του ανταγωνισμού ML
Την τελευταία δεκαετία, η εστίαση του ανταγωνισμού στη μηχανική μάθηση έχει μετατοπιστεί τρεις φορές:
Πρώτο στάδιο: Ανταγωνισμός αλγορίθμων (2012-2017)
- Ποιος έχει την καλύτερη αρχιτεκτονική μοντέλου
- Οι εφευρέτες των CNN, RNN, Transformer κερδίζουν πλεονέκτημα
- Αλλά μετά τη δημοσίευση της εργασίας, όλοι μπορούν να το χρησιμοποιήσουν
Δεύτερο στάδιο: Ανταγωνισμός υπολογιστικής ισχύος (2017-2022)
- Ποιος έχει περισσότερες GPU
- Η εκπαίδευση του GPT-3 απαιτεί 1000+ V100
- Αλλά οι υπηρεσίες cloud καθιστούν την υπολογιστική ισχύ ένα εμπορεύσιμο αγαθό
Τρίτο στάδιο: Ανταγωνισμός δεδομένων (2022-σήμερα)
- Ποιος έχει έναν μοναδικό κύκλο δεδομένων
- Τα συνθετικά δεδομένα δεν μπορούν να αντικαταστήσουν τα δεδομένα του πραγματικού κόσμου
- Αυτό είναι το μη αναπαραγώγιμο εμπόδιο
Γιατί τα δεδομένα είναι το τελευταίο χαντάκι;
Τρεις λόγοι:
- Σπανιότητα: Τα υψηλής ποιότητας, καλά επισημασμένα πραγματικά δεδομένα είναι εγγενώς σπάνια
- Μη εμπορευσιμότητα: Ακόμα κι αν είστε πρόθυμοι να πληρώσετε, δεν μπορείτε να αγοράσετε τους αγωγούς δεδομένων των ανταγωνιστών
- Επίδραση σύνθεσης: Καλύτερα δεδομένα → Καλύτερο προϊόν → Περισσότεροι χρήστες → Περισσότερα δεδομένα
Ένας επαγγελματίας ML έγραψε στο X:
\





