Истинный ров машинного обучения
Когда мы говорим о конкуренции в области ИИ, мы обычно сосредотачиваемся на архитектуре моделей, масштабе параметров и вычислительных ресурсах. Но ничто из этого не является настоящим барьером.
Алгоритмы можно скопировать. Вычислительные ресурсы можно арендовать. Но собственные каналы данных из реального мира? Это и есть ров.
Три этапа конкуренции в ML
За последнее десятилетие фокус конкуренции в машинном обучении смещался трижды:
Первый этап: Конкуренция алгоритмов (2012-2017)
- У кого лучше архитектура модели
- Преимущество получают изобретатели CNN, RNN, Transformer
- Но после публикации статьи все могут использовать
Второй этап: Конкуренция вычислительных ресурсов (2017-2022)
- У кого больше GPU
- Для обучения GPT-3 требуется более 1000 V100
- Но облачные сервисы превращают вычислительные ресурсы в товар, который можно купить
Третий этап: Конкуренция данных (2022-настоящее время)
- У кого уникальный цикл данных
- Синтетические данные не могут заменить данные из реального мира
- Это и есть невоспроизводимый барьер
Почему данные - последний ров?
Три причины:
- Дефицит: Высококачественные, хорошо размеченные реальные данные по своей природе дефицитны
- Невозможность торговли: Даже если вы готовы заплатить, вы не можете купить каналы данных конкурентов
- Эффект сложных процентов: Лучшие данные → Лучший продукт → Больше пользователей → Больше данных
Один специалист по ML написал в X:
\





