Илон Маск считает, что люди исчерпали данные для обучения ИИ

Илон Маск, основатель компании xAI, заявил, что индустрия искусственного интеллекта подошла к пределу использования данных, созданных людьми. По его словам, «пик данных» был достигнут в 2023 году, и в будущем развитие моделей будет невозможно без перехода к использованию синтетических данных, то есть данных, созданных самими ИИ-моделями.
Эти слова перекликаются с заявлениями Ильи Суцкевера, бывшего главного учёного OpenAI, сделанными на конференции NeurIPS в декабре 2024 года. Суцкевер также отметил, что нехватка реальных данных требует переосмысления методов разработки современных моделей.
Преимущества синтетических данных
Синтетические данные уже активно используются крупными компаниями, такими как Microsoft, OpenAI и Anthropic. Их популярность объясняется рядом преимуществ. Они позволяют создавать практически неограниченное количество информации, снижая затраты на разработку. Например, модель Palmyra X 004 от Writer была разработана почти полностью на основе синтетических данных и обошлась в 700 тысяч долларов. Для сравнения, аналогичная модель OpenAI стоила около 4,6 миллионов долларов.
Некоторые из самых передовых моделей, включая Microsoft Phi-4, Gemma от Google и Claude 3.5 Sonnet от Anthropic, были созданы с использованием смешанных источников данных, объединяющих реальные и синтетические. Gartner прогнозирует, что к 2024 году 60% всех данных, используемых для проектов в области ИИ и аналитики, будут синтетическими.
Проблемы и вызовы
Однако переход к синтетическим данным сопряжён с рисками. Исследования показывают, что чрезмерная зависимость от таких данных может привести к ухудшению функциональности моделей. Это проявляется в снижении их творческих возможностей и усилении предвзятости в выводах. Если исходные данные, на которых базируется синтетический материал, содержат ошибки или ограничения, эти проблемы могут усилиться и распространиться на результаты работы моделей.
Кроме того, модели, тренированные на синтетических данных, могут становиться менее адаптивными и терять способность к созданию оригинальных решений.
Будущее развития искусственного интеллекта
Несмотря на вызовы, синтетические данные открывают новые перспективы для развития искусственного интеллекта. Компании стремятся найти баланс между эффективностью и качеством, чтобы минимизировать риски и сохранить высокие стандарты работы моделей.
Маск считает, что переход к синтетическим данным неизбежен, и подчёркивает важность контроля качества и внедрения новых подходов к обучению ИИ. Это направление может стать ключевым этапом в эволюции технологий искусственного интеллекта.