Илон Маск считает, что люди исчерпали данные для обучения ИИ
Илон Маск, основатель компании xAI, заявил, что индустрия искусственного интеллекта подошла к пределу использования данных, созданных людьми. По его словам, «пик данных» был достигнут в 2023 году, и в будущем развитие моделей будет невозможно без перехода к использованию синтетических данных, то есть данных, созданных самими ИИ-моделями.
Эти слова перекликаются с заявлениями Ильи Суцкевера, бывшего главного учёного OpenAI, сделанными на конференции NeurIPS в декабре 2024 года. Суцкевер также отметил, что нехватка реальных данных требует переосмысления методов разработки современных моделей.
Содержание
Преимущества синтетических данных
Синтетические данные уже активно используются крупными компаниями, такими как Microsoft, OpenAI и Anthropic. Их популярность объясняется рядом преимуществ. Они позволяют создавать практически неограниченное количество информации, снижая затраты на разработку. Например, модель Palmyra X 004 от Writer была разработана почти полностью на основе синтетических данных и обошлась в 700 тысяч долларов. Для сравнения, аналогичная модель OpenAI стоила около 4,6 миллионов долларов.
Некоторые из самых передовых моделей, включая Microsoft Phi-4, Gemma от Google и Claude 3.5 Sonnet от Anthropic, были созданы с использованием смешанных источников данных, объединяющих реальные и синтетические. Gartner прогнозирует, что к 2024 году 60% всех данных, используемых для проектов в области ИИ и аналитики, будут синтетическими.
Проблемы и вызовы
Однако переход к синтетическим данным сопряжён с рисками. Исследования показывают, что чрезмерная зависимость от таких данных может привести к ухудшению функциональности моделей. Это проявляется в снижении их творческих возможностей и усилении предвзятости в выводах. Если исходные данные, на которых базируется синтетический материал, содержат ошибки или ограничения, эти проблемы могут усилиться и распространиться на результаты работы моделей.
Кроме того, модели, тренированные на синтетических данных, могут становиться менее адаптивными и терять способность к созданию оригинальных решений.
Будущее развития искусственного интеллекта
Несмотря на вызовы, синтетические данные открывают новые перспективы для развития искусственного интеллекта. Компании стремятся найти баланс между эффективностью и качеством, чтобы минимизировать риски и сохранить высокие стандарты работы моделей.
Маск считает, что переход к синтетическим данным неизбежен, и подчёркивает важность контроля качества и внедрения новых подходов к обучению ИИ. Это направление может стать ключевым этапом в эволюции технологий искусственного интеллекта.