Илон Маск считает, что люди исчерпали данные для обучения ИИ

Илон Маск, основатель компании xAI, заявил, что индустрия искусственного интеллекта подошла к пределу использования данных, созданных людьми. По его словам, «пик данных» был достигнут в 2023 году, и в будущем развитие моделей будет невозможно без перехода к использованию синтетических данных, то есть данных, созданных самими ИИ-моделями.

Эти слова перекликаются с заявлениями Ильи Суцкевера, бывшего главного учёного OpenAI, сделанными на конференции NeurIPS в декабре 2024 года. Суцкевер также отметил, что нехватка реальных данных требует переосмысления методов разработки современных моделей.

Содержание

1. Преимущества синтетических данных

2. Проблемы и вызовы

3. Будущее развития искусственного интеллекта

Преимущества синтетических данных

Синтетические данные уже активно используются крупными компаниями, такими как Microsoft, OpenAI и Anthropic. Их популярность объясняется рядом преимуществ. Они позволяют создавать практически неограниченное количество информации, снижая затраты на разработку. Например, модель Palmyra X 004 от Writer была разработана почти полностью на основе синтетических данных и обошлась в 700 тысяч долларов. Для сравнения, аналогичная модель OpenAI стоила около 4,6 миллионов долларов.

Некоторые из самых передовых моделей, включая Microsoft Phi-4, Gemma от Google и Claude 3.5 Sonnet от Anthropic, были созданы с использованием смешанных источников данных, объединяющих реальные и синтетические. Gartner прогнозирует, что к 2024 году 60% всех данных, используемых для проектов в области ИИ и аналитики, будут синтетическими.

Проблемы и вызовы

Однако переход к синтетическим данным сопряжён с рисками. Исследования показывают, что чрезмерная зависимость от таких данных может привести к ухудшению функциональности моделей. Это проявляется в снижении их творческих возможностей и усилении предвзятости в выводах. Если исходные данные, на которых базируется синтетический материал, содержат ошибки или ограничения, эти проблемы могут усилиться и распространиться на результаты работы моделей.

Кроме того, модели, тренированные на синтетических данных, могут становиться менее адаптивными и терять способность к созданию оригинальных решений.

Будущее развития искусственного интеллекта

Несмотря на вызовы, синтетические данные открывают новые перспективы для развития искусственного интеллекта. Компании стремятся найти баланс между эффективностью и качеством, чтобы минимизировать риски и сохранить высокие стандарты работы моделей.

Маск считает, что переход к синтетическим данным неизбежен, и подчёркивает важность контроля качества и внедрения новых подходов к обучению ИИ. Это направление может стать ключевым этапом в эволюции технологий искусственного интеллекта.