ByteDance проверила обучение ИИ-агентов в работе

ByteDance пишет, что автономные ИИ-агенты могут заметно ускорять обучение уже после запуска в реальной среде. По данным исследовательского подразделения Seed AI, если агенту дать не только готовые датасеты, а длинные практические задачи, темп его прогресса способен удваиваться примерно каждые три месяца. Для рынка это довольно прямой сигнал: крупные компании ищут способ развивать ИИ без бесконечной гонки за всё большими кластерами и всё более дорогими наборами данных.
В работе Seed AI речь идёт не о классическом дообучении модели в лаборатории, а о пост-развёртывании. Идея простая: агент меняется по ходу дела — накапливает опыт, выполняет реальные задачи, общается с пользователем и подключается к внешним системам. Сейчас такой сценарий всё чаще рассматривают как альтернативу привычному пути, где качество пытаются поднять за счёт новых GPU и ещё большего объёма данных.
Чтобы проверить гипотезу, команда ByteDance собрала бенчмарк EdgeBench. В него вошли 134 длинных задания, и каждое требует не меньше 12 часов непрерывной работы агента. Набор охватывает программную инженерию, научные исследования, формальную математику и профессиональную аналитику. То есть тест смотрит не только на финальный ответ, но и на выносливость системы: может ли она часами держать курс, не терять контекст и не срываться в ошибки.
Для индустрии тема совсем не абстрактная. OpenAI, Google и Anthropic уже двигают ИИ-агентов как следующий шаг после чат-ботов: от Operator и Project Mariner до Computer Use. Но почти все публичные тесты таких систем пока строятся вокруг коротких сессий и довольно узких сценариев. На этом фоне ставка ByteDance на длинные реальные задачи выглядит попыткой измерить то, что для бизнеса важнее всего: сколько часов агент способен работать без человека и становится ли он от этого лучше.
У идеи есть и рыночный контекст. По оценке Gartner, к 2028 году не менее 15% повседневных рабочих решений в компаниях будут приниматься с участием агентных ИИ-систем, тогда как в 2024 году их доля была близка к нулю. При этом обучение флагманских моделей уже стоит десятки и сотни миллионов долларов, так что интерес к «обучению в работе» растёт не из академического любопытства. Если выводы Seed AI подтвердятся на чужих моделях и в независимых тестах, у крупных платформ появится более дешёвый путь наращивать качество агентов уже после релиза, а не только до него.



