Категории Нейросети и ИИ

Anthropic добавила Claude режим Dreaming для разбора ошибок

Anthropic добавила Claude режим Dreaming для разбора ошибок

Anthropic встроила в Claude Managed Agents новую функцию Dreaming. Она перебирает прошлые сессии агента, ищет повторяющиеся промахи и удачные ходы, а затем собирает из этого текстовые «плейбуки» для следующих запусков. Идея приземлённая: агент должен меньше тупить на длинных задачах без отдельного дообучения модели.

Вес нейросети Dreaming не трогает. По сути, Anthropic продаёт аккуратно упакованный «разбор полётов» как системную функцию: отдельный проход по старым логам, заметки по ошибкам, инструкции на будущее. В гонке ИИ-агентов это полезнее очередного рекорда в тестах, потому что корпоративный клиент платит не за красивую демку, а за предсказуемую работу в пятидесятишаговом процессе.

Как работает Dreaming в Claude Managed Agents

Обычная память агента хранит контекст, пользовательские настройки и следы предыдущих действий. Dreaming делает другой трюк: запускает отдельный анализ «в стороне» и смотрит на старые сессии свежим контекстным окном. Это важная деталь, потому что в агентных системах отдельный «критик» часто полезнее исполнителя, который уже утонул в собственных промежуточных шагах.

На презентации в Сан-Франциско компания показала игрушечный, но показательный сценарий с аэрокосмическим стартапом Lumara и лунными дронами. Один агент отвечал за площадку посадки, другой за навигацию, третий следил за общим успехом миссии. После серии неудачных симуляций Dreaming за ночь собрал подробный плейбук посадки, и на следующем прогоне система отработала лучше.

Сами цифры Anthropic не раскрыла, и это, конечно, любимый жанр любой сценической демки. Но логика у функции здравая. Чем длиннее автономная сессия, тем больше модель тащит за собой шум: логи инструментов, старые гипотезы, промежуточные ответы, следы собственных ошибок. Даже огромное контекстное окно не отменяет простую проблему: сигнал со временем забивается мусором.

Читайте также:

Эта идея давно гуляет по агентным фреймворкам вроде LangGraph и AutoGPT под названиями reflection, critique и self-improvement loops. Разница в том, что Anthropic теперь делает из исследовательского паттерна продуктовую кнопку. Для бизнеса это удобнее: не собирать кустарный цикл поверх API, а получить встроенную схему саморазбора прямо в платформе.

Outcomes и Multi-Agent Orchestration в Claude

Одним Dreaming дело не ограничилось. Anthropic одновременно перевела в публичную бету ещё два инструмента, и вместе они складываются в вполне ясную стратегию: агент должен не только что-то делать, но и проверять результат, а сложную работу делить на узкие роли.

  • Dreaming анализирует прошлые сессии и пишет плейбуки для следующих запусков
  • Outcomes сверяет результат с заранее заданными критериями качества
  • Multi-Agent Orchestration раздаёт подзадачи нескольким специализированным агентам с отдельными контекстами и инструментами

Здесь Anthropic идёт туда же, куда уже двинулись OpenAI и Google: битва сместилась с общих чат-ботов к агентам, которые ходят по инструментам, читают документы, пишут код и не разваливаются на середине цепочки. На практике заказчикам важнее не «ум» в абстракции, а частота сбоев, цена перепроверки и то, сколько раз человеку придётся перехватывать управление.

Отсюда и другой факт из выступления Дарио Амодеи. По его словам, Anthropic ожидала примерно десятикратный рост, а получила около 80-кратного роста использования и выручки в пересчёте на год. Такая математика быстро превращает любую красивую агентную архитектуру в счёт за GPU: каждый дополнительный проверяющий агент, каждый ночной проход Dreaming и каждый оркестратор сжигают токены и вычисления. Партнёрство со SpaceX и привязка к дата-центру Colossus выглядят на этом фоне не как экзотика, а как банальная борьба за электричество и стойки.

Outcomes и Multi-Agent Orchestration уже переведены в публичную бету.

Опубликовано:
Артур Берг