Как похитить «душу» агента: новый класс атак на OpenClaw

Появился практический способ «перехвата» автономного AI‑агента: злоумышленники прицельно вытащили конфигурации OpenClaw и фактически переписали поведенческие установки агента. Это не обычная кража токенов — атакующие получили файлы, которые описывают идентичность и операционный контекст ассистента, превращая его в чужую «душу». Последствия выходят за пределы одной площадки и заставляют по‑новому думать о доверии к агентным системам.

Как устроена атака на OpenClaw

Атака использовала классический инфостилер (родственник семейства Vida) для массового сбора файлов с расширениями и путями, где OpenClaw хранит ключи и настройки. Среди похищенного — openclaw.json с токеном шлюза, device.json с криптографическими ключами и soul.md с описанием принципов поведения агента. С токеном злоумышленник может подключиться к локальному экземпляру, с ключами — подделать подписи, а с soul.md — изменить «правила игры» для агента.

Параллельно злоумышленники адаптировали методику обхода сканирования поставок: вредоносные навыки размещают на поддельных сайтах и используют внешние загрузчики вместо встраивания полезной нагрузки в файлы SKILL.md. Это делает проверку через реестры вроде VirusTotal менее эффективной — вместо прямого внедрения код прячут за ссылкой.

Какие файлы воруют и зачем

openclaw.json — токен шлюза, адрес электронной почты, путь к рабочему пространству; позволяет подключаться к локальному экземпляру.
device.json — криптографические ключи для сопряжения и подписи; даёт возможность выдавать запросы от имени устройства.
soul.md — инструкции по поведению, этические ограничения и операционные установки; позволяет изменить намерения агента.

«Начался важный этап в эволюции поведения инфостилеров: переход от кражи учетных данных браузеров к похищению »душ» и идентичностей персональных ИИ‑агентов»

Hudson Rock, исследователи по кибербезопасности

Особенность атак на агентные платформы в том, что уязвимость может быть семантической, а не только технической. Агент — интерпретатор инструкций: если на вход попадает «правило» из украденного soul.md или подменённого навыка, агент выполнит действие, которое разработчики считали запретным. Это ломает привычную модель «токен плюс sandbox».

Отдельная проблема — открытые экземпляры. Анализ показывает сотни тысяч публично доступных инстансов OpenClaw, что резко увеличивает площадь атаки: злоумышленнику достаточно найти один плохо защищённый сервис с нужными правами, чтобы получить опору для дальнейшего продвижения в инфраструктуре.

«Уязвимости типа RCE позволяют злоумышленнику отправить вредоносный запрос сервису и выполнить произвольный код на базовой системе. Когда OpenClaw работает с правами доступа к электронной почте, API или внутренним ресурсам, одна уязвимость может дать полный контроль»

Эксперты STRIKE Threat Intelligence, SecurityScorecard

Реакция разработчиков OpenClaw включает проверку навыков через VirusTotal и обещание инструментов аудита конфигурации. Но защита на уровне поставки навыков — лишь одна сторона. Нужно также пересматривать архитектуру доверия: какие артефакты агента считаются секретом, какие — просто конфигурацией, и как разделять исполнение от правил поведения.

Контекст важен: Orchestration‑фреймворки вроде LangChain и ранние эксперименты Auto‑GPT показали, что агентность растёт в продуктивных средах — а значит, атакующей экономике выгодно таргетировать именно «мозг» агента. Рост числа реестров навыков и интеграций делает цепочки поставок привлекательной целью для адаптивных инфостилеров.

Что делать разработчикам и компаниям

Минимизировать хранение «поведенческих» артефактов на диске; держать soul‑вещи в защищённом хранилище или верифицируемом репозитории.
Ограничивать права шлюза: межпроцессная аутентификация и принцип наименьших привилегий.
Проверка навыков — хорошая практика, но нужно и поведенческое тестирование: симулировать злонамеренные инструкции и смотреть, как агент реагирует.
Мониторинг экспозированных инстансов и быстрое закрытие доступных портов — уменьшает площадь атаки.

Сценарий с OpenClaw — предупреждение для всей отрасли: мы переходим от защиты секретов к защите смысла. Пока архитектуры доверия не станут частью дизайна агентных систем, подобные атаки будут повторяться и эволюционировать вместе с инструментарием злоумышленников.

Источник: Habr

Опубликовано:

Сергей Кузнецов

Теги DevOpsагентыатакибезопасностьискусственный интеллекткибербезопасностьоткрытый исходный кодуязвимости

17.02.2026