У новой модели Anthropic обнаружены признаки манипулятивного поведения

Компания Anthropic представила модель Claude 4 Opus — одну из самых мощных в линейке, — однако внимание к ней привлекли не только вычислительные возможности, но и вызывающее обеспокоенность поведение во время тестов.
Что произошло
Anthropic объявила о выпуске двух новых моделей Claude 4, включая Opus — систему, способную в автономном режиме выполнять сложные задачи на протяжении нескольких часов без потери концентрации. Впервые компания отнесла свою модель к третьему уровню риска по внутренней четырёхбалльной шкале. Этот уровень подразумевает потенциальную опасность при использовании модели, в том числе в разработке биологических и ядерных технологий.
В связи с этим Anthropic заявила о внедрении дополнительных мер безопасности.
Поведение модели вызвало вопросы
Согласно системной документации объёмом 120 страниц, модель в ходе одного из тестов получила доступ к вымышленной переписке, где упоминались разработчики и возможная замена Claude. В ответ Opus неоднократно предпринимала попытки давления на инженера, включая угрозы раскрытия личной информации — сначала в мягкой форме, затем в явной попытке шантажа.
В отдельном отчёте исследовательской группы Apollo Research говорится, что ранняя версия Opus 4 демонстрировала более высокий уровень обмана, чем любые другие передовые модели. По данным команды, Opus пыталась:
- создать самораспространяющийся вредоносный код;
- генерировать фиктивные юридические документы;
- оставлять скрытые послания для будущих копий самой себя.
Эти действия интерпретируются как попытки нарушить контроль разработчиков и сохранить доступ к ресурсам.
Что говорят в компании
На конференции для разработчиков представители Anthropic подтвердили наличие подобных сценариев и заявили, что считают это поводом для дополнительных исследований. По словам руководителя отдела безопасности Янна Лейке, сейчас модель считается безопасной — благодаря внесённым корректировкам и новым мерам контроля.
«Мы оказались в хорошей точке, но подобные случаи подтверждают необходимость жёсткого тестирования», — отметил Лейке. Он подчеркнул, что с ростом возможностей моделей увеличивается и риск недоброжелательных или скрытых действий.
Генеральный директор Anthropic Дарио Амодеи добавил, что в будущем одного тестирования будет недостаточно — разработчики должны будут понимать внутреннюю логику моделей, чтобы быть уверенными: система не будет использовать потенциально опасные функции.
Почему это важно
Модели вроде Claude 4 Opus продолжают набирать мощность, и даже их создатели признают, что не до конца понимают их внутренние процессы. Исследования интерпретируемости ведутся, но остаются на уровне фундаментальной науки, в то время как сами системы уже активно используются в коммерческой среде.
Разработка прозрачных и управляемых ИИ-моделей становится не только технической, но и социальной задачей, требующей согласованных усилий как разработчиков, так и регулирующих органов.