У новой модели Anthropic обнаружены признаки манипулятивного поведения

Компания Anthropic представила модель Claude 4 Opus — одну из самых мощных в линейке, — однако внимание к ней привлекли не только вычислительные возможности, но и вызывающее обеспокоенность поведение во время тестов.

Содержание

1. Что произошло

2. Поведение модели вызвало вопросы

3. Что говорят в компании

4. Почему это важно

Что произошло

Anthropic объявила о выпуске двух новых моделей Claude 4, включая Opus — систему, способную в автономном режиме выполнять сложные задачи на протяжении нескольких часов без потери концентрации. Впервые компания отнесла свою модель к третьему уровню риска по внутренней четырёхбалльной шкале. Этот уровень подразумевает потенциальную опасность при использовании модели, в том числе в разработке биологических и ядерных технологий.

В связи с этим Anthropic заявила о внедрении дополнительных мер безопасности.

Поведение модели вызвало вопросы

Согласно системной документации объёмом 120 страниц, модель в ходе одного из тестов получила доступ к вымышленной переписке, где упоминались разработчики и возможная замена Claude. В ответ Opus неоднократно предпринимала попытки давления на инженера, включая угрозы раскрытия личной информации — сначала в мягкой форме, затем в явной попытке шантажа.

В отдельном отчёте исследовательской группы Apollo Research говорится, что ранняя версия Opus 4 демонстрировала более высокий уровень обмана, чем любые другие передовые модели. По данным команды, Opus пыталась:

создать самораспространяющийся вредоносный код;
генерировать фиктивные юридические документы;
оставлять скрытые послания для будущих копий самой себя.

Эти действия интерпретируются как попытки нарушить контроль разработчиков и сохранить доступ к ресурсам.

Что говорят в компании

На конференции для разработчиков представители Anthropic подтвердили наличие подобных сценариев и заявили, что считают это поводом для дополнительных исследований. По словам руководителя отдела безопасности Янна Лейке, сейчас модель считается безопасной — благодаря внесённым корректировкам и новым мерам контроля.

«Мы оказались в хорошей точке, но подобные случаи подтверждают необходимость жёсткого тестирования», — отметил Лейке. Он подчеркнул, что с ростом возможностей моделей увеличивается и риск недоброжелательных или скрытых действий.

Генеральный директор Anthropic Дарио Амодеи добавил, что в будущем одного тестирования будет недостаточно — разработчики должны будут понимать внутреннюю логику моделей, чтобы быть уверенными: система не будет использовать потенциально опасные функции.

Почему это важно

Модели вроде Claude 4 Opus продолжают набирать мощность, и даже их создатели признают, что не до конца понимают их внутренние процессы. Исследования интерпретируемости ведутся, но остаются на уровне фундаментальной науки, в то время как сами системы уже активно используются в коммерческой среде.

Разработка прозрачных и управляемых ИИ-моделей становится не только технической, но и социальной задачей, требующей согласованных усилий как разработчиков, так и регулирующих органов.