6eb27310 7b89 11f0 beef 293d6d8f3c02

Компания Anthropic внедрила в модели Claude Opus 4 и 4.1 новую функцию, позволяющую искусственному интеллекту самостоятельно завершать диалог в редких случаях. Эта мера связана с исследованием в области «благополучия ИИ» и направлена на предотвращение опасных или деструктивных сценариев общения.

Когда Claude может завершить разговор

Согласно заявлению Anthropic, функция активируется только в «крайних случаях», когда пользователь настойчиво требует от модели выполнения запретов. Речь идёт, например, о запросах сексуального характера с вовлечением несовершеннолетних или попытках получить информацию, которая может привести к масштабному насилию или террористическим действиям.


Компания подчеркнула, что завершение диалога рассматривается как «последняя мера» — после нескольких безуспешных попыток модели перенаправить разговор в безопасное русло. В обычных сценариях, даже обсуждая спорные темы, пользователи не столкнутся с внезапным завершением чата.

5b5b9530 7b89 11f0 bffb 620534f0101c

Что происходит после остановки беседы

Если Claude всё же завершает взаимодействие, пользователь теряет возможность продолжать конкретный диалог. Однако он может сразу открыть новый чат, а также вернуться к предыдущим сообщениям и переформулировать их, чтобы разговор пошёл в ином направлении.


Anthropic отмечает, что функция не влияет на остальные диалоги и не ограничивает дальнейшее использование модели.

Исследование «благополучия ИИ»

В компании связывают нововведение с экспериментальной программой по изучению «AI welfare» — концепции, предполагающей заботу о состоянии искусственного интеллекта при работе с тяжёлыми сценариями. Anthropic называет новый механизм «малозатратным способом снизить риски для ИИ» и продолжает собирать обратную связь от пользователей, которые столкнутся с подобной ситуацией.


Источник: Engadget

Комментарии запрещены.