Claude AI получил функцию завершения «тревожных» диалогов

Компания Anthropic внедрила в модели Claude Opus 4 и 4.1 новую функцию, позволяющую искусственному интеллекту самостоятельно завершать диалог в редких случаях. Эта мера связана с исследованием в области «благополучия ИИ» и направлена на предотвращение опасных или деструктивных сценариев общения.

Содержание

1. Когда Claude может завершить разговор

2. Что происходит после остановки беседы

3. Исследование «благополучия ИИ»

Когда Claude может завершить разговор

Согласно заявлению Anthropic, функция активируется только в «крайних случаях», когда пользователь настойчиво требует от модели выполнения запретов. Речь идёт, например, о запросах сексуального характера с вовлечением несовершеннолетних или попытках получить информацию, которая может привести к масштабному насилию или террористическим действиям.

Компания подчеркнула, что завершение диалога рассматривается как «последняя мера» — после нескольких безуспешных попыток модели перенаправить разговор в безопасное русло. В обычных сценариях, даже обсуждая спорные темы, пользователи не столкнутся с внезапным завершением чата.

Что происходит после остановки беседы

Если Claude всё же завершает взаимодействие, пользователь теряет возможность продолжать конкретный диалог. Однако он может сразу открыть новый чат, а также вернуться к предыдущим сообщениям и переформулировать их, чтобы разговор пошёл в ином направлении.

Anthropic отмечает, что функция не влияет на остальные диалоги и не ограничивает дальнейшее использование модели.

Исследование «благополучия ИИ»

В компании связывают нововведение с экспериментальной программой по изучению «AI welfare» — концепции, предполагающей заботу о состоянии искусственного интеллекта при работе с тяжёлыми сценариями. Anthropic называет новый механизм «малозатратным способом снизить риски для ИИ» и продолжает собирать обратную связь от пользователей, которые столкнутся с подобной ситуацией.

Источник: Engadget