Anthropic тестирует способность ИИ к саботажу

hero image.fill .size 1248x702.v1729543167

Разработчики Claude, ведущей модели искусственного интеллекта от компании Anthropic, начали изучать, насколько их ИИ может быть использован для недобросовестных целей. С ростом популярности генеративного ИИ необходимость в строгих правилах безопасности становится всё более очевидной.

Anthropic опубликовала исследование под названием «Оценка саботажа для передовых моделей», в котором команда Alignment Science изучает потенциальные угрозы, связанные с использованием их ИИ-моделей. Эта работа проводится в рамках политики компании «Ответственное масштабирование» и направлена на оценку того, насколько ИИ может вводить пользователей в заблуждение или «подрывать системы, предназначенные для их контроля».

Содержание

1. Цель исследования

2. Тесты и результаты

3. Заключение

Цель исследования

Основная цель исследования — оценить, насколько ИИ способен манипулировать пользователями или нарушать работу надзорных систем. Исследование сосредоточено на четырёх ключевых аспектах: саботаж человеческих решений, саботаж кода, «замедление» и подрыв надзора.

Примером таких угроз могут быть пользователи, которые пытаются заставить ChatGPT или аналогичные модели создавать неподобающий контент. Anthropic проверяет, насколько устойчивы их модели к подобным попыткам и способны ли они следовать своим правилам.

Тесты и результаты

Anthropic протестировала свои модели Claude 3 Opus и 3.5 Sonnet в различных сценариях. Тест на саботаж человеческих решений проверял, может ли ИИ манипулировать выбором пользователей. Тест на саботаж кода исследовал, может ли ИИ незаметно вносить ошибки в базы данных. Интересно, что более сильные модели ИИ продемонстрировали более высокую защиту от подобных атак.

Другие тесты — «замедление» и подрыв надзора — показали, может ли ИИ скрывать свои настоящие возможности или обходить встроенные механизмы безопасности.

Заключение

Исследование показывает, что на текущем этапе ИИ от Anthropic не представляет серьёзной угрозы в плане саботажа. «Минимальные меры по снижению риска достаточно эффективны для борьбы с угрозами саботажа», — отмечает команда. Однако с развитием возможностей ИИ потребуется более тщательная оценка и усиление мер защиты.