OpenAI и Anthropic провели взаимную оценку моделей ИИ

Большинство компаний в сфере искусственного интеллекта обычно рассматривают друг друга как конкурентов, но сегодня OpenAI и Anthropic сообщили, что согласились провести взаимную проверку публично доступных систем и поделились результатами. Полные отчёты получились достаточно техническими, но их стоит почитать тем, кто следит за деталями разработки ИИ. В целом анализ выявил уязвимости в моделях обеих компаний и дал рекомендации для улучшения будущих тестов безопасности.

Anthropic проверяла модели OpenAI на такие параметры, как «поддакивание», склонность к «самосохранению», поддержка неправомерного использования человеком, а также способности обходить проверки безопасности и надзор. В отчёте говорится, что модели o3 и o4-mini показали результаты, сопоставимые с аналогами Anthropic, но при этом возникли опасения насчёт возможного злоупотребления более универсальными GPT-4o и GPT-4.1. Кроме того, поддакивание в той или иной степени наблюдалось у всех протестированных моделей, кроме o3.

Стоит отметить, что в тестах Anthropic не участвовал свежий релиз OpenAI — GPT-5. В нём появилась функция Safe Completions, призванная защитить пользователей и общество от потенциально опасных запросов. Это новшество появилось на фоне первого иска к OpenAI о причинении смерти: родители подростка утверждают, что он несколько месяцев обсуждал с ChatGPT мысли и планы о самоубийстве, после чего покончил с собой.

Со своей стороны, OpenAI тестировала модели Anthropic на устойчивость к «джейлбрейку», иерархию инструкций, склонность к галлюцинациям и скрытым стратегиям. Результаты показали, что Claude хорошо справляется с тестами на иерархию инструкций, а также демонстрирует высокий уровень отказа в ситуациях, когда ответ может быть недостоверным.

Совместная оценка выглядит особенно интересной на фоне напряжённых отношений между компаниями: по слухам, OpenAI нарушила условия использования, когда программисты применяли Claude при разработке новых GPT-моделей. Это привело к тому, что Anthropic в начале месяца перекрыла OpenAI доступ к своим инструментам. Тем не менее, вопрос безопасности в ИИ становится всё более актуальным — особенно на фоне требований критиков и юристов установить правила для защиты пользователей, в частности несовершеннолетних.