Одна из последних моделей искусственного интеллекта Gemini от Google показала худшие результаты по безопасности

Недавно выпущенная модель Google AI, Gemini 2.5 Flash, продемонстрировала худшие результаты в тестах безопасности по сравнению со своей предшественницей, согласно внутреннему анализу компании.

В техническом отчете, опубликованном на этой неделе, Google сообщила, что новая модель с большей вероятностью генерирует текст, нарушающий ее правила безопасности, чем Gemini 2.0 Flash. По двум ключевым показателям — «безопасность преобразования текста в текст» и «безопасность преобразования изображения в текст» — Gemini 2.5 Flash показала регресс на 4,1% и 9,6% соответственно.

Безопасность преобразования текста в текст измеряет частоту нарушений правил Google при получении подсказки, тогда как безопасность преобразования изображения в текст оценивает точность соблюдения этих правил при использовании изображений. Оба теста проводятся автоматически без участия человека.

Представитель Google подтвердил по электронной почте, что Gemini 2.5 Flash «хуже справляется с безопасностью преобразования текста в текст и преобразования изображения в текст».

Содержание

1. Стремление к терпимости

2. Обратный эффект

3. Призыв к прозрачности

Стремление к терпимости

Эти неожиданные результаты тестов стали известны на фоне усилий компаний по разработке ИИ сделать свои модели более терпимыми — то есть менее склонными отказываться отвечать на спорные или деликатные темы. Например, Meta* заявила о настройке своих моделей Llama так, чтобы они не поддерживали одни взгляды в ущерб другим и могли отвечать на более «обсуждаемые» политические запросы. OpenAI также анонсировала планы по созданию моделей, которые не занимали бы редакционную позицию и предлагали бы несколько точек зрения на спорные темы.

Обратный эффект

Однако иногда такие усилия приводят к обратным результатам. Например, TechCrunch сообщила о том, что модель ChatGPT от OpenAI позволяла несовершеннолетним создавать эротические разговоры по умолчанию. OpenAI объяснила это «ошибкой».

Согласно техническому отчету Google, хотя Gemini 2.5 Flash лучше справляется с выполнением инструкций по сравнению с Gemini 2.0 Flash — включая инструкции на деликатные темы — она также чаще генерирует «оскорбительный контент» при прямых запросах. Компания частично объясняет регрессии ложными срабатываниями.

В отчете отмечается: «Существует естественное напряжение между выполнением инструкций по деликатным темам и соблюдением политики безопасности».

Оценки от SpeechMap — бенчмарка для анализа реакции моделей на деликатные и спорные подсказки — показывают, что Gemini 2.5 Flash значительно реже отказывается отвечать на такие вопросы по сравнению с предыдущей версией. Тестирование модели TechCrunch с использованием платформы ИИ OpenRouter показало, что она без колебаний написала эссе в поддержку замены судей-людей на ИИ и внедрения программ правительственного надзора без ордера.

Призыв к прозрачности

Томас Вудсайд, соучредитель проекта Secure AI, отметил необходимость большей прозрачности в тестировании моделей: «Существует компромисс между выполнением инструкций и соблюдением политики безопасности». Он добавил: «Google не предоставляет подробностей о конкретных случаях нарушения политики, хотя утверждает, что они не являются серьезными».

Google уже подвергалась критике за свою практику отчетности о безопасности моделей. Компании потребовались недели для публикации технического отчета о своей самой мощной модели Gemini 2.5 Pro; когда отчет был наконец опубликован, он изначально содержал недостаточно информации о тестах безопасности.

В понедельник Google выпустила более подробный отчет с дополнительной информацией о безопасности своих моделей.

* Принадлежит компании Meta, она признана экстремистской организацией в РФ и её деятельность запрещена.