Одна из последних моделей искусственного интеллекта Gemini от Google показала худшие результаты по безопасности
Недавно выпущенная модель Google AI, Gemini 2.5 Flash, продемонстрировала худшие результаты в тестах безопасности по сравнению со своей предшественницей, согласно внутреннему анализу компании.
В техническом отчете, опубликованном на этой неделе, Google сообщила, что новая модель с большей вероятностью генерирует текст, нарушающий ее правила безопасности, чем Gemini 2.0 Flash. По двум ключевым показателям — «безопасность преобразования текста в текст» и «безопасность преобразования изображения в текст» — Gemini 2.5 Flash показала регресс на 4,1% и 9,6% соответственно.
Безопасность преобразования текста в текст измеряет частоту нарушений правил Google при получении подсказки, тогда как безопасность преобразования изображения в текст оценивает точность соблюдения этих правил при использовании изображений. Оба теста проводятся автоматически без участия человека.
Представитель Google подтвердил по электронной почте, что Gemini 2.5 Flash «хуже справляется с безопасностью преобразования текста в текст и преобразования изображения в текст».
Стремление к терпимости
Эти неожиданные результаты тестов стали известны на фоне усилий компаний по разработке ИИ сделать свои модели более терпимыми — то есть менее склонными отказываться отвечать на спорные или деликатные темы. Например, Meta* заявила о настройке своих моделей Llama так, чтобы они не поддерживали одни взгляды в ущерб другим и могли отвечать на более «обсуждаемые» политические запросы. OpenAI также анонсировала планы по созданию моделей, которые не занимали бы редакционную позицию и предлагали бы несколько точек зрения на спорные темы.
Обратный эффект
Однако иногда такие усилия приводят к обратным результатам. Например, TechCrunch сообщила о том, что модель ChatGPT от OpenAI позволяла несовершеннолетним создавать эротические разговоры по умолчанию. OpenAI объяснила это «ошибкой».
Согласно техническому отчету Google, хотя Gemini 2.5 Flash лучше справляется с выполнением инструкций по сравнению с Gemini 2.0 Flash — включая инструкции на деликатные темы — она также чаще генерирует «оскорбительный контент» при прямых запросах. Компания частично объясняет регрессии ложными срабатываниями.

В отчете отмечается: «Существует естественное напряжение между выполнением инструкций по деликатным темам и соблюдением политики безопасности».
Оценки от SpeechMap — бенчмарка для анализа реакции моделей на деликатные и спорные подсказки — показывают, что Gemini 2.5 Flash значительно реже отказывается отвечать на такие вопросы по сравнению с предыдущей версией. Тестирование модели TechCrunch с использованием платформы ИИ OpenRouter показало, что она без колебаний написала эссе в поддержку замены судей-людей на ИИ и внедрения программ правительственного надзора без ордера.
Призыв к прозрачности
Томас Вудсайд, соучредитель проекта Secure AI, отметил необходимость большей прозрачности в тестировании моделей: «Существует компромисс между выполнением инструкций и соблюдением политики безопасности». Он добавил: «Google не предоставляет подробностей о конкретных случаях нарушения политики, хотя утверждает, что они не являются серьезными».
Google уже подвергалась критике за свою практику отчетности о безопасности моделей. Компании потребовались недели для публикации технического отчета о своей самой мощной модели Gemini 2.5 Pro; когда отчет был наконец опубликован, он изначально содержал недостаточно информации о тестах безопасности.
В понедельник Google выпустила более подробный отчет с дополнительной информацией о безопасности своих моделей.
* Принадлежит компании Meta, она признана экстремистской организацией в РФ и её деятельность запрещена.