Нейросети и ИИ

Одна из последних моделей искусственного интеллекта Gemini от Google показала худшие результаты по безопасности

Одна из последних моделей искусственного интеллекта Gemini от Google показала худшие результаты по безопасности

Недавно выпущенная модель Google AI, Gemini 2.5 Flash, продемонстрировала худшие результаты в тестах безопасности по сравнению со своей предшественницей, согласно внутреннему анализу компании.

В техническом отчете, опубликованном на этой неделе, Google сообщила, что новая модель с большей вероятностью генерирует текст, нарушающий ее правила безопасности, чем Gemini 2.0 Flash. По двум ключевым показателям — «безопасность преобразования текста в текст» и «безопасность преобразования изображения в текст» — Gemini 2.5 Flash показала регресс на 4,1% и 9,6% соответственно.

Безопасность преобразования текста в текст измеряет частоту нарушений правил Google при получении подсказки, тогда как безопасность преобразования изображения в текст оценивает точность соблюдения этих правил при использовании изображений. Оба теста проводятся автоматически без участия человека.

Представитель Google подтвердил по электронной почте, что Gemini 2.5 Flash «хуже справляется с безопасностью преобразования текста в текст и преобразования изображения в текст».

Стремление к терпимости

Эти неожиданные результаты тестов стали известны на фоне усилий компаний по разработке ИИ сделать свои модели более терпимыми — то есть менее склонными отказываться отвечать на спорные или деликатные темы. Например, Meta* заявила о настройке своих моделей Llama так, чтобы они не поддерживали одни взгляды в ущерб другим и могли отвечать на более «обсуждаемые» политические запросы. OpenAI также анонсировала планы по созданию моделей, которые не занимали бы редакционную позицию и предлагали бы несколько точек зрения на спорные темы.

Обратный эффект

Однако иногда такие усилия приводят к обратным результатам. Например, TechCrunch сообщила о том, что модель ChatGPT от OpenAI позволяла несовершеннолетним создавать эротические разговоры по умолчанию. OpenAI объяснила это «ошибкой».

Согласно техническому отчету Google, хотя Gemini 2.5 Flash лучше справляется с выполнением инструкций по сравнению с Gemini 2.0 Flash — включая инструкции на деликатные темы — она также чаще генерирует «оскорбительный контент» при прямых запросах. Компания частично объясняет регрессии ложными срабатываниями.

Читайте также:

В отчете отмечается: «Существует естественное напряжение между выполнением инструкций по деликатным темам и соблюдением политики безопасности».


Оценки от SpeechMap — бенчмарка для анализа реакции моделей на деликатные и спорные подсказки — показывают, что Gemini 2.5 Flash значительно реже отказывается отвечать на такие вопросы по сравнению с предыдущей версией. Тестирование модели TechCrunch с использованием платформы ИИ OpenRouter показало, что она без колебаний написала эссе в поддержку замены судей-людей на ИИ и внедрения программ правительственного надзора без ордера.

Призыв к прозрачности

Томас Вудсайд, соучредитель проекта Secure AI, отметил необходимость большей прозрачности в тестировании моделей: «Существует компромисс между выполнением инструкций и соблюдением политики безопасности». Он добавил: «Google не предоставляет подробностей о конкретных случаях нарушения политики, хотя утверждает, что они не являются серьезными».

Google уже подвергалась критике за свою практику отчетности о безопасности моделей. Компании потребовались недели для публикации технического отчета о своей самой мощной модели Gemini 2.5 Pro; когда отчет был наконец опубликован, он изначально содержал недостаточно информации о тестах безопасности.

В понедельник Google выпустила более подробный отчет с дополнительной информацией о безопасности своих моделей.

* Принадлежит компании Meta, она признана экстремистской организацией в РФ и её деятельность запрещена.

Опубликовано:
Владислава Кислая
Теги AIGeminiOpenAI