OpenAI признала: o3 и o4-mini чаще «галлюцинируют», чем o1

Ожидавшиеся как более точные и «умные», свежие ИИ-модели OpenAI серии o-серии неожиданно продемонстрировали обратный результат: по собственным тестам компании, уровень их так называемых галлюцинаций оказался значительно выше, чем у предшественников.

Согласно техническому отчёту OpenAI, модели o3 и o4-mini, разработанные специально для более продвинутого логического вывода, выдают недостоверные ответы значительно чаще, чем более ранняя модель o1. Результаты были зафиксированы в рамках оценки PersonQA — методики, направленной на проверку уровня галлюцинаций в ответах. Так, o3 продемонстрировала 33% ложных утверждений, а o4-mini — и вовсе 48%, что означает почти каждое второе утверждение с искажённой или вымышленной информацией. Для сравнения: модель o1 показала 16% — почти вдвое меньше.

Что особенно примечательно, в системной карте OpenAI прямо указывается, что модель o3 «чаще делает утверждения в целом, что приводит как к росту точных ответов, так и к увеличению числа ложных». Однако в компании признают: причины столь высокого уровня галлюцинаций пока остаются неизвестными, и для их выявления «требуются дополнительные исследования».

Серия o-моделей была задумана как альтернатива более вероятностным системам вроде GPT-4.5 и GPT-4o. Они задействуют больше вычислительных ресурсов, чтобы, как указано в описании o1, «дольше обдумывать ответ», использовать разные стратегии мышления и находить ошибки. Предполагалось, что это повысит точность и надёжность, особенно при решении задач, связанных с логикой и рассуждением.

Однако факты говорят об обратном. Например, согласно тому же отчёту, модель GPT-4.5, выпущенная в феврале, показала уровень галлюцинаций 19%, а GPT-4o — 30%. Эти цифры всё же ниже, чем у новых моделей o3 и o4-mini, которые позиционируются как более продвинутые.

При этом стоит помнить, что сами по себе оценки и бенчмарки не всегда объективны. Они разрабатываются внутренними командами, а значит, могут страдать от предвзятости или некорректного подбора данных. Исследования действительно указывают на проблемы в таких тестах, как PersonQA, в том числе в самих подходах к измерению «галлюцинаций».

В подтверждение этому можно привести независимую оценку от HuggingFace, которая использует собственный бенчмарк на основе 1000 открытых документов. По его данным, показатели значительно ниже: GPT-4o — 1,5%, GPT-4.5 — 1,2%, а o3-mini-high с поддержкой reasoning — всего 0,8%. Важно отметить, что финальные версии o3 и o4-mini в этом рейтинге пока не участвовали.

Таким образом, несмотря на заявления о прогрессе, текущие данные заставляют усомниться в реальном превосходстве новых reasoning-моделей OpenAI. Технологии продолжают развиваться, но вместе с ними — и вопросы к их точности.