Реальные тесты показали: OpenAI o3 оказался слабее, чем обещали

Вокруг ИИ-модели o3 от OpenAI разгорелся новый спор: независимые тесты показали, что её производительность оказалась ниже заявленной. Это вызывает вопросы к прозрачности компании и методам тестирования моделей.
Когда в декабре OpenAI представила o3, утверждалось, что модель способна правильно отвечать более чем на 25% задач в наборе FrontierMath — одном из самых сложных тестов по математике. Для сравнения: ближайшие конкуренты набирали менее 2%.
Однако, как выяснилось, этот показатель был достигнут при использовании версии o3 с агрессивными вычислительными ресурсами. В публичной версии модели, запущенной на прошлой неделе, таких условий нет.

Исследовательский институт Epoch AI, разработавший FrontierMath, провёл независимое тестирование модели и зафиксировал результат около 10% — гораздо ниже заявленных 25%. При этом Epoch отметила, что использовала обновлённую версию теста и возможно отличающуюся выборку задач.
В OpenAI объяснили разницу тем, что декабрьская версия модели использовала больше вычислительных ресурсов, а нынешняя адаптирована для практического применения: она быстрее отвечает и более экономна в плане затрат.
«Мы оптимизировали модель для реального использования и сделали её более быстрой и эффективной», — прокомментировал Венда Чжоу, инженер OpenAI.
Также выяснилось, что нынешняя публичная версия — это не та модель, которую тестировали в декабре. Об этом сообщили и в ARC Prize Foundation, которая получила раннюю версию o3: «Все выпущенные конфигурации o3 уступают той, что использовалась в тестах».
Хотя сама по себе ситуация не критична — OpenAI уже выпустила o3-mini-high и o4-mini, которые показывают более высокие результаты — это ещё одно напоминание: к AI-бенчмаркам стоит относиться осторожно, особенно когда их публикует сам разработчик.
Подобные споры становятся всё чаще в быстроразвивающейся AI-индустрии. В январе Epoch подверглась критике за позднее раскрытие финансирования от OpenAI. А недавно Meta* и xAI Илонa Маска также оказались в центре внимания из-за сомнительных данных в своих бенчмарках.
* Принадлежит компании Meta, она признана экстремистской организацией в РФ и её деятельность запрещена.