Рост популярности моделей «рассуждений» ИИ делает бенчмаркинг более дорогим

Лаборатории искусственного интеллекта, такие как OpenAI, утверждают, что их так называемые «рассуждающие» модели ИИ, способные последовательно анализировать проблемы, превосходят свои нерассуждающие аналоги в определенных областях, таких как физика. Хотя это утверждение в целом верно, высокие затраты на бенчмаркинг моделей рассуждений затрудняют независимую проверку этих заявлений.
Согласно данным компании Artificial Analysis, стороннего тестировщика ИИ, оценка модели рассуждений o1 от OpenAI в рамках семи популярных бенчмарков — MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME 2024 и MATH-500 — обошлась в 2767,05 долларов США. Для сравнения, тестирование гибридной модели Claude 3.7 Sonnet от Anthropic на том же наборе тестов стоило 1485,35 долларов США, а оценка модели o3-mini-high от OpenAI составила 344,59 долларов США.
Некоторые модели рассуждений дешевле для бенчмаркинга. Например, оценка o1-mini от OpenAI обошлась в 141,22 доллара США. Однако в среднем такие модели остаются дорогими. В общей сложности Artificial Analysis потратила около 5200 долларов на оценку примерно дюжины моделей рассуждений — почти вдвое больше суммы расходов на анализ более 80 нерассуждающих моделей (2400 долларов).

Нерассуждающая модель GPT-4o от OpenAI, выпущенная в мае 2024 года, была оценена всего в 108,85 долларов США. В то же время Claude 3.6 Sonnet — предшественник Claude 3.7 Sonnet — обошелся в 81,41 доллара.
Соучредитель Artificial Analysis Джордж Кэмерон сообщил TechCrunch о планах организации увеличить бюджет на бенчмаркинг по мере появления новых моделей рассуждений. «Мы проводим сотни оценок ежемесячно и выделяем значительные средства на эти цели», — отметил Кэмерон. «С увеличением частоты выпуска новых моделей мы планируем увеличить и наши расходы».
Artificial Analysis не единственная компания, сталкивающаяся с растущими затратами на бенчмаркинг ИИ. Росс Тейлор, генеральный директор стартапа General Reasoning, недавно потратил 580 долларов на оценку Claude 3.7 Sonnet по примерно 3700 уникальным подсказкам. Он оценивает стоимость одного прогонного теста MMLU Pro — набора вопросов для оценки языковых навыков модели — более чем в 1800 долларов.
«Мы вступаем в эпоху, когда лаборатории сообщают о своих результатах по бенчмаркам на основе значительных вычислительных ресурсов; однако академические ресурсы значительно меньше», — отметил Тейлор в недавнем посте на X (ранее Twitter). «В результате никто не сможет воспроизвести эти результаты».
Почему же тестирование моделей рассуждений обходится так дорого? Основная причина заключается в том, что они генерируют огромное количество токенов. Токены представляют собой фрагменты текста; например, слово «fantastic» может быть разбито на слоги «fan», «tas» и «tic». По данным Artificial Analysis, модель o1 от OpenAI сгенерировала более 44 миллионов токенов во время тестирования — это примерно восемь раз больше по сравнению с GPT-4o.
Большинство компаний ИИ взимают плату за использование своих моделей на основе количества токенов; поэтому затраты могут быстро возрасти.
Современные бенчмарки также требуют большого количества токенов из-за сложных многошаговых задач. Жан-Станислас Денейн, старший научный сотрудник Epoch AI (разрабатывающей собственные бенчмарки), объяснил: «Сегодняшние бенчмарки более сложные [хотя] общее количество вопросов уменьшилось». Они часто направлены на оценку способности моделей выполнять реальные задачи: писать и исполнять код или осуществлять поиск информации в интернете.
Денейн добавил, что самые дорогие модели со временем становятся еще дороже за токен. Например, модель Claude 3 Opus от Anthropic была самой дорогой при своем запуске в мае 2024 года с ценой $70 за миллион выходных токенов. Модели GPT-4.5 и o1-pro от OpenAI (выпущенные ранее в этом году) стоят $150 и $600 за миллион выходных токенов соответственно.
«Хотя стоимость достижения определенного уровня производительности значительно снизилась благодаря улучшению моделей», — отметил Денейн, — «если вы хотите оценить лучшие и самые крупные модели на данный момент времени, вам все равно придется заплатить больше».
Многие лаборатории ИИ (включая OpenAI) предоставляют организациям для бенчмаркинга бесплатный или субсидируемый доступ к своим моделям для тестирования. Однако некоторые эксперты считают это практикой искажения результатов; даже без доказательств манипуляций само предположение о влиянии лаборатории может подорвать доверие к результатам оценки.
«С научной точки зрения», — задается вопросом Тейлор в своем посте на X: «если вы публикуете результаты, которые невозможно воспроизвести с той же моделью — является ли это вообще наукой? Было ли это когда-либо наукой?»