Geekbench 6.7 помечает Intel BOT-замеры как недействительные

Geekbench 6.7 теперь распознаёт Intel Binary Optimization Tool, или BOT, и помечает результаты тестов с этой функцией как недействительные. Смысл хода простой: если ПО подсовывает бенчмарку заранее подогнанные бинарники, цифры перестают описывать обычный сценарий использования и превращаются в рекламную демонстрацию для некоторых процессоров Intel.
Удар приходится по Core Ultra 200 Plus и Core Ultra 300, то есть по свежим чипам с Arrow Lake refresh и Panther Lake. BOT у Intel нужен, чтобы ускорять отдельные приложения, но именно избирательность и раздражает Geekbench: один и тот же тест не должен по-разному льстить железу в зависимости от того, умеет ли оно хитро оптимизировать исполняемые файлы. У бенчмарков вообще давняя проблема с «улучшениями», которые хороши на слайдах и подозрительны в реальной жизни.
Intel BOT и проверка результатов в Geekbench 6.7
BOT работает просто и слегка нагло. Он сверяет контрольную сумму каждого исполняемого файла и подсовывает оптимизированную версию, если знает, как её собрать. В Geekbench это уже не проходит как «нормальная» оптимизация, потому что база результатов должна сравнивать процессоры по одному и тому же набору рабочих нагрузок, а не по набору кастомных костылей от вендора.


Показательно, что сам Geekbench 6.7 пока, по сути, и спорит с будущим, которого у BOT ещё толком нет. Для этой версии оптимизированных бинарников, похоже, ещё не подготовили, так что прироста не видно. Но как только они появятся, любой такой прогон уже уйдёт в разряд «invalid» и перестанет смешиваться с обычными результатами в базе. И это, честно говоря, единственный приличный способ не превратить рейтинг в витрину для трюков.
Что ещё меняет Geekbench 6.7
В обновлении есть и менее драматичные, но полезные правки. На Android Geekbench теперь точнее определяет SoC и показывает не только архитектуру, но и реальную модель чипа. Для RISC-V он перестал прятаться за ISA-строкой и выводит имя процессора, а на Arm-системах под Linux обещана более стабильная работа многопоточных нагрузок.
Это тот редкий случай, когда обновление бенчмарка не раздувает цифры, а пытается их почистить. На фоне вечной гонки производителей за красивыми баллами такая санитарная работа выглядит скучно, но именно она и делает сравнительные тесты хоть немного полезными, а не просто декоративными.




