TurboQuant сокращает память ИИ в 6 раз без потери точности

Логотип Google Research с косаткой внутри слова на фоне визуализации для статьи о сжатии памяти ИИ

Новая технология TurboQuant обещает значительно уменьшить объёмы памяти, необходимые для работы искусственного интеллекта, при этом не снижая точность моделей. Этот метод сжимает высокоразмерные векторы, используемые в ключевых моментах обработки данных, таких как кеш ключ-значение и поиск по векторным базам, делая ИИ-системы не только компактнее, но и быстрее.

Высокоразмерные векторы, несмотря на свою мощь, создают узкое место в производительности из-за большого объёма памяти, необходимого для их хранения. Классическое сжатие через векторную квантизацию снижает объём данных, но часто требует дополнительной памяти на хранение квантующих констант, что уменьшает выгоду. TurboQuant кардинально решает эту проблему, используя инновационный подход к сжатию и контролю ошибок, позволяя сократить размер кеша ключ-значение в 6 раз и ускорить вычисления до восьми раз на ускорителях NVIDIA H100.

Как работает TurboQuant

TurboQuant строится на двух основных этапах. Сначала применяется метод PolarQuant, который меняет систему координат векторов с декартовой на полярную. Вместо привычных координат используется радиус и угол. Такая трансформация упрощает структуру данных, устраняя необходимость дорогостоящей нормализации и уменьшая объём данных для хранения.

Второй этап — Quantized Johnson-Lindenstrauss (QJL), математический приём, сжимающий ошибку после первого этапа до одного бита с использованием знакового кода. Благодаря QJL удаётся достичь нулевых накладных расходов на хранение параметров сжатия, сохраняя при этом высокую точность вычисления внимания — ключевого механизма в современных языковых моделях.

Результаты испытаний TurboQuant и преимущества

Испытания TurboQuant на открытых моделях Gemma и Mistral по бенчмаркам LongBench, ZeroSCROLLS и другим показали идеальную точность при сокращении кеша ключ-значение в 6 раз. Кроме того, метод оказался быстрее оригинальных моделей, снижая время вычисления ключевых операций.

В сравнении с ведущими алгоритмами сжатия, такими как Product Quantization (PQ) и RabbiQ, TurboQuant демонстрирует более высокую точность в задачах поиска по миллиардам векторов. При этом используется более компактный код, и отсутствует необходимость тонкой настройки под конкретные датасеты.

Перспективы сжатия в ИИ и семантическом поиске с TurboQuant

TurboQuant и сопутствующие алгоритмы открывают новую страницу в оптимизации ИИ, позволяя создавать и использовать огромные векторные индексы со скоростью, сопоставимой с 3-битными системами, и сохранять точность традиционных тяжёлых моделей. Это особенно важно для развивающегося семантического поиска, где точное и быстрое понимание смысла запросов требует эффективного хранения и обработки огромного количества векторов.

С приближением эпохи повсеместного внедрения искусственного интеллекта TurboQuant может стать ключевым инструментом, поддерживающим масштабируемость и быстродействие новых продуктов — от языковых моделей до систем интеллектуального поиска и анализа данных.

Для подробностей реализации и теоретической базы TurboQuant рекомендуем ознакомиться с материалами конференций ICLR 2026 и AISTATS 2026, где эти алгоритмы получили высокую оценку сообщества.

Источник: Research

Илья Игнатов

Технический журналист и новостник. Окончил МТУСИ по специальности «Информационная безопасность». Пишет о железе, софте и потребительской электронике с 2018 года. Верит, что хорошая новость — это когда всё по делу и без воды.