Стартап Subquadratic представил ИИ-модель SubQ без dense attention

Сравнение моделей MRCRv2 SubQ GPТ 5.4 Claude Opus 4.7

Источник: Subquadratic

Стартап Subquadratic из Майами объявил о выходе из скрытого режима и представил языковую модель SubQ, которая, по заявлению компании, снимает одно из главных ограничений современных LLM при работе с длинным контекстом. Разработчик утверждает, что модель отказывается от стандартного dense attention в трансформерах, за счёт чего заметно снижает вычислительные затраты и ускоряет обработку больших массивов текста. Главная оговорка в том, что независимых подтверждений у этих заявлений пока немного, а доступ к системе остается ограниченным.

Subquadratic говорит, что SubQ способна обрабатывать до 12 млн токенов контекста. Для сравнения, у большинства коммерческих моделей верхняя планка измеряется сотнями тысяч токенов, а рубеж в 1 млн токенов даже в 2025-2026 годах остается скорее витринной возможностью крупных игроков вроде Google и Anthropic, чем отраслевым стандартом. Компания делает ставку на сценарии, где модель должна за один проход читать большие кодовые базы, массивы договоров или сотни документов.

Технически речь идет о замене плотного механизма внимания разреженным. В классическом трансформере каждый токен сопоставляется со всеми остальными, и с ростом длины контекста вычислительная нагрузка растет квадратично. Subquadratic утверждает, что SubQ выбирает только часть нужных связей между токенами и тем самым сокращает объем вычислений без заметной потери качества на практических задачах.

В качестве подтверждения компания ссылается на собственные тесты и на результаты внешней оценки от Appen. По этим данным, модель показывает кратный выигрыш по скорости относительно реализаций на основе FlashAttention и конкурентные результаты в задачах программирования на LiveCodeBench. Это полезные ориентиры, хотя они не отвечают на главный вопрос: как система поведет себя в реальной эксплуатации, где важны не только скорость и длина контекста, но и устойчивость качества, цена инференса и предсказуемость на смешанных рабочих нагрузках.

Еще один повод для осторожности связан с происхождением модели. Subquadratic не строит архитектуру с нуля в вакууме, а частично опирается на открытые модели семейства Qwen и адаптирует их под собственный подход. Это нормальная практика для отрасли, однако формулировка о полной замене трансформеров в таком случае звучит сильнее, чем доступная сегодня фактура.

Как работает SubQ без dense attention

Проблема, на которую указывает Subquadratic, известна давно. После статьи «Attention Is All You Need» 2017 года именно трансформеры стали базовой архитектурой для больших языковых моделей, а квадратичная сложность внимания быстро превратилась в их узкое место при длинных контекстах. Последние несколько лет индустрия пытается лечить это место разными способами: оптимизацией kernels, сжатием памяти, разреженным вниманием и гибридными схемами маршрутизации.

Поэтому сама идея sparse attention не нова. Ранее похожие подходы исследовали Longformer, BigBird и ряд академических работ, а в коммерческих системах элементы разрежения и локального внимания применялись для ускорения длинных последовательностей. Разница в том, что Subquadratic заявляет не локальную оптимизацию, а архитектурный скачок, который якобы позволяет совместить длинный контекст, высокую скорость и приемлемое качество на универсальных задачах.

Скепсис объясним еще и тем, что рынок ИИ уже видел громкие заявления о «сломанных» ограничениях моделей, которые затем упирались в детали реализации. Длина контекста сама по себе не гарантирует качества. Модель может уместить миллионы токенов во входе, но терять релевантность при поиске нужных фрагментов, ухудшать точность рассуждений или резко дорожать на практических нагрузках. По нашим данным, корпоративные заказчики обычно смотрят не на рекорд в токенах, а на цену одной типовой задачи и стабильность ответа на повторяемых сценариях.

Именно здесь у SubQ пока остается белое пятно. Компания открыла модель лишь ограниченному кругу клиентов и не дала рынку полноценного публичного доступа, который позволил бы воспроизвести тесты. Для стартапа это объяснимо дефицитом вычислительных ресурсов, хотя для подобных заявлений это худший режим проверки: индустрия охотно обсуждает архитектуры на бумаге, но принимает их только после независимых прогонов и интеграций у крупных пользователей.

Если Subquadratic подтвердит заявленные метрики вне собственных демонстраций, компания может попасть в узкий, но денежный сегмент корпоративных систем для анализа документов и кода, где длинный контекст напрямую влияет на экономику внедрения. Конкуренция там уже плотная: Google, Anthropic и OpenAI наращивают контекстные окна в существующих трансформерных моделях, а Nvidia и разработчики inference-стека снижают стоимость обработки за счет оптимизаций на уровне инфраструктуры. Поэтому ближайшая проверка для SubQ будет простой: сможет ли стартап показать не только красивый бенчмарк, но и воспроизводимую цену длинного запроса у реальных клиентов.

Источник: Ixbt

Марта Баринова

Редактор новостного отдела, специализирующийся на аналитике программного обеспечения, стриминговых сервисов и изменениях в политике глобальных технологических платформ. В своих материалах Марта подробно освещает обновления Windows, функциональные изменения в Spotify и Google, а также исследует вопросы антимонопольного регулирования магазинов приложений. Автор более 140 публикаций, помогающих пользователям ориентироваться в быстро меняющемся ландшафте цифровых сервисов.