GigaChat-3.1 с нативным FP8 и улучшенной генерацией без циклов

Девочки в классе обсуждают GigaChat-3.1 и нативный FP8 за лабораторным оборудованием

Обновлённые модели GigaChat-3.1-Ultra и Lightning вышли с важными изменениями: переход на модульную архитектуру MoE, борьба с проблемой зацикливания в генерациях и обучение DPO-этапа в нативном FP8, что повысило качество и существенно ускорило работу моделей. Улучшения сделали их конкурентоспособными с крупными аналогами на арене, а исходники остались открытыми.

В отличие от универсальных плотных моделей, GigaChat-3.1 опирается на архитектуру с экспертами (MoE), что позволило им на старте превзойти по математике и общему рассуждению версии Qwen3 и DeepSeek. При этом Lightweight-модель с 1,8 миллиарда активных параметров демонстрирует уровень GPT-4o, что подтверждает эффективность масштабирования MoE при заметном снижении издержек на вычисления.

Содержание

1. Решение проблемы циклов генерации с помощью новой метрики BPE-сжатия

2. Обучение DPO в нативном FP8 и его преимущества

3. Оптимизация обучения и автоматизация контроля качества моделей

4. Качество и метрики моделей GigaChat-3.1 в кодировании и reasoning

Решение проблемы циклов генерации с помощью новой метрики BPE-сжатия

Перед релизом команда столкнулась с зацикливанием генераций: модель повторяла слова и фразы, что портило качество ответов. Традиционная метрика CYCLES доказала свою ограниченность, и разработчики придумали новую — анализ сжимаемости хвоста текста с помощью итеративного BPE-подобного сжатия. Чем меньше длина сжатого хвоста относительно исходного, тем выше вероятность цикла. Эта универсальная метрика ловит не только прямые повторы, но и сложные шаблоны, повышая точность диагностики.

Исследование показало, что циклы возникают преимущественно на этапе претрейна с расширенным контекстом (до 32 тысяч токенов). Позже SFT и DPO уменьшают их, но грамотный подбор гиперпараметров оказался важнее самих данных. Были проверены гипотезы о проблемах с обучением предсказания EOS, дисбалансе нагрузки между экспертами и даже баге в системном языке SGLang, который увеличивал количество циклов при режиме data parallel больше 1.

Обучение DPO в нативном FP8 и его преимущества

Впервые для этапа DPO (Direct Preference Optimization), критичного для качества alignment, была применена нативная FP8-квантизация. Ранее при использовании PTQ в FP8 модели теряли качество на сложных длинных генерациях из-за накопленных ошибок квантования в residual stream трансформера. Перевод в нативный FP8 позволил не только устранить эту проблему, но и улучшить метрики по сравнению с BF16 при вдвое меньшем потреблении памяти. Это критично для масштабных моделей с сотнями миллиардов параметров, ускоряя инференс и снижая энергозатраты.

Таблица сравнения бенчмарков GigaChat-3.1 с результатами по Arena A и Arena B — Источник изображения: habr.com

Под капотом использовалась DeepGEMM от DeepSeek, дополненная оптимизированными CUDA и Triton-ядрами. При обучении учитывались особенности размерности слоёв для сохранения совместимости с квантованием. Это позволило гибко настраивать архитектуру и достичь высокого качества генераций. Такой подход выделяет GigaChat-3.1 на фоне многих open source моделей, которые до сих пор не отказались от более ресурсоёмкого BF16.

Оптимизация обучения и автоматизация контроля качества моделей

Ускорение обучения достигнуто оптимизацией пайплайна SFT: сочетанием sequence packing, dynamic sequence parallelism и других инженерных решений. Благодаря этому время обучения сократилось в три раза, а при обработке контекста в 256 тыс. токенов — в десять раз. Это позволяет экономить ресурсы при работе с длинными диалогами и сложными задачами, не увеличивая стоимость обучения на коротких примерах.

Для мониторинга качества моделей на аренах замеров внедрён оркестратор с локальными судьями. GPT-4 через API дорог, поэтому протестировали альтернативы: Qwen-3-30b завышал результаты, DeepSeek-V3.2 и Kimi-K2 были слишком тяжёлыми для быстрого тестирования. Победила GPT-OSS-120b — компактный, быстрый локальный судья с высокой корреляцией к GPT-4.

таблица сравнения моделей GigaChat-3.1 и других моделей нативного FP8 — Источник изображения: habr.com

Качество и метрики моделей GigaChat-3.1 в кодировании и reasoning

За полгода модели GigaChat значительно выросли в качестве. Ultra-версия обошла в математике и общем reasoning Qwen3-235B-A22B и DeepSeek-V3-0324, а Lightning — достигла уровня GPT-4o при вдвое меньшем объёме параметров. Вызов функций и работа с кодом особенно улучшились, Lightning теперь быстрее предшественников, сохраняя высокое качество в диалогах и программировании.

Таблица сравнения GigaChat-3.1 Lightning с другими моделями Russian — Источник изображения: habr.com

Alignment моделей стал существенно лучше благодаря глубокой работе с гиперпараметрами DPO и улучшенным наборам данных по сложным доменам — математике, физике, биологии и финансам. Персонализация теперь учитывает память пользователей, что повышает релевантность ответов без излишней навязчивости.

Таблица сравнения и результатов GigaChat-3.1 с различными моделями — Источник изображения: habr.com

Размер моделей стал вдвое меньше благодаря нативному FP8, что удвоило их клиентскую нагрузку без увеличения потребления памяти и сохранило качество. Прирост скорости около 40% обеспечивает преимущество в мобильности и сервисной работе GigaChat-3.1. В сочетании с MTP (Multi-Token Prediction) это добавляет ещё больше эффективности.

В переходе на модульные MoE-модели пришлось пересмотреть не только архитектуру, но и весь пайплайн обучения — от подбора гиперпараметров до сбора и проверки данных. Сейчас команда планирует новые релизы и приглашает специалистов для решения оставшихся вызовов на пути создания крупных моделей с открытым исходным кодом.

Источник: Habr

Елизавета Добровольская

Автор itzine.ru с 2021 года. Пишет о смартфонах, гаджетах, железе, искусственном интеллекте и космосе — в общем, обо всём, что есть в мире технологий. От новостей о складных флагманах и процессорах до репортажей о культуре и рынке электромобилей. Следит за индустрией внимательно, но без фанатизма.