VK представил нейросеть RuModernBERT для обработки разговорного русского языка

Графический образ нейросети RuModernBERT от VK над ноутбуком и очками

Компания VK, ранее известная как Mail.ru Group, представила RuModernBERT, модель для анализа и обработки русскоязычного текста. По словам создателей, ключевой особенностью является способность понимать длинные текстовые блоки целиком, без необходимости разделения на части. Это, в сочетании с локальной работой без обращения к внешним API, значительно уменьшает нагрузку на IT-инфраструктуру.

В VK рассказали:

«Инженеры могут использовать ее для задач в области обработки текста, в том числе для извлечения информации, анализа тональности, поиска и ранжирования в приложениях и сервисах. Модель может понять сложный или длинный запрос пользователя, например, в поисковой строке и найдет наиболее релевантную информацию, видео, товары или документы».

Сетевые соединения нейросети RuModernBERT с голубыми светящимися узлами

RuModernBERT прошла обучение на массиве из 2 триллионов токенов, включающем русскоязычные, англоязычные тексты и программный код. Максимальная длина контекста при этом достигала 8 192 токенов. Для обеспечения универсальности, обучение проводилось на разнообразных источниках, таких как книги, научные статьи, публикации и комментарии в социальных сетях. Это позволяет модели эффективно обрабатывать современный язык и учитывать особенности разговорной речи.

RuModernBERT предлагается в нескольких вариантах, включая полноразмерную версию с 150 миллионами параметров и облегченную версию, содержащую 35 миллионов параметров. Кроме того, были обновлены версии USER и USER2, предназначенные для улучшения группировки и поиска релевантной информации. В версии USER2 реализована технология сжатия данных, минимизирующая потерю точности. Все версии доступны на платформе Hugging Face.

Юлия Рябова

Эксперт в области потребительского рынка, автомобильных технологий и электроники для жизни. Автор более 2400 публикаций, в которых рассматриваются как новинки компьютерного железа, так и изменения в ценовой политике автопроизводителей. Особое внимание уделяет сегменту ноутбуков, портативных накопителей и бытовых гаджетов, помогая читателям ориентироваться в актуальных предложениях ритейлеров.