VK представил нейросеть RuModernBERT для обработки разговорного русского языка

Компания VK, ранее известная как Mail.ru Group, представила RuModernBERT, модель для анализа и обработки русскоязычного текста. По словам создателей, ключевой особенностью является способность понимать длинные текстовые блоки целиком, без необходимости разделения на части. Это, в сочетании с локальной работой без обращения к внешним API, значительно уменьшает нагрузку на IT-инфраструктуру.
В VK рассказали:
«Инженеры могут использовать ее для задач в области обработки текста, в том числе для извлечения информации, анализа тональности, поиска и ранжирования в приложениях и сервисах. Модель может понять сложный или длинный запрос пользователя, например, в поисковой строке и найдет наиболее релевантную информацию, видео, товары или документы».
RuModernBERT прошла обучение на массиве из 2 триллионов токенов, включающем русскоязычные, англоязычные тексты и программный код. Максимальная длина контекста при этом достигала 8 192 токенов. Для обеспечения универсальности, обучение проводилось на разнообразных источниках, таких как книги, научные статьи, публикации и комментарии в социальных сетях. Это позволяет модели эффективно обрабатывать современный язык и учитывать особенности разговорной речи.
RuModernBERT предлагается в нескольких вариантах, включая полноразмерную версию с 150 миллионами параметров и облегченную версию, содержащую 35 миллионов параметров. Кроме того, были обновлены версии USER и USER2, предназначенные для улучшения группировки и поиска релевантной информации. В версии USER2 реализована технология сжатия данных, минимизирующая потерю точности. Все версии доступны на платформе Hugging Face.