Mistral представила Codestral Embed — модель кодовых эмбеддингов, которая опережает OpenAI и Cohere

Французская компания Mistral выпустила Codestral Embed — свою первую модель для создания кодовых эмбеддингов, которая, по данным компании, опережает конкурентов на популярных бенчмарках, включая SWE-Bench. Новинка предназначена для использования в задачах извлечения информации (retrieval), особенно в сценариях реального мира с кодом.
Codestral Embed предлагает более высокое качество и гибкие настройки
Codestral Embed входит в семейство моделей Codestral и предназначена для преобразования кода и данных в числовые векторы, которые используются в системах с дополнением извлечением знаний (RAG) и других сценариях обработки кода. Модель позволяет выбирать размерность и точность эмбеддингов, что помогает оптимизировать затраты на хранение без потери качества.
В блоге Mistral отмечается, что даже при настройках 256 измерений и int8 точности Codestral Embed превосходит конкурентов, включая Voyage Code 3, Cohere Embed v4.0 и OpenAI Text Embedding 3 Large. Разработчики могут использовать модель за $0,15 за миллион токенов.

Codestral Embed предназначена для RAG и анализа кода
Codestral Embed ориентирована на следующие задачи:
- RAG: создание эмбеддингов для ускоренного поиска информации в коде.
- Семантический поиск по коду: поиск фрагментов кода на естественном языке, что полезно для платформ разработчиков, документации и кодовых помощников.
- Поиск дубликатов кода: выявление повторяющихся или похожих фрагментов кода, что важно для соблюдения корпоративных политик по повторному использованию кода.
- Семантическое кластеризование кода: группировка фрагментов по функциональности и структуре для анализа репозиториев и архитектуры проектов.
По данным компании, модель протестирована на нескольких бенчмарках, включая SWE-Bench и GitHub Text2Code, где показала лучшие результаты по сравнению с конкурентами.


Рынок эмбеддингов становится всё более конкурентным
Выход Codestral Embed совпал с ростом интереса к задачам RAG и увеличением числа предложений в области эмбеддингов. Ранее Mistral представила Mistral Medium 3 — среднюю версию своей LLM-модели, а также API для создания многоагентных систем и выполнения реальных задач.
Хотя Codestral Embed показывает высокие результаты на бенчмарках, компании предстоит подтвердить эффективность модели в реальных задачах. Конкуренцию составляют как закрытые модели OpenAI и Cohere, так и открытые решения, например, Qodo-Embed-1-1.5B.