Mistral представила Codestral Embed — модель кодовых эмбеддингов, которая опережает OpenAI и Cohere

a large robot named mistral standing next to the e 9pgocdtwtk29vn1iwdu pq nplbr7ejsbsovtbx5n7now.jpeg

Французская компания Mistral выпустила Codestral Embed — свою первую модель для создания кодовых эмбеддингов, которая, по данным компании, опережает конкурентов на популярных бенчмарках, включая SWE-Bench. Новинка предназначена для использования в задачах извлечения информации (retrieval), особенно в сценариях реального мира с кодом.

Содержание

1. Codestral Embed предлагает более высокое качество и гибкие настройки

2. Codestral Embed предназначена для RAG и анализа кода

3. Рынок эмбеддингов становится всё более конкурентным

Codestral Embed предлагает более высокое качество и гибкие настройки

Codestral Embed входит в семейство моделей Codestral и предназначена для преобразования кода и данных в числовые векторы, которые используются в системах с дополнением извлечением знаний (RAG) и других сценариях обработки кода. Модель позволяет выбирать размерность и точность эмбеддингов, что помогает оптимизировать затраты на хранение без потери качества.

В блоге Mistral отмечается, что даже при настройках 256 измерений и int8 точности Codestral Embed превосходит конкурентов, включая Voyage Code 3, Cohere Embed v4.0 и OpenAI Text Embedding 3 Large. Разработчики могут использовать модель за $0,15 за миллион токенов.

Codestral Embed предназначена для RAG и анализа кода

Codestral Embed ориентирована на следующие задачи:

RAG: создание эмбеддингов для ускоренного поиска информации в коде.
Семантический поиск по коду: поиск фрагментов кода на естественном языке, что полезно для платформ разработчиков, документации и кодовых помощников.
Поиск дубликатов кода: выявление повторяющихся или похожих фрагментов кода, что важно для соблюдения корпоративных политик по повторному использованию кода.
Семантическое кластеризование кода: группировка фрагментов по функциональности и структуре для анализа репозиториев и архитектуры проектов.

По данным компании, модель протестирована на нескольких бенчмарках, включая SWE-Bench и GitHub Text2Code, где показала лучшие результаты по сравнению с конкурентами.

Рынок эмбеддингов становится всё более конкурентным

Выход Codestral Embed совпал с ростом интереса к задачам RAG и увеличением числа предложений в области эмбеддингов. Ранее Mistral представила Mistral Medium 3 — среднюю версию своей LLM-модели, а также API для создания многоагентных систем и выполнения реальных задач.

Хотя Codestral Embed показывает высокие результаты на бенчмарках, компании предстоит подтвердить эффективность модели в реальных задачах. Конкуренцию составляют как закрытые модели OpenAI и Cohere, так и открытые решения, например, Qodo-Embed-1-1.5B.