Microsoft представила три новых мультимодальных AI‑модели для текста, голоса и изображений

Image Credits: David Ryder/Bloomberg / Getty Images

Исследовательская лаборатория Microsoft AI объявила о выпуске трёх базовых AI‑моделей, способных генерировать текст, голос и изображения. Этот шаг подчёркивает стремление Microsoft развивать собственный стек мультимодальных моделей, несмотря на тесное сотрудничество с OpenAI.

Модели и их возможности:

MAI‑Transcribe‑1 — транскрибирует речь на текст на 25 языках и работает в 2,5 раза быстрее, чем Azure Fast.
MAI‑Voice‑1 — генератор аудио, создаёт 60 секунд звука за 1 секунду и позволяет формировать кастомные голоса.
MAI‑Image‑2 — модель для генерации видео и изображений. Изначально она была выпущена 19 марта на платформе MAI Playground.

Все три модели теперь доступны на Microsoft Foundry, а модели транскрипции и голоса также в MAI Playground. Разработкой занималась команда MAI Superintelligence под руководством Мустафы Сулеймана, CEO Microsoft AI.

Microsoft подчёркивает, что новые модели ориентированы на практическое использование и удобство для человека. Также компания делает акцент на конкурентоспособной стоимости:

MAI‑Transcribe‑1 — от $0,36 за час,
MAI‑Voice‑1 — от $22 за 1 миллион символов,
MAI‑Image‑2 — $5 за 1 миллион токенов для текстового ввода и $33 за 1 миллион токенов для генерации изображений.

Сулейман подтвердил, что Microsoft продолжает сотрудничество с OpenAI, однако новое соглашение позволяет компании активно развивать исследования в области суперинтеллекта. На сегодняшний день Microsoft инвестировала более $13 млрд в лабораторию AI и интегрирует модели в свои продукты.

Никита Брытков

Ведущий аналитик новостного отдела itzine.ru, подготовивший свыше 8000 публикаций по актуальным вопросам цифровой индустрии. Фокусируется на информационной безопасности, изменениях в работе глобальных IT-сервисов и вопросах конфиденциальности личных данных. Экспертиза включает мониторинг обновлений операционных систем, развитие технологий искусственного интеллекта и анализ взаимодействия крупнейших технологических корпораций.