Microsoft представила три новых мультимодальных AI‑модели для текста, голоса и изображений

Исследовательская лаборатория Microsoft AI объявила о выпуске трёх базовых AI‑моделей, способных генерировать текст, голос и изображения. Этот шаг подчёркивает стремление Microsoft развивать собственный стек мультимодальных моделей, несмотря на тесное сотрудничество с OpenAI.
Модели и их возможности:
- MAI‑Transcribe‑1 — транскрибирует речь на текст на 25 языках и работает в 2,5 раза быстрее, чем Azure Fast.
- MAI‑Voice‑1 — генератор аудио, создаёт 60 секунд звука за 1 секунду и позволяет формировать кастомные голоса.
- MAI‑Image‑2 — модель для генерации видео и изображений. Изначально она была выпущена 19 марта на платформе MAI Playground.
Все три модели теперь доступны на Microsoft Foundry, а модели транскрипции и голоса также в MAI Playground. Разработкой занималась команда MAI Superintelligence под руководством Мустафы Сулеймана, CEO Microsoft AI.
Microsoft подчёркивает, что новые модели ориентированы на практическое использование и удобство для человека. Также компания делает акцент на конкурентоспособной стоимости:
- MAI‑Transcribe‑1 — от $0,36 за час,
- MAI‑Voice‑1 — от $22 за 1 миллион символов,
- MAI‑Image‑2 — $5 за 1 миллион токенов для текстового ввода и $33 за 1 миллион токенов для генерации изображений.
Сулейман подтвердил, что Microsoft продолжает сотрудничество с OpenAI, однако новое соглашение позволяет компании активно развивать исследования в области суперинтеллекта. На сегодняшний день Microsoft инвестировала более $13 млрд в лабораторию AI и интегрирует модели в свои продукты.




