Image Credits: David Ryder/Bloomberg / Getty Images
Image Credits: David Ryder/Bloomberg / Getty Images

Исследовательская лаборатория Microsoft AI объявила о выпуске трёх базовых AI‑моделей, способных генерировать текст, голос и изображения. Этот шаг подчёркивает стремление Microsoft развивать собственный стек мультимодальных моделей, несмотря на тесное сотрудничество с OpenAI.

Модели и их возможности:

  • MAI‑Transcribe‑1 — транскрибирует речь на текст на 25 языках и работает в 2,5 раза быстрее, чем Azure Fast.
  • MAI‑Voice‑1 — генератор аудио, создаёт 60 секунд звука за 1 секунду и позволяет формировать кастомные голоса.
  • MAI‑Image‑2 — модель для генерации видео и изображений. Изначально она была выпущена 19 марта на платформе MAI Playground.

Все три модели теперь доступны на Microsoft Foundry, а модели транскрипции и голоса также в MAI Playground. Разработкой занималась команда MAI Superintelligence под руководством Мустафы Сулеймана, CEO Microsoft AI.

Microsoft подчёркивает, что новые модели ориентированы на практическое использование и удобство для человека. Также компания делает акцент на конкурентоспособной стоимости:

  • MAI‑Transcribe‑1 — от $0,36 за час,
  • MAI‑Voice‑1 — от $22 за 1 миллион символов,
  • MAI‑Image‑2 — $5 за 1 миллион токенов для текстового ввода и $33 за 1 миллион токенов для генерации изображений.

Сулейман подтвердил, что Microsoft продолжает сотрудничество с OpenAI, однако новое соглашение позволяет компании активно развивать исследования в области суперинтеллекта. На сегодняшний день Microsoft инвестировала более $13 млрд в лабораторию AI и интегрирует модели в свои продукты.

Leave a reply