Подкаст-платформа Podcastle запускает модель преобразования текста в речь с более чем 450 ИИ голосами

Платформа для записи и редактирования подкастов Podcastle вступает в гонку по преобразованию текста в речь с запуском своей новой модели ИИ под названием Asyncflow v1.0. В дополнение к этому разработчики получают доступ к API, что позволяет им интегрировать соответствующий запрос для преобразования текста в речь непосредственно в своих приложениях.

С помощью новой модели Podcastle предлагает более 450 голосов ИИ, способных озвучивать текст. Стартап утверждает, что разработал свой проект так, чтобы снизить затраты на обучение и вывод, что дает ему конкурентное преимущество.

Таким образом, Podcastle объединен с рядом стартапов, таких как ElevenLabs, Speechify и WellSaid, которые также разработали ИИ-технологии для преобразования текста в голосовые клипы. Эта технология находит применение в маркетинге, рекламе, создании контента, образовании и корпоративном обучении.

Основатель подкасла Арто Ерицян в интервью TechCrunch отметил, что компания всегда стремилась создать модель преобразования текста в речь, но требовала больших затрат на обучение и требований к данным по основным вопросам.

«Мы с самого начала хотели создать надежную модель преобразования текста в речь. Однако стоимость разработки оказалась слишком высокой. Благодаря недавним достижениям в крупных языковых моделях мы смогли добиться прорыва и создать высококачественную голосовую модель без необходимости использования больших объемов данных», — рассказал Ерицян.

Компания также получила поддержку в виде 13,5 миллионов долларов в рамках раунда финансирования серии А, что способствовало ее развитию.

Ерицян добавил, что Podcastle предлагает преобразование текста в речь за 40 долларов за 500 минут, в то время как ElevenLabs взимает 99 долларов за аналогичный объем.

Функция клонирования голосов Podcastle также была обновлена, что затрудняет процесс обучения. Ранее для создания клона голоса потребовалось прочитать около 70 различных предложений, теперь же достаточно всего нескольких секунд записи. Новый процесс использует технологию Magic Dust AI, выпущенную компанией в прошлом году, для улучшения качества аудиозаписи.

В ходе тестирования голос, созданный с помощью нового процесса, звучал немного роботизированно, хотя и имитировал наш тон. Мы гарантируем улучшение этой функции со временем, а также предоставляем возможность обучения различным проявлениям своего голоса для получения надежных результатов.

Podcastle уверена, что наличие инструментов для работы с аудио, видео, подкастами и озвучиванием на одном переработанном сайте даст ей конкурентное преимущество. Ерицян отметил, что, хотя большинство пользователей используют Podcastle для работы с аудиоконтентом, интерес к видео также растет.