
Thinking Machines Lab, стартап Миры Мурати, представил новый класс голосовых моделей под названием interaction models. Смысл простой и амбициозный: ИИ должен не ждать конца вашей реплики, а слушать и формировать ответ одновременно. Первая версия, TML-Interaction-Small, по словам компании, укладывается в 0,40 секунды отклика.
Для голосового ИИ это самая больная точка. OpenAI с Advanced Voice и Google с Gemini Live давно продают идею «живого разговора», но у большинства систем под капотом по-прежнему конвейер из распознавания речи, текстовой модели и синтеза голоса. Из-за этого ассистенты либо тормозят, либо перебивают не к месту. Thinking Machines пытается вшить интерактивность в саму модель, а не прикручивать ее поверх.
На бумаге цифра хорошая, но без мистики. В исследованиях по разговорной речи средний зазор между репликами людей часто ближе к 200 миллисекундам, так что 0,40 секунды — это скорее «почти естественно», чем «как человек». Зато даже такой выигрыш заметен в колл-центрах, у голосовых помощников и в обучающих ботах, где каждая неловкая пауза быстро превращает диалог в допрос.
Есть и старая проблема всей категории: быстрый голосовой ИИ легко становится раздражающим. OpenAI уже проходила через это, когда обещания живой беседы упирались в безопасность, ложные срабатывания и привычку модели лезть в разговор раньше времени. Thinking Machines выходит на ту же минную полосу, просто с более чистой архитектурной идеей и с удобным маркетинговым тезисом.
Ограниченный research preview компания обещает в ближайшие месяцы, широкий релиз запланирован до конца 2026 года.