Яндекс разработал голосовую ИИ-модель на 200 КБ для часов

Беспроводные наушники, технология Яндекс голосовая ИИ модель

Источник изображения Пресс-служба «Яндекса»

Яндекс разработал компактную нейросетевую модель для голосового управления размером около 200 КБ. Компания рассчитывает использовать её в носимой электронике, где важны локальная обработка речи, низкая задержка и экономия заряда. О разработке рассказал руководитель направления голосовой активации Дмитрий Солодуха.

Речь идёт о модели для наушников, умных часов и других устройств, которые должны постоянно слушать окружающий звук, не перегружая процессор. По словам Солодухи, объём модели меньше размера одной фотографии на смартфоне. Это позволяет держать голосовую активацию на устройстве, а не отправлять аудиопоток в облако при каждом срабатывании.

Яндекс использует двухэтапную схему. Сначала лёгкая модель проверяет, есть ли в аудиопотоке речь, и только затем запускает основную нейросеть для распознавания команды. Компания утверждает, что такая архитектура снижает энергопотребление и уменьшает задержку ответа. Число параметров модели инженеры сократили примерно в 10 раз по сравнению с прежним подходом.

Следующий шаг связан с железом. Для подобных сценариев Яндекс рассчитывает на чипы с NPU, то есть встроенными нейропроцессорами для ИИ-вычислений. Такой подход уже стал стандартом в смартфонах, а теперь смещается в более компактные устройства. Google, Apple и Qualcomm в последние годы продвигают on-device-обработку речи именно по этой причине: меньше задержка, ниже расход батареи и меньше зависимость от сети.

Разработка, вероятно, станет частью собственной линейки носимых устройств Яндекса. В качестве одного из первых кандидатов на запуск называют наушники «Яндекс Дропс» с «Алисой AI» и функцией «Моя память». Если компания доведёт модель до серийного применения, она выйдет в сегмент, где локальный голосовой интерфейс уже стал обязательной функцией, а конкуренция идёт не за сам факт распознавания речи, а за время работы без подзарядки и скорость отклика.

Максим Третьяков

Технический обозреватель, пишет в основном про рынок мобильных телефонов и автомобильные технологии. Максим подготовил 740 материалов, в которых анализирует запуск флагманских линеек смартфонов (включая бренды Xiaomi и Apple), развитие нейросетевых функций в потребительских гаджетах и актуальное состояние отечественного автопрома. Его экспертиза охватывает как аппаратные новинки — от концептов видеокарт до умных колец, — так и правовые аспекты технологического рынка.