POSTECH научила ИИ понимать беззвучную речь

Человек с виртуальной головой и надписью AI для POSTECH

Artificial Intelligence Unsplash

Южнокорейские исследователи сделали штуку, которая звучит как чит-код для тишины: носимый сенсор превращает едва заметные движения мышц шеи в речь, а ИИ достраивает слова и фразы даже тогда, когда человек не произнёс ни звука. Разработка команды POSTECH пригодится не только в медицине, но и там, где говорить вслух просто неудобно или нельзя.

Это не очередной «умный» браслет из пресс-релиза. Здесь ставка на старую проблему носимой электроники: микрофоны беспомощны в шуме, а EMG- и EEG-системы слишком громоздкие и капризные для ежедневного использования. Поэтому исследователи давно смотрят в сторону более незаметных интерфейсов, где устройство считывает намерение, а не звук.

Как работает беззвучная речь с сенсором POSTECH

Устройство называется multiaxial strain mapping sensor. Внутри у него миниатюрная камера и гибкий силикон с опорными метками, которые фиксируют малейшие деформации кожи и тканей на шее. Система автоматически подстраивается после перестановки, так что носить её можно не только в лаборатории, где все умные, но и в обычной жизни, где всё мешает.

Дальше начинается работа ИИ: он сопоставляет рисунок напряжений с ожидаемыми словами и затем синтезирует голос по профилю самого пользователя. Иными словами, технология не просто «угадывает», что вы хотели сказать, а пытается вернуть это в узнаваемом тембре, что для голосовой реабилитации куда полезнее, чем безличный роботизированный звук.

POSTECH научила ИИ понимать беззвучную речь

Зачем это нужно кроме медицины

Главная аудитория здесь, конечно, пациенты после повреждения голосовых связок или операций на гортани. Но у таких технологий обычно быстро появляется вторая жизнь, потому что офисы, библиотеки и шумные производства тоже не любят громкую речь. Если POSTECH действительно дожмёт точность и удобство, это будет не игрушка для демонстраций, а нормальный слой интерфейса между человеком и устройством.

Пока исследователи говорят о доработке под массовое применение и расширении языковых возможностей. И вот тут начинается скучная, но решающая часть истории: большинство «умных» носимых прототипов умирают не в статье, а на запястье или шее пользователя, когда выясняется, что удобство хуже презентации. Но если эта штука выдержит реальный ритм, у голосовых помощников появится неприятный сосед, который слушает не уши, а мышцы.

Артур Берг

Старший новостной редактор, специализирующийся на оперативной аналитике рынка электроники и игровых систем. За время работы опубликовал более 2800 статей, посвященных новинкам мобильной индустрии, носимым устройствам и развитию облачных технологий. Подробно освещает события крупнейших международных выставок, таких как IFA, и анализирует стратегии ведущих технологических брендов на российском и мировом рынках.