Microsoft научила машины понимать мир

Многоосевые роботы Microsoft в рабочей среде: манипуляторы с компонентами для сборки

Microsoft бросает вызов ограничениям традиционной робототехники, представив первую в своём роде модель Rho-alpha, способную наделить машины подобием здравого смысла для работы в хаотичной реальности. В отличие от классических промышленных роботов, запертых на строгих сборочных линиях, новая система использует комплексный подход «зрение-язык-действие» (VLA), позволяющий понимать команды на естественном языке, анализировать неструктурированное окружение и самостоятельно планировать физические действия. Ключевым применением станут задачи, требующие скоординированной работы двух манипуляторов — например, сборка сложных устройств или аккуратная упаковка хрупких предметов в непредсказуемых условиях.

Технологический прорыв стал возможен благодаря решению фундаментальной проблемы «голода данных»: обучать робота на реальных примерах всех возможных ситуаций дорого и медленно. Microsoft вместе с Nvidia создала гибридный метод обучения, где большая часть навыков отрабатывается в цифровом двойнике реальности — симуляторе Isaac Sim на платформе Azure. Там робот-агент методом проб и ошибок генерирует миллионы синтетических траекторий, учась манипулировать виртуальными объектами. Эти данные затем дополняются относительно небольшим набором реальных демонстраций, что резко ускоряет процесс и снижает затраты. «Для обучения базовых моделей, способных рассуждать и действовать, необходимо преодолеть дефицит разнообразных данных из реального мира», — пояснил Дипу Талла, вице-президент Nvidia по робототехнике.

Особенность Rho-alpha — акцент на мультимодальном восприятии. Помимо компьютерного зрения, система интегрирует тактильные сенсоры и датчики силы, что критически важно для деликатных операций вроде вставки детали в паз или обращения с хрупкими предметами. Это сокращает разрыв между цифровым интеллектом и физическим взаимодействием. Однако компания не стремится к полной автономии. В процесс развёртывания заложен принцип «человек в контуре»: операторы могут вмешиваться с помощью дистанционного управления, корректируя действия робота. Эти корректировки становятся новыми учебными данными, создавая петлю непрерывного обучения прямо на рабочем месте.

Эксперты отмечают, что такой подход знаменует переход к новой парадигме — «физическому ИИ», где универсальные программные модели смогут адаптироваться к широкому спектру аппаратных платформ. «Хотя создание данных путём дистанционного управления стало стандартом, часто это нецелесообразно. Мы обогащаем реальные данные синтетическими демонстрациями через симуляцию», — отметил профессор Абхишек Гупта из Вашингтонского университета, сотрудничающий с Microsoft. Если разработка окажется успешной, она может радикально удешевить и ускорить внедрение роботов в средний и малый бизнес, где требуется гибкость, а не жёсткая автоматизация.