DeepMind презентовала Gemini Robotics: модель, созданную для реальных роботов с подвижными руками.

Робот DeepMind с механической рукой держит кубик Рубика в демонстрации Gemini Robotics

Компания представила две новые модели искусственного интеллекта, которые, по ее словам, «создают основу для нового поколения полезных роботов».
Gemini Robotics — это усовершенствованная модель «зрение-язык-действие» (VLA), основанная на системе Gemini 2.0. Эта версия включает добавление физических действий в качестве выходного ответа на запрос. Например, на телефоне Pixel «ответом» Gemini было бы выполнение действия или ответ на вопрос. Gemini в роботе вместо этого воспримет эту команду как нечто, на что он должен физически отреагировать.

Вторая модель — Gemini Robots-ER, представляющая собой «зрение-язык» (VLM) с «продвинутым пространственным пониманием». Эта версия Gemini обладает «воплощенным мышлением», что помогает ИИ эффективно ориентироваться в изменяющейся окружающей среде. В одном из видеопримеров, продемонстрированных Google для журналистов, робот может различать миски различной отделки и цвета на столе. Он также способен идентифицировать искусственные фрукты, например, виноград и бананы, и распределять их по соответствующим мискам. В другом примере робот понимает, как упаковать гранолу в ланч-бокс, что демонстрирует его способность обрабатывать детали.

Робот с двумя подвижными руками рядом с игрушками и аксессуарами

Основное внимание в этом анонсе уделяется похвале Google команде DeepMind за создание Gemini как «мозга» для робототехники. Это дополнительно подчеркивает интересный факт, что ИИ, который находится на вашем смартфоне, теперь может управлять гуманоидными роботами.

Google сотрудничает с компании, такими как Apptronik, для создания следующего поколения гуманоидных роботов. Модель Gemini Robots-ER также будет доступна для тестирования партнерам, включая Agile Robots, Boston Dynamics и Enchanted Tools. Хотя роботы скоро появятся, точные сроки их выхода пока неизвестны.

Кроме того, Google готовится к вопросам о мерах безопасности для Gemini. Google пояснила, что модели Gemini Robotics-ER способны оценивать безопасность выполнения действий в заданном контексте. Это основано на фреймворках, таких как набор данных ASIMOV, который помогает исследователям оценивать последствия безопасного поведения роботов. Google также работает с экспертами в области безопасности, чтобы гарантировать ответственное развитие ИИ.