Новая модель Gemini 2.5 от Google позволяет ИИ взаимодействовать с сайтами так же, как человек

Google выпустила новую модель искусственного интеллекта под названием Gemini 2.5 Computer Use. Эта модель позволяет агентам искусственного интеллекта взаимодействовать с веб-сайтами и пользовательскими интерфейсами так же, как это делает человек. В настоящее время она доступна в открытом ознакомительном режиме через API Gemini, который предоставляется в Google AI Studio и Vertex AI.

Модель Gemini 2.5 Computer Use основана на возможностях визуального восприятия и рассуждения, унаследованных от модели Gemini 2.5 Pro. Она способна выполнять широкий спектр действий при работе с браузером, таких как нажатие клавиш, ввод текста, прокрутка страниц, перемещение курсора, открытие раскрывающихся списков и навигация по интернет-адресам. Google заявляет, что эта модель показывает лучшие результаты в нескольких сравнительных тестах, таких как Online-Mind2Web, WebVoyager и AndroidWorld, при этом обеспечивая меньшую задержку при выполнении команд.

В отличие от традиционных моделей искусственного интеллекта, использующих интерфейс программирования приложений, Gemini 2.5 Computer Use работает путем обработки снимков экрана веб-интерфейсов и генерации конкретных действий пользователя для их выполнения. Процесс происходит следующим образом: агент получает запрос на выполнение задачи, текущий снимок экрана и историю выполненных ранее действий. Затем он анализирует интерфейс, выбирает подходящее действие, например, нажатие на кнопку или ввод текста, и выполняет его на стороне клиента. После этого отправляется новый снимок экрана, чтобы продолжить выполнение задачи в цикле.

Компьютерная модель Gemini 2.5 демонстрировала свою эффективность на различных примерах. Например, агент сортировал стикеры на виртуальной доске и переносил информацию о домашних животных с одного сайта в систему управления взаимоотношениями с клиентами. Эти демонстрации были ускорены и показывали работу системы в реальном времени.

На данный момент модель поддерживает выполнение тринадцати различных действий и лучше всего работает в веб-браузерах. Google отметила, что модель пока не полностью оптимизирована для выполнения задач на настольных операционных системах, хотя уже демонстрирует потенциал для использования на мобильных устройствах.

Компания также внедрила меры безопасности для предотвращения возможных злоупотреблений. Перед выполнением каждого действия оно проходит проверку службой безопасности. Разработчики могут ограничить выполнение определенных команд или потребовать явного подтверждения пользователя, особенно при выполнении высокорискованных операций, таких как проведение финансовых транзакций.

Некоторые внутренние команды компании Google уже используют эту модель для тестирования пользовательских интерфейсов и автоматизации рабочих процессов на таких платформах, как поисковая система и система разработки программного обеспечения Firebase. Внешние разработчики, участвующие в программе раннего доступа, используют ее для создания инструментов автоматизации и помощников для выполнения рабочих задач.

Чтобы начать использование модели, разработчики могут обратиться к Google AI Studio или Vertex AI. Также Google предоставляет демонстрационную среду через Browserbase для проведения тестов и экспериментов.