Google представил Gemini 2.5 Computer Use — агент для автоматизации действий в браузере

Команда Google DeepMind официально анонсировала специализированную версию своей языковой модели — Gemini 2.5 Computer Use. Эта система способна выполнять реальные действия в веб-браузере: кликать по элементам интерфейса, вводить текст, прокручивать страницы и даже работать с защищёнными сессиями, требующими авторизации. Модель уже доступна в публичной предварительной версии через Gemini API в Google AI Studio и Vertex AI.

Основное назначение новинки — позволить разработчикам создавать агентов, которые могут взаимодействовать с веб-интерфейсами в тех случаях, когда отсутствует или недоступен программный API. Это особенно актуально для корпоративных и бизнес-процессов, где значительная часть операций всё ещё выполняется вручную через веб-формы и дашборды.

Google представил Gemini 2.5 Computer Use — агент для автоматизации действий в браузере

Как работает Computer Use?

Gemini 2.5 Computer Use функционирует в режиме тесного цикла «восприятие–действие». На каждом шаге модель получает скриншот текущего состояния браузера, историю предыдущих действий и описание задачи от пользователя. На основе этих данных она генерирует конкретную команду — например, «нажать на кнопку», «ввести email» или «выбрать значение из выпадающего списка».

Перед выполнением потенциально рискованных операций (например, подтверждение покупки или изменение настроек аккаунта) система запрашивает явное подтверждение от пользователя. После каждого действия обновляется скриншот и URL-адрес, что позволяет модели последовательно продвигаться к завершению задачи. Такой подход обеспечивает как точность, так и контроль со стороны человека.

Производительность и сравнение с конкурентами

Согласно данным Google, Gemini 2.5 Computer Use демонстрирует лучшие результаты на трёх ключевых бенчмарках: Online-Mind2Web, WebVoyager и AndroidWorld. Эти тесты оценивают способность модели выполнять сложные многошаговые задачи в реальных веб-средах и мобильных интерфейсах. Кроме того, модель показывает сниженную задержку при выполнении задач по сравнению с аналогами, особенно в рамках оценочной платформы Browserbase.

В официальных материалах также приводятся графики, демонстрирующие баланс между скоростью и точностью: Gemini 2.5 Computer Use достигает более высокой точности при меньшем времени выполнения, что делает её привлекательной для промышленного внедрения.

Безопасность и защитные механизмы

Google уделяет особое внимание безопасности при работе с интерфейсами от имени пользователя. Для этого внедрена система многоуровневых «ограничителей»: каждый предлагаемый шаг проходит проверку через специальный сервис безопасности, который оценивает потенциальные риски. Разработчики могут настраивать поведение агента через системные инструкции — например, запрещать определённые действия или требовать подтверждения перед выполнением чувствительных операций.

Кроме того, в документации к модели опубликована специальная System Card, в которой подробно описаны возможные угрозы: от несанкционированного использования до уязвимостей типа prompt injection в веб-контексте. Все эти меры направлены на то, чтобы агенты на базе Gemini 2.5 Computer Use оставались предсказуемыми и управляемыми даже в сложных сценариях.

Практическое применение и интеграции

Некоторые компоненты этой технологии уже используются внутри Google. Например, они лежат в основе Project Mariner, Firebase Testing Agent, а также отдельных агентских функций в AI Mode в Поиске Google. Внутренние команды применяют модель для автоматизированного тестирования пользовательских интерфейсов, что значительно ускоряет циклы разработки и снижает количество ручных ошибок.

Для внешних разработчиков Google предоставляет готовые примеры кода для запуска модели как локально (с использованием Playwright), так и в облачной среде. Также доступна интерактивная демонстрация на платформе Browserbase, где можно в реальном времени наблюдать за работой агента.

Почему это важный шаг для индустрии ИИ

Большинство бизнес-процессов по-прежнему зависят от веб-интерфейсов, для которых нет чётко определённых API. Gemini 2.5 Computer Use предлагает стандартизированный и безопасный способ автоматизировать такие задачи, превращая скриншоты и действия пользователя в управляемый, повторяемый рабочий процесс. Это открывает путь к созданию надёжных, производственных агентов, способных выполнять реальную работу без постоянного вмешательства человека.

Будущее за интерфейсными агентами

С выпуском Gemini 2.5 Computer Use Google делает решительный шаг от пассивных языковых моделей к активным цифровым ассистентам, способным не просто отвечать на вопросы, но и физически взаимодействовать с цифровой средой. При этом акцент на безопасности, прозрачности и контроле со стороны пользователя делает эту технологию не просто мощной, но и ответственной. В ближайшие месяцы можно ожидать появления множества новых инструментов и сервисов, построенных на этой основе — от автоматизации рутинных задач до сложных сценариев цифровой трансформации.