Google внедрила управление компьютером прямо в Gemini 3.5 Flash
25.06.26
Корпорация Google анонсировала значительное обновление своей экосистемы искусственного интеллекта, добавив в модель Gemini 3.5 Flash продвинутый инструмент для управления компьютером. Это решение заменило экспериментальный фреймворк Gemini 2.5, предложив разработчикам более совершенный визуальный подход к выполнению сложных компьютерных задач.
Что представляет собой новая функция управления компьютером в Gemini 3.5 Flash?
Новый функционал позволяет AI-агентам выступать в роли «цифровых пользователей». Благодаря технологии компьютерного зрения, основанной на анализе скриншотов, нейросеть способна видеть активное окно приложения, понимать структуру элементов интерфейса и совершать манипуляции: кликать мышью, прокручивать страницы или вводить текст. Это полноценная автоматизация действий, которые ранее требовали ручного управления.
Основные возможности и применение AI-агентов
Инструмент предоставляет широкие перспективы для повышения эффективности в рабочих процессах. Среди ключевых сценариев использования:
- Автоматическое заполнение сложных форм и перенос данных между системами.
- Взаимодействие с десктопным и браузерным ПО для сбора информации.
- Тестирование программного обеспечения через визуальное управление.
- Массовая обработка данных в интерфейсах без API.
Безопасность и защита от промпт-инъекций
Передача контроля над клавиатурой и мышью алгоритму вызывает вопросы кибербезопасности. Чтобы избежать выполнения несанкционированных действий (например, перехода по опасным ссылкам или активации скрытых команд на вредоносных ресурсах), Google внедрила многоуровневую защиту:
- Корпоративный контроль: любая значимая или невозвратная операция требует обязательного подтверждения человеком.
- Мониторинг атак: система оснащена механизмами обнаружения промпт-инъекций, которые автоматически блокируют подозрительную активность при попытках взлома модели.
Доступность для разработчиков
На текущий момент возможности доступны через Gemini API. Для желающих протестировать новинку Google создала демо-площадку на базе Browserbase, где функционал Gemini Enterprise Agent можно опробовать в режиме реального времени. Это значительно упрощает порог входа для разработчиков, стремящихся внедрить возможности интеллектуальных агентов в свои продукты.
Не пропустите интересное!
Підписывайтесь на наши каналы и читайте анонсы хай-тек новостей, тестов и обзоров в удобном формате!
Обзор смартфона Oppo A6 Pro: амбициозный
Новый смартфон Oppo A6 Pro — телефон среднего уровня с функциональностью смартфонов премиум-класса. Производитель наделил его множеством характеристик, присущих более дорогим телефонам. Но не обошлось и без компромиссов. Как именно сбалансирован Oppo A6 Pro – расскажем в обзоре.
One UI 8.5: новая жизнь старых смартфонов Samsung — что даёт обновление?
One UI 8.5 приносит старым Samsung Galaxy функции, которые ещё недавно были эксклюзивом новых флагманов. Но действительно ли обновление способно сделать Galaxy S22, S23 и S24 ближе к уровню Galaxy S26? Разбираемся, что меняется после установки прошивки.
Электрический пикап за $24500 от Slate Auto: предзаказ и старт поставок
Стартап Slate Auto представил свой бюджетный электрический пикап по цене 24 500 долларов. Узнайте все подробности о технических характеристиках, условиях предзаказа и датах начала поставок модели.
Google внедрила управление компьютером прямо в Gemini 3.5 Flash
Google совершила важный прорыв в сфере AI-агентов, интегрировав функции управления компьютером в модель Gemini 3.5 Flash. Новая технология позволяет нейросети самостоятельно взаимодействовать с интерфейсами программ для автоматизации рутинных задач.


