Google внедрила управление компьютером прямо в Gemini 3.5 Flash

Google внедрила управление компьютером прямо в Gemini 3.5 Flash

Корпорация Google анонсировала значительное обновление своей экосистемы искусственного интеллекта, добавив в модель Gemini 3.5 Flash продвинутый инструмент для управления компьютером. Это решение заменило экспериментальный фреймворк Gemini 2.5, предложив разработчикам более совершенный визуальный подход к выполнению сложных компьютерных задач.

Что представляет собой новая функция управления компьютером в Gemini 3.5 Flash?

Новый функционал позволяет AI-агентам выступать в роли «цифровых пользователей». Благодаря технологии компьютерного зрения, основанной на анализе скриншотов, нейросеть способна видеть активное окно приложения, понимать структуру элементов интерфейса и совершать манипуляции: кликать мышью, прокручивать страницы или вводить текст. Это полноценная автоматизация действий, которые ранее требовали ручного управления.

Основные возможности и применение AI-агентов

Инструмент предоставляет широкие перспективы для повышения эффективности в рабочих процессах. Среди ключевых сценариев использования:

  • Автоматическое заполнение сложных форм и перенос данных между системами.
  • Взаимодействие с десктопным и браузерным ПО для сбора информации.
  • Тестирование программного обеспечения через визуальное управление.
  • Массовая обработка данных в интерфейсах без API.

Безопасность и защита от промпт-инъекций

Передача контроля над клавиатурой и мышью алгоритму вызывает вопросы кибербезопасности. Чтобы избежать выполнения несанкционированных действий (например, перехода по опасным ссылкам или активации скрытых команд на вредоносных ресурсах), Google внедрила многоуровневую защиту:

  • Корпоративный контроль: любая значимая или невозвратная операция требует обязательного подтверждения человеком.
  • Мониторинг атак: система оснащена механизмами обнаружения промпт-инъекций, которые автоматически блокируют подозрительную активность при попытках взлома модели.

Доступность для разработчиков

На текущий момент возможности доступны через Gemini API. Для желающих протестировать новинку Google создала демо-площадку на базе Browserbase, где функционал Gemini Enterprise Agent можно опробовать в режиме реального времени. Это значительно упрощает порог входа для разработчиков, стремящихся внедрить возможности интеллектуальных агентов в свои продукты.


Не пропустите интересное!

Підписывайтесь на наши каналы и читайте анонсы хай-тек новостей, тестов и обзоров в удобном формате!

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *





Статьи & тестыArticles

Обзор смартфона Oppo A6 Pro: амбициозный Oppo A6 Pro (CPH2799)

Новый смартфон Oppo A6 Pro — телефон среднего уровня с функциональностью смартфонов премиум-класса. Производитель наделил его множеством характеристик, присущих более дорогим телефонам. Но не обошлось и без компромиссов. Как именно сбалансирован Oppo A6 Pro – расскажем в обзоре.


One UI 8.5: новая жизнь старых смартфонов Samsung — что даёт обновление?

One UI 8.5 приносит старым Samsung Galaxy функции, которые ещё недавно были эксклюзивом новых флагманов. Но действительно ли обновление способно сделать Galaxy S22, S23 и S24 ближе к уровню Galaxy S26? Разбираемся, что меняется после установки прошивки.


НовостиNews
| 16.02
Электрический пикап за $24500 от Slate Auto: предзаказ и старт поставок

Стартап Slate Auto представил свой бюджетный электрический пикап по цене 24 500 долларов. Узнайте все подробности о технических характеристиках, условиях предзаказа и датах начала поставок модели.

| 15.02
Google внедрила управление компьютером прямо в Gemini 3.5 Flash

Google совершила важный прорыв в сфере AI-агентов, интегрировав функции управления компьютером в модель Gemini 3.5 Flash. Новая технология позволяет нейросети самостоятельно взаимодействовать с интерфейсами программ для автоматизации рутинных задач.