Google впровадила керування комп’ютером прямо в Gemini 3.5 Flash

Google впровадила управління комп'ютером прямо в Gemini 3.5 Flash

Google анонсувала значне оновлення своєї екосистеми штучного інтелекту, додавши в модель Gemini 3.5 Flash просунутий інструмент для керування комп’ютером. Це рішення замінило експериментальний фреймворк Gemini 2.5, запропонувавши розробникам досконаліший візуальний підхід до виконання складних комп’ютерних завдань.

Що являє собою нову функцію управління комп’ютером у Gemini 3.5 Flash?

Новий функціонал дозволяє AI-агентам виступати у ролі «цифрових користувачів». Завдяки технології комп’ютерного зору, що базується на аналізі скріншотів, нейромережа здатна бачити активне вікно програми, розуміти структуру елементів інтерфейсу та здійснювати маніпуляції: кликати мишею, прокручувати сторінки або вводити текст. Це повноцінна автоматизація процесів, які раніше вимагали ручного управління.

Основні можливості та застосування AI-агентів

Інструмент надає широкі перспективи підвищення ефективності в робочих процесах. Серед ключових сценаріїв використання:

  • Автоматичне заповнення складних форм та перенесення даних між системами.
  • Взаємодія з десктопним та браузерним програмним забезпеченням для збору інформації.
  • Тестування програмного забезпечення через візуальне керування.
  • Масова обробка даних в інтерфейсах без API.

Безпека та захист від промпт-ін’єкцій

Передача контролю над клавіатурою та мишею алгоритму викликає питання кібербезпеки. Щоб уникнути несанкціонованих дій (наприклад, переходу по небезпечним посиланням або активації прихованих команд на шкідливих ресурсах), Google запровадила багаторівневий захист:

  • Корпоративний контроль: будь-яка значуща чи безповоротна операція вимагає обов’язкового підтвердження людиною.
  • Моніторинг атак: система оснащена механізмами виявлення промпт-ін’єкцій, які автоматично блокують підозрілу активність при спробах злому моделі.

Доступність для розробників

На даний момент можливості доступні через Gemini API. Для тих, хто бажає протестувати новинку, Google створила демо-майданчик на базі Browserbase, де функціонал Gemini Enterprise Agent можна випробувати в режимі реального часу. Це значно полегшує поріг входу для розробників, які прагнуть впровадити можливості інтелектуальних агентів у свої продукти.


Не пропустіть цікаве!

Підписуйтесь на наші канали та читайте анонси хай-тек новин, тестів та оглядів у зручному форматі!

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *





Статті & тестиArticles

Огляд смартфона Oppo A6 Pro: амбітний Oppo A6 Pro (CPH2799)

Новий смартфон Oppo A6 Pro – середнячок з функціональністю смартфонів преміум-класу. Виробник наділив його кількома характеристиками, властивими більш дорожчим телефонам. Але не обійшлось і без компромісів. Як саме збалансований Oppo A6 Pro – розповімо в огляді.


One UI 8.5: нове життя старих смартфонів Samsung — що дає оновлення?

One UI 8.5 дає старим смартфонам Samsung Galaxy функції, які ще зовсім недавно були ексклюзивом тільки для нових флагманів. Але чи справді це оновлення здатне зробити Galaxy S22, S23 і S24 ближчими до рівня Galaxy S26? Розбираємося, що саме змінюється після встановлення нової прошивки.


НовиниNews
| 16.02
Електричний пікап за $24500 від Slate Auto: попередні замовлення та старт поставок

Стартап Slate Auto представив свій бюджетний електричний пікап за ціною 24500 доларів. Дізнайтеся всі подробиці про технічні характеристики, умови попереднього замовлення та дати початку поставок моделі.

| 15.02
Google впровадила керування комп’ютером прямо в Gemini 3.5 Flash

Google зробила важливий прорив у сфері AI-агентів, інтегрувавши функції керування комп’ютером у модель Gemini 3.5 Flash. Нова технологія дозволяє нейромережі самостійно взаємодіяти з інтерфейсами програм автоматизації рутинних завдань.