OpenAI розробила ШІ-помічника для керування комп’ютером та автоматизації браузера
30.01.25
OpenAI представила нового ІІ-агента Operator, розробленого для автоматизації дій у браузері. Цей інструмент може взаємодіяти з елементами інтерфейсу, такими як кнопки, текстові поля та прокручування, імітуючи дії користувача.
Основою роботи Operator стала модель Computer-Using Agent (CUA), яка поєднує можливості GPT-4 для розпізнавання зображень із удосконаленим механізмом аналізу та прийняття рішень. Алгоритм працює поетапно: спочатку створюється скріншот екрану, потім система аналізує його, визначає необхідні дії та симулює їх за допомогою віртуальних мишей та клавіатури. Користувачі можуть спостерігати процес через невелике вікно в браузері.
На даний момент Operator показує найкращі результати у виконанні рутинних та повторюваних завдань, таких як складання списків покупок або плейлистів. Однак агент стикається з труднощами при роботі з незнайомими інтерфейсами, наприклад, таблицях, календарях або при редагуванні складних текстів.
Хоча технологія знаходиться на початковій стадії розвитку, вона обіцяє стати потужним інструментом для автоматизації рутинних процесів та роботи з браузером.
Не пропустіть цікаве!
Підписуйтесь на наші канали та читайте анонси хай-тек новин, тестів та оглядів у зручному форматі!

Ugreen Uno RG Gan – зарядка 100 Вт із посмішкою



Мені подобається, як воно заряджається, швидко, не сильно гріється, ще й усміхається. Ймовірно, така ситуація була у голові у співробітників компанії Ugreen, коли вони розробляли нову модель Ган-зарядки.

lifecell змінює логотип позбавляється натяків про Turkcell lifecell дизайн телеком
Оператор Lifecell представив оновлений логотип, прибравши з нього елемент, який багато років асоціювався з турецькою компанією Turkcell
Apple CarPlay отримав новий дизайн та розумні віджети Apple автомобіль
У числі нововведень Apple CarPlay – перероблений інтерфейс у стилі “Liquid Glass”, що характеризується прозорими та багатошаровими елементами