Новая Google Gemini 3 може одновременно обрабатывать текст, изображения и аудио

Модель создана как нативно мультимодальная система, позволяющая одновременно обрабатывать текст, изображения и аудио. В Google говорят, что это позволяет выполнять задачи типа преобразования фотографий с кулинарными записями в полноценные структурированные рецепты или формировать обучающие карточки из видеолекций.

Параллельно компания проверяет функцию генеративных интерфейсов в среде Gemini Labs. Она создает визуальные материалы в стиле журнальных макетов или предлагает динамические компоновки, подстраиваемые под конкретную задачу пользователя.

В обновленном поиске Gemini 3 Pro формирует ответы, дополненные изображениями, сетями, таблицами и симуляциями. Для этого применяется усовершенствованный метод обработки запросов, разбивающий их на несколько направлений и точнее определяющий намерение пользователя, увеличивая количество релевантного контента. В Google отмечают, что ответам модели теперь свойственна более сдержанная подача без чрезмерной лести, ранее часто критиковавшейся в конкурентных системах. Также заявлено об улучшении планирования и работы со сложными многоуровневыми инструкциями.

Вместе с Gemini 3 компания расширяет возможности экспериментального инструмента Gemini Agent. Он может выполнять действия от имени пользователя, в частности, упорядочивать электронные письма или организовывать путешествия. Доступ к агентным функциям получили подписчики Google AI Pro и Ultra в США.

Gemini 3 Pro уже развернута в приложении Gemini для всех пользователей, а расширенные возможности системы постепенно добавляются к поиску.