Новый ИИ OpenAI GPT-5.2 превзошел людей-экспертов в 70% задач: конец человечества близок?

ChatGPT Plus

 

OpenAI объявила о запуске линейки GPT-5.2, отметив ее как наиболее заметное обновление в направлении универсального ИИ. Новое поколение моделей улучшило работу с кодом, расширило объем контекста и усилило агентные функции. Модели представлены в версиях Instant, Thinking и Pro, и уже начинают появляться у пользователей ChatGPT Plus, Enterprise, Business, а также в API.

 

Главным акцентом релиза стали результаты в GDPval — бенчмарке, который оценивает умение выполнять четко описанные рабочие задачи в нескольких десятках специальностей. По данным OpenAI, модель GPT-5.2 Thinking впервые продемонстрировала показатели, сопоставимые с уровнем экспертов: в слепых испытаниях она превзошла или повторила результаты профессионалов в более чем 70% заданий. Тестовые кейсы включали подготовку сложных таблиц, создание презентаций и работу с техдокументацией. При этом модель выполняла задачи существенно быстрее человека и с минимальными затратами.

 

Бенчмарки ИИ

 

Для разработчиков важным показателем стала оценка в SWE-Bench Pro, где GPT-5.2 Thinking достигла результата 55,6%, работая с реальными задачами программной инженерии и многоязычными кодовыми базами.

 

Модель также получила улучшенные визуальные возможности. В OpenAI отмечают, что количество ошибок при интерпретации графиков, схем и интерфейсных макетов сократилось почти вдвое. Заявлено и снижение числа галлюцинаций примерно на треть по сравнению с предыдущей версией. Внутренние тесты по MRCRv2 показали почти стопроцентную точность при анализе документов в объеме до 256 тысяч токенов, что ориентировано на отрасли, работающие с большими массивами информации.

 

Известно, что такие компании, как Notion, Zoom, Shopify и Databricks, уже внедрили новую модель и сообщают о значительном росте эффективности в агентных сценариях, где ИИ самостоятельно использует инструменты для выполнения сложных задач.

 

Несмотря на запуск обновления, OpenAI пока не отключает модели GPT-5.1 – они останутся доступными еще около трех месяцев.


Не пропустите интересное!

Підписывайтесь на наши каналы и читайте анонсы хай-тек новостей, тестов и обзоров в удобном формате!

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *





Статьи & тестыArticles

Обзор смартфона Oppo A6 Pro: амбициозный Oppo A6 Pro (CPH2799)

Новый смартфон Oppo A6 Pro — телефон среднего уровня с функциональностью смартфонов премиум-класса. Производитель наделил его множеством характеристик, присущих более дорогим телефонам. Но не обошлось и без компромиссов. Как именно сбалансирован Oppo A6 Pro – расскажем в обзоре.


Источники автономного питания для дома: инверторы, аккумуляторы, солнечные панели Invertor

Попробуем разобраться, как правильно выбрать инвертор в зависимости от мощности нагрузки, типа синусоиды и конфигурации аккумуляторной системы.


НовостиNews
| 18.16
Anker Nano Charger 45 W — компактный GaN‑адаптер с дисплеем
Anker Nano Charger 45 W

Anker Nano Charger 45 W – новое поколение компактных GaN-зарядных адаптеров, ориентированных на пользователей iPhone, Android-смартфонов, планшетов и легких ноутбуков

| 15.09
В открытом доступе обнаружены 48 млн логинов и паролей от Gmail  
Gmail dark mode

Известный специалист в сфере информационной безопасности подтвердил, что в сеть попала база данных, содержащая 149 млн скомпрометированных учётных данных, включая информацию примерно о 48 млн аккаунтов Gmail.