Новый ИИ OpenAI GPT-5.2 превзошел людей-экспертов в 70% задач: конец человечества близок?

OpenAI объявила о запуске линейки GPT-5.2, отметив ее как наиболее заметное обновление в направлении универсального ИИ. Новое поколение моделей улучшило работу с кодом, расширило объем контекста и усилило агентные функции. Модели представлены в версиях Instant, Thinking и Pro, и уже начинают появляться у пользователей ChatGPT Plus, Enterprise, Business, а также в API.

Главным акцентом релиза стали результаты в GDPval — бенчмарке, который оценивает умение выполнять четко описанные рабочие задачи в нескольких десятках специальностей. По данным OpenAI, модель GPT-5.2 Thinking впервые продемонстрировала показатели, сопоставимые с уровнем экспертов: в слепых испытаниях она превзошла или повторила результаты профессионалов в более чем 70% заданий. Тестовые кейсы включали подготовку сложных таблиц, создание презентаций и работу с техдокументацией. При этом модель выполняла задачи существенно быстрее человека и с минимальными затратами.

Бенчмарки ИИ

Для разработчиков важным показателем стала оценка в SWE-Bench Pro, где GPT-5.2 Thinking достигла результата 55,6%, работая с реальными задачами программной инженерии и многоязычными кодовыми базами.

Модель также получила улучшенные визуальные возможности. В OpenAI отмечают, что количество ошибок при интерпретации графиков, схем и интерфейсных макетов сократилось почти вдвое. Заявлено и снижение числа галлюцинаций примерно на треть по сравнению с предыдущей версией. Внутренние тесты по MRCRv2 показали почти стопроцентную точность при анализе документов в объеме до 256 тысяч токенов, что ориентировано на отрасли, работающие с большими массивами информации.

Известно, что такие компании, как Notion, Zoom, Shopify и Databricks, уже внедрили новую модель и сообщают о значительном росте эффективности в агентных сценариях, где ИИ самостоятельно использует инструменты для выполнения сложных задач.

Несмотря на запуск обновления, OpenAI пока не отключает модели GPT-5.1 – они останутся доступными еще около трех месяцев.