Новий ШІ OpenAI GPT-5.2 перевершив людей-експертів у 70% завдань: кінець людства близько?

OpenAI оголосила про запуск лінійки GPT-5.2, відзначивши її як найбільш помітне оновлення у напрямку універсального ШІ. Нове покоління моделей покращило роботу з кодом, розширило обсяг контексту та посилило агентні функції. Моделі представлені у версіях Instant, Thinking та Pro, і вже починають з’являтися у користувачів ChatGPT Plus, Enterprise, Business, а також API.

Головним акцентом релізу стали результати у GDPval — бенчмарку, який оцінює вміння виконувати чітко описані робочі завдання у кількох десятках спеціальностей. За даними OpenAI, модель GPT-5.2 Thinking вперше продемонструвала показники, які можна порівняти з рівнем експертів: у сліпих випробуваннях вона перевершила або повторила результати професіоналів у більш ніж 70% завдань. Тестові кейси включали підготовку складних таблиць, створення презентацій та роботу з техдокументацією. При цьому модель виконувала завдання істотно швидше за людину і з мінімальними витратами.

Бенчмарки ШІ

Для розробників важливим показником стала оцінка у SWE-Bench Pro, де GPT-5.2 Thinking досягла результату 55,6%, працюючи з реальними завданнями програмної інженерії та багатомовними кодовими базами.

Модель також отримала покращені візуальні можливості. В OpenAI зазначають, що кількість помилок при інтерпретації графіків, схем та інтерфейсних макетів скоротилася майже вдвічі. Заявлено та зниження кількості галюцинацій приблизно на третину порівняно з попередньою версією. Внутрішні тести з MRCRv2 показали майже стовідсоткову точність при аналізі документів обсягом до 256 тисяч токенів, що орієнтовано галузі, що працюють із великими масивами інформації.

Відомо, що такі компанії, як Notion, Zoom, Shopify та Databricks, вже впровадили нову модель та повідомляють про значне зростання ефективності в агентних сценаріях, де ШІ самостійно використовує інструменти для виконання складних завдань.

Незважаючи на запуск оновлення, OpenAI поки що не відключає моделі GPT-5.1 – вони залишаться доступними ще близько трьох місяців.