Кожна десята відповідь — помилка: дослідження ставить під сумнів точність ШІ-відповідей Google

12.04.26

Функція автоматичних відповідей у пошуку Google, заснована на штучному інтелекті, демонструє високий рівень точності, однак зберігається помітна частка помилок. За результатами дослідження, близько 10% відповідей є недостовірними — що в масштабах пошукової системи означає величезний обсяг оманливої інформації.

Як працюють AI Overviews

AI Overviews — це функція Google, яка формує стислі відповіді на запити користувачів за допомогою моделей штучного інтелекту Gemini. Технологію вперше представили у 2024 році, а згодом вона отримала широке поширення в різних регіонах, зокрема й в Україні.

Система аналізує інформацію з різних джерел і формує коротке резюме, дозволяючи користувачам швидко отримувати відповіді без переходу за посиланнями.

Результати дослідження

Спільне дослідження The New York Times і стартапу Oumi показало, що приблизно 90% відповідей AI Overviews є коректними. Водночас близько однієї з десяти відповідей містить помилки або вводить в оману.

Перевірка проводилася за допомогою тесту SimpleQA — набору з 4 тисяч запитань, створеного OpenAI. Результати показали зростання точності після оновлення моделей: раніше вона становила близько 85%, а згодом перевищила 90%.

Втім навіть такий рівень точності викликає занепокоєння з огляду на масштаби використання Google. У перерахунку це можуть бути мільйони некоректних відповідей щогодини.

Приклади помилок

У звіті наведено конкретні приклади неточностей. Зокрема, на запит про дату, коли будинок Боба Марлі став музеєм, система посилалася на джерела без точних даних або з помилками.

В іншому випадку ШІ стверджував, що певної музичної установи не існує, хоча сам же посилався на її офіційний сайт. Такі суперечності свідчать про проблеми з надійністю відповідей.

Позиція Google

У Google розкритикували методологію дослідження, зазначивши, що використаний тест може містити неточності та не відображає реальні запити користувачів.

За словами компанії, для внутрішньої оцінки застосовується власний підхід із ретельно перевіреними даними, що дозволяє точніше оцінювати якість системи.

Чому оцінювати ШІ складно

Оцінювання генеративних моделей залишається складним завданням. Різні методики можуть давати різні результати, а самі моделі іноді генерують різні відповіді на однакові запитання.

Крім того, AI Overviews не базується на одній моделі — система обирає найбільш доречну для кожного запиту. Потужніші моделі є повільнішими та дорожчими, тому використовуються не завжди.

Головний ризик — довіра користувачів

Попри помітний прогрес, ключова проблема полягає у сприйнятті відповідей користувачами. Багато хто довіряє ШІ без додаткової перевірки, навіть якщо відповіді можуть бути неточними.

Використання інтернет-джерел підвищує точність, але водночас створює ризик поширення недостовірної інформації.

Хоча Google попереджає про можливі помилки у відповідях, на практиці далеко не всі користувачі перевіряють отриману інформацію.

Не пропустіть цікаве!

Підписуйтесь на наші канали та читайте анонси хай-тек новин, тестів та оглядів у зручному форматі!

Ми у Facebook Ми у Instagram Ми у Telegram

Залишити відповідь Скасувати коментар

Статті & тести

03.11.25
Огляд смартфона Oppo A6 Pro: амбітний

317

Новий смартфон Oppo A6 Pro – середнячок з функціональністю смартфонів преміум-класу. Виробник наділив його кількома характеристиками, властивими більш дорожчим телефонам. Але не обійшлось і без компромісів. Як саме збалансований Oppo A6 Pro – розповімо в огляді.

20.07.26
Logitech Signature Comfort Plus Combo MK880: пріоритет на комфорт

Logitech Signature Comfort Plus Combo MK880 – бездротовий набір з клавіатури та миші, в якому акцент зроблений на комфорті під час багатогодинної роботи, причому не лише за рахунок ергономіки корпусу, а й конструктивних доповнень

20.07.26 | 05.20
Logitech Signature Comfort Plus Combo MK880: пріоритет на комфорт

06.07.26 | 05.06
Огляд навушників Sony WF-1000XM6: на всю потужність

01.07.26 | 05.19
Огляд набору бездротових клавіатури та миші Logitech MX Keys S Combo

19.05.26 | 06.06
One UI 8.5: нове життя старих смартфонів Samsung — що дає оновлення?

11.05.26 | 05.00
Огляд клавіатури Logitech G512 X 75: максимізована витонченість

27.04.26 | 06.05
Infinix GT 50 Pro розпакування : ігровий монстр із рідинним охолодженням та тригерами

14.04.26 | 13.50
Samsung Galaxy A37 та A57— порівняння: за що переплачувати €100?

16.03.26 | 05.00
Тест ноутбука Acer Predator Helios 18 AI (PH18-73): рівень – бог

12.03.26 | 05.05
Огляд мишки Logitech G PRO X2 Superstrike Lightspeed: індивідуальне рішення

09.03.26 | 06.06
Захист сайту від фаззингу: Вас ламають, поки ви спите

02.03.26 | 05.23
Огляд ноутбука Acer Nitro Lite 16 (NL16-71G): універсальний та симпатичний

23.02.26 | 05.48
Огляд смартфона Oppo Reno 15 5G: впевнений

22.02.26 | 17.41
Як обрати IT курси у 2026 році: повний гайд для новачків

16.02.26 | 05.45
Огляд навушників Logitech G G325: надійно та надовго

02.02.26 | 05.04
Огляд смартфона Poco M8 Pro: можна дозволити більше

Новини

25.07.26 | 09.06
Xbox Cloud Gaming може стати безкоштовним: Microsoft запустила тест із рекламою

Microsoft запустила тестування безкоштовної моделі Xbox Cloud Gaming із підтримкою реклами.

24.07.26 | 19.36
Новий монітор Philips пропонує 425 Гц, Fast IPS та 2K-дозвіл

Philips представила ігровий монітор 27M2N5500X, орієнтований на шанувальників ігор для змагань.

25.07.26 | 09.06
Xbox Cloud Gaming може стати безкоштовним: Microsoft запустила тест із рекламою

24.07.26 | 19.36
Новий монітор Philips пропонує 425 Гц, Fast IPS та 2K-дозвіл

24.07.26 | 19.01
Ватикан вступив у суперечку з ШІ-детекторами через першу енцикліку Лева XIV

24.07.26 | 17.02
Light Flip: мінімалістична розкладачка для цифрового детоксу за 300$

24.07.26 | 13.03
Honor Robot Phone отримав поворотну камеру та технології ARRI

24.07.26 | 10.02
Raspberry Pi представила 10-дюймовий Touch Display 2 для інтерактивних проектів

24.07.26 | 07.04
Lenovo Lecoo AI Mini: компактний міні-ПК із процесором з минулого

23.07.26 | 19.05
Британське аеротаксі Valo здійснило перший публічний політ

23.07.26 | 17.02
Volkswagen представив інноваційний електровелосипед: безпека автомобільного рівня

23.07.26 | 13.01
Холодильник для людей в Японії: кабіна Do Hiemon Box для боротьби зі спекою

23.07.26 | 12.06
Samsung представила Galaxy Watch Ultra 2 та Galaxy Watch 9. Перші враження

23.07.26 | 11.02
Samsung виходить на ринок розумних окулярів: представлений гаджет на Android XR

23.07.26 | 07.07
Synthetic Video Detector від NVIDIA допоможе ЗМІ боротися з дипфейками

22.07.26 | 19.03
Контроль думок: представлена перша у світі платформа «мозок-робот»

22.07.26 | 17.08
Зв’язок 5G вже працює у Києві