ШІ не може підробити токсичність – новий тест Тьюринга

15.11.25

angry robot

 

Дослідники з Цюріхського, Амстердамського, Дьюкського та Нью-Йоркського університетів встановили, що сучасні мовні моделі штучного інтелекту все ще можна легко відрізнити від людей — головним чином надмірно доброзичливим і «гладким» емоційним тоном.

 

Вчені протестували дев’ять популярних моделей з відкритим кодом – Llama 3.1 8B, Llama 3.1 8B Instruct, Llama 3.1 70B, Mistral 7B v0.1, Mistral 7B Instruct v0.2, Qwen 2.5 7B Instruct, Gemma 3 4B Instruct і Apertus-8B-2509 – на прикладах повідомлень із соцмереж X (Twitter), Bluesky та Reddit. Алгоритми-класифікатори, створені в рамках проекту, спромоглися розпізнати тексти, згенеровані ІІ, з точністю до 70–80%.

 

«Обчислювальний тест Тьюринга»

 

Дослідники представили новий варіант «комп’ютерного тесту Тьюринга» — метрику, яка оцінює, наскільки мова ІІ наближена до реальної інтернет-комунікації. Система використовує автоматичний лінгвістичний аналіз, щоб виявляти ознаки, за якими тексти нейромереж відрізняються від людських — насамперед у емоційному забарвленні.

 

«Навіть після ретельного калібрування результати LLM залишаються помітно відмінними від людських за емоційним тоном та вираженням емоцій», — зазначають автори.

 

Чому ШІ «занадто ввічливий»

 

Група під керівництвом Ніколо Пагана з Цюріхського університету з’ясувала, що навіть при застосуванні складних стратегій оптимізації (включаючи «тонке налаштування» та уточнюючі підказки) емоційні сигнали, властиві ІІ, не зникають. Коли моделі відповідали реальні пости із соцмереж, вони важко відтворювали неформальні висловлювання, сарказм і легкий негатив, характерні для людської промови. Їхній рівень токсичності залишався значно нижчим.

 

Спроби підвищити реалістичність – наприклад, додавання прикладів постів користувачів чи додаткового контексту – допомагали лише частково. Відмінності у довжині речень та структурі тексту згладжувалися, але емоційні відмінності зберігалися.

 

Несподівані висновки

 

Вчені виявили, що моделі з інструктивним навчанням (Instruct) імітують людину гірше, ніж їх базові версії. Так, Llama 3.1 8B та Mistral 7B v0.1 показали найкращі результати, досягаючи 75–85% точності в імітації людських відповідей. Крім того, масштабування моделей не дало переваг – версія Llama 3.1 з 70 млрд параметрів виявилася менш «людяною», ніж моделі з 8 млрд параметрів.

 

Спроби «маскувати» тексти під людські знижували їхню смислову близькість до реальних відповідей користувачів: оцінка семантичної подібності впала з 0,18–0,34 до 0,16–0,28 на різних платформах. Тобто що сильніше модель намагалася «здаватися людиною», то легше було розпізнати, що маємо ІІ.

 

Де ШІ ховається краще

 

Відмінності виявились і між платформами. На X (Twitter) нейромережі імітували людей найбільш успішно – детекція була найменш точною. На Bluesky результати були середніми, а на Reddit – найгірше: тексти ІІ відрізнялися сильніше. Дослідники вважають, що це пов’язано з різницею стилю спілкування користувачів та тим, наскільки дані конкретних платформ використовувалися під час навчання моделей.

 

Сучасні LLM залишаються вразливими у сфері спонтанного вираження емоцій та природної неоднозначності, характерної для людського спілкування. ІІ може імітувати граматику та лексику, але його емоційна «пригладженість» залишається помітним маркером штучного походження.


Не пропустіть цікаве!

Підписуйтесь на наші канали та читайте анонси хай-тек новин, тестів та оглядів у зручному форматі!

Ми у Facebook Ми у Instagram Ми у Telegram

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *





Статті & тестиArticles
02.11.25
Кращі спортивні смарт-годинники в 2025 році
views
35
comments 0
Honor Watch 4 Pro

Порівняємо трьох цікавих представників спортивного класу смарт-годинників — Samsung Galaxy Watch 7 Ultra, Garmin Instinct 3 та Amazfit T-Rex 3 Pro. Рекомендації щодо вибору цих спортивних смарт-годинників – який для кого.

15.11.25
Альтернатива Apple Watch — огляд 5 смарт-годинників
views
12
comments 0
Apple Watch white

Порівняємо ключові характеристики смарт годинників, щоб зрозуміти, які саме акценти виробники роблять у змаганні за увагу покупців


НовиниNews
15.11.25 | 15.30
ШІ не може підробити токсичність – новий тест Тьюринга
angry robot

Дослідники з Цюріхського, Амстердамського, Дьюцького та Нью-Йоркського університетів встановили, що сучасні мовні моделі штучного інтелекту все ще можна легко відрізнити від людей

15.11.25 | 10.56
Boeing навчає пілотів у Microsoft Flight Simulator
Microsoft Flight Simulator

Boeing заявила про запуск нового навчального інструменту Virtual Airplane Procedures Trainer (VAPT) – цифрової платформи для підготовки пілотів, створеної спільно з Microsoft.

15.11.25 | 15.30
ШІ не може підробити токсичність – новий тест Тьюринга
15.11.25 | 10.56
Boeing навчає пілотів у Microsoft Flight Simulator
14.11.25 | 19.40
AiPaper Reader – перша електронна книга з E Ink, Андроїд 16 та ШІ-асистентом
14.11.25 | 17.10
Leica Cine Play 1 Plus – преміальний 4K-проектор із підтримкою HDR10+
14.11.25 | 13.37
Huawei Mate 70 Air – ще один найтонший смартфон. Він отримав ємний акумулятор 6500 мАг
14.11.25 | 10.20
Sony представила перший монітор PlayStation
14.11.25 | 07.49
Android буде попереджати про програми, які шкодять автономності
13.11.25 | 18.46
Google попереджає про численні шпигунські програми, що маскуються під VPN
13.11.25 | 16.01
Valve представила стаціонарну консоль Steam Machine, Steam Controller 2 та VR-шолом Steam Frame
13.11.25 | 12.50
Ajax Systems відкриває новий завод у В’єтнамі
13.11.25 | 10.02
GTA Online стала тимчасово безкоштовною на PlayStation 5 та Xbox Series
12.11.25 | 19.02
Microsoft анонсувала оновлення Windows 11 26H1
12.11.25 | 16.10
Motorola представила недорогі навушники Moto Buds Bass з ANC
12.11.25 | 13.04
Samsung показала модульні SSD – контролер і пам’ять NAND можна роз’єднати
12.11.25 | 10.20
LG UltraGear G8 – 4K монітор з частотою 165 Гц та HDR10