ИИ не может подделать токсичность — новый тест Тьюринга

angry robot

 

Исследователи из Цюрихского, Амстердамского, Дьюкского и Нью-Йоркского университетов установили, что современные языковые модели искусственного интеллекта всё ещё можно легко отличить от людей — главным образом по чрезмерно дружелюбному и «гладкому» эмоциональному тону.

 

Учёные протестировали девять популярных моделей с открытым кодом — Llama 3.1 8B, Llama 3.1 8B Instruct, Llama 3.1 70B, Mistral 7B v0.1, Mistral 7B Instruct v0.2, Qwen 2.5 7B Instruct, Gemma 3 4B Instruct, DeepSeek-R1-Distill-Llama-8B и Apertus-8B-2509 — на примерах сообщений из соцсетей X (Twitter), Bluesky и Reddit. Алгоритмы-классификаторы, созданные в рамках проекта, смогли распознать тексты, сгенерированные ИИ, с точностью до 70–80%.

 

«Вычислительный тест Тьюринга»

 

Исследователи представили новый вариант «компьютерного теста Тьюринга» — метрику, которая оценивает, насколько речь ИИ приближена к реальной интернет-коммуникации. Система использует автоматический лингвистический анализ, чтобы выявлять признаки, по которым тексты нейросетей отличаются от человеческих — прежде всего в эмоциональной окраске.

 

«Даже после тщательной калибровки результаты LLM остаются заметно отличными от человеческих по эмоциональному тону и выражению эмоций», — отмечают авторы.

 

Почему ИИ «слишком вежлив»

 

Группа под руководством Николо Пагана из Цюрихского университета выяснила, что даже при применении сложных стратегий оптимизации (включая «тонкую настройку» и уточняющие подсказки) эмоциональные сигналы, присущие ИИ, не исчезают. Когда модели отвечали на реальные посты из соцсетей, они с трудом воспроизводили неформальные выражения, сарказм и лёгкий негатив, характерные для человеческой речи. Их уровень токсичности оставался значительно ниже.

 

Попытки повысить реалистичность — например, добавление примеров постов пользователей или дополнительного контекста — помогали лишь частично. Различия в длине предложений и структуре текста сглаживались, но эмоциональные различия сохранялись.

 

Неожиданные выводы

 

Учёные обнаружили, что модели с инструктивным обучением (Instruct) имитируют человека хуже, чем их базовые версии. Так, Llama 3.1 8B и Mistral 7B v0.1 показали лучшие результаты, достигая 75–85% точности в имитации человеческих ответов. Кроме того, масштабирование моделей не дало преимуществ — версия Llama 3.1 с 70 млрд параметров оказалась менее «человечной», чем модели с 8 млрд параметров.

 

Попытки «маскировать» тексты под человеческие снижали их смысловую близость к реальным ответам пользователей: оценка семантического сходства упала с 0,18–0,34 до 0,16–0,28 на разных платформах. То есть чем сильнее модель старалась «казаться человеком», тем легче было распознать, что перед нами ИИ.

 

Где ИИ прячется лучше

 

Различия проявились и между платформами. На X (Twitter) нейросети имитировали людей наиболее успешно — детекция была наименее точной.
На Bluesky результаты были средними, а на Reddit — хуже всего: тексты ИИ отличались сильнее. Исследователи считают, что это связано с различием стиля общения пользователей и тем, насколько данные конкретных платформ использовались при обучении моделей.

 

Современные LLM остаются уязвимыми в области спонтанного выражения эмоций и естественной неоднозначности, характерной для человеческого общения. ИИ может имитировать грамматику и лексику, но его эмоциональная «приглаженность» остаётся заметным маркером искусственного происхождения.


Не пропустите интересное!

Підписывайтесь на наши каналы и читайте анонсы хай-тек новостей, тестов и обзоров в удобном формате!

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *





Статьи & тестыArticles

Обзор смартфона Oppo A6 Pro: амбициозный Oppo A6 Pro (CPH2799)

Новый смартфон Oppo A6 Pro — телефон среднего уровня с функциональностью смартфонов премиум-класса. Производитель наделил его множеством характеристик, присущих более дорогим телефонам. Но не обошлось и без компромиссов. Как именно сбалансирован Oppo A6 Pro – расскажем в обзоре.


Лучшие Bluetooth колонки. Подборка моделей в разных ценовых сегментах Sony SRS-XP500

Портативная колонка давно перестала быть просто аксессуаром для смартфона или ноутбука. Она стала инструментом для создания атмосферы – от камерной встречи до масштабной вечеринки.


НовостиNews
| 09.34
Shoei GT-Air 3 Smart – первый мотошлем с дополненной реальностью  
Shoei GT-Air 3 Smart

Японская компания Shoei представила первый в мире мотоциклетный шлем с полностью интегрированной системой дополненной реальности

| 14.19
Игру DOOM запустили в проектировщике печатных плат  
Doom

Визуальный стиль KiDOOM выглядит непривычно и сразу вызывает ассоциации с эпохой аркадных автоматов, таких как Atari Battlezone, или с эстетикой Vectrex