ИИ не может подделать токсичность — новый тест Тьюринга

angry robot

Исследователи из Цюрихского, Амстердамского, Дьюкского и Нью-Йоркского университетов установили, что современные языковые модели искусственного интеллекта всё ещё можно легко отличить от людей — главным образом по чрезмерно дружелюбному и «гладкому» эмоциональному тону.

Учёные протестировали девять популярных моделей с открытым кодом — Llama 3.1 8B, Llama 3.1 8B Instruct, Llama 3.1 70B, Mistral 7B v0.1, Mistral 7B Instruct v0.2, Qwen 2.5 7B Instruct, Gemma 3 4B Instruct, DeepSeek-R1-Distill-Llama-8B и Apertus-8B-2509 — на примерах сообщений из соцсетей X (Twitter), Bluesky и Reddit. Алгоритмы-классификаторы, созданные в рамках проекта, смогли распознать тексты, сгенерированные ИИ, с точностью до 70–80%.

«Вычислительный тест Тьюринга»

Исследователи представили новый вариант «компьютерного теста Тьюринга» — метрику, которая оценивает, насколько речь ИИ приближена к реальной интернет-коммуникации. Система использует автоматический лингвистический анализ, чтобы выявлять признаки, по которым тексты нейросетей отличаются от человеческих — прежде всего в эмоциональной окраске.

«Даже после тщательной калибровки результаты LLM остаются заметно отличными от человеческих по эмоциональному тону и выражению эмоций», — отмечают авторы.

Почему ИИ «слишком вежлив»

Группа под руководством Николо Пагана из Цюрихского университета выяснила, что даже при применении сложных стратегий оптимизации (включая «тонкую настройку» и уточняющие подсказки) эмоциональные сигналы, присущие ИИ, не исчезают. Когда модели отвечали на реальные посты из соцсетей, они с трудом воспроизводили неформальные выражения, сарказм и лёгкий негатив, характерные для человеческой речи. Их уровень токсичности оставался значительно ниже.

Попытки повысить реалистичность — например, добавление примеров постов пользователей или дополнительного контекста — помогали лишь частично. Различия в длине предложений и структуре текста сглаживались, но эмоциональные различия сохранялись.

Неожиданные выводы

Учёные обнаружили, что модели с инструктивным обучением (Instruct) имитируют человека хуже, чем их базовые версии. Так, Llama 3.1 8B и Mistral 7B v0.1 показали лучшие результаты, достигая 75–85% точности в имитации человеческих ответов. Кроме того, масштабирование моделей не дало преимуществ — версия Llama 3.1 с 70 млрд параметров оказалась менее «человечной», чем модели с 8 млрд параметров.

Попытки «маскировать» тексты под человеческие снижали их смысловую близость к реальным ответам пользователей: оценка семантического сходства упала с 0,18–0,34 до 0,16–0,28 на разных платформах. То есть чем сильнее модель старалась «казаться человеком», тем легче было распознать, что перед нами ИИ.

Где ИИ прячется лучше

Различия проявились и между платформами. На X (Twitter) нейросети имитировали людей наиболее успешно — детекция была наименее точной.
На Bluesky результаты были средними, а на Reddit — хуже всего: тексты ИИ отличались сильнее. Исследователи считают, что это связано с различием стиля общения пользователей и тем, насколько данные конкретных платформ использовались при обучении моделей.

Современные LLM остаются уязвимыми в области спонтанного выражения эмоций и естественной неоднозначности, характерной для человеческого общения. ИИ может имитировать грамматику и лексику, но его эмоциональная «приглаженность» остаётся заметным маркером искусственного происхождения.


Не пропустите интересное!

Підписывайтесь на наши каналы и читайте анонсы хай-тек новостей, тестов и обзоров в удобном формате!

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *





Статьи & тестыArticles

Обзор смартфона Oppo A6 Pro: амбициозный Oppo A6 Pro (CPH2799)

Новый смартфон Oppo A6 Pro — телефон среднего уровня с функциональностью смартфонов премиум-класса. Производитель наделил его множеством характеристик, присущих более дорогим телефонам. Но не обошлось и без компромиссов. Как именно сбалансирован Oppo A6 Pro – расскажем в обзоре.


One UI 8.5: новая жизнь старых смартфонов Samsung — что даёт обновление?

One UI 8.5 приносит старым Samsung Galaxy функции, которые ещё недавно были эксклюзивом новых флагманов. Но действительно ли обновление способно сделать Galaxy S22, S23 и S24 ближе к уровню Galaxy S26? Разбираемся, что меняется после установки прошивки.


НовостиNews
| 19.07
Дефицит памяти и поставок повышает стоимость электроники
Дефіцит iPhone

Цены на смартфоны, ноутбуки и другую электронику в Украине продолжают расти на фоне удорожания компонентов и нестабильных поставок.

| 17.05
Кофе на вынос: Xiaomi Mijia Portable Coffee Machine производит 400 порций на одном заряде аккумулятора

Новая портативная кофемашина Xiaomi Mijia предлагает любителям качественного эспрессо возможность готовить любимый напиток на ходу, обладая мощным рабочим давлением в 20 бар и аккумулятором емкостью 7500 мАч.