ИИ не может подделать токсичность — новый тест Тьюринга

angry robot

 

Исследователи из Цюрихского, Амстердамского, Дьюкского и Нью-Йоркского университетов установили, что современные языковые модели искусственного интеллекта всё ещё можно легко отличить от людей — главным образом по чрезмерно дружелюбному и «гладкому» эмоциональному тону.

 

Учёные протестировали девять популярных моделей с открытым кодом — Llama 3.1 8B, Llama 3.1 8B Instruct, Llama 3.1 70B, Mistral 7B v0.1, Mistral 7B Instruct v0.2, Qwen 2.5 7B Instruct, Gemma 3 4B Instruct, DeepSeek-R1-Distill-Llama-8B и Apertus-8B-2509 — на примерах сообщений из соцсетей X (Twitter), Bluesky и Reddit. Алгоритмы-классификаторы, созданные в рамках проекта, смогли распознать тексты, сгенерированные ИИ, с точностью до 70–80%.

 

«Вычислительный тест Тьюринга»

 

Исследователи представили новый вариант «компьютерного теста Тьюринга» — метрику, которая оценивает, насколько речь ИИ приближена к реальной интернет-коммуникации. Система использует автоматический лингвистический анализ, чтобы выявлять признаки, по которым тексты нейросетей отличаются от человеческих — прежде всего в эмоциональной окраске.

 

«Даже после тщательной калибровки результаты LLM остаются заметно отличными от человеческих по эмоциональному тону и выражению эмоций», — отмечают авторы.

 

Почему ИИ «слишком вежлив»

 

Группа под руководством Николо Пагана из Цюрихского университета выяснила, что даже при применении сложных стратегий оптимизации (включая «тонкую настройку» и уточняющие подсказки) эмоциональные сигналы, присущие ИИ, не исчезают. Когда модели отвечали на реальные посты из соцсетей, они с трудом воспроизводили неформальные выражения, сарказм и лёгкий негатив, характерные для человеческой речи. Их уровень токсичности оставался значительно ниже.

 

Попытки повысить реалистичность — например, добавление примеров постов пользователей или дополнительного контекста — помогали лишь частично. Различия в длине предложений и структуре текста сглаживались, но эмоциональные различия сохранялись.

 

Неожиданные выводы

 

Учёные обнаружили, что модели с инструктивным обучением (Instruct) имитируют человека хуже, чем их базовые версии. Так, Llama 3.1 8B и Mistral 7B v0.1 показали лучшие результаты, достигая 75–85% точности в имитации человеческих ответов. Кроме того, масштабирование моделей не дало преимуществ — версия Llama 3.1 с 70 млрд параметров оказалась менее «человечной», чем модели с 8 млрд параметров.

 

Попытки «маскировать» тексты под человеческие снижали их смысловую близость к реальным ответам пользователей: оценка семантического сходства упала с 0,18–0,34 до 0,16–0,28 на разных платформах. То есть чем сильнее модель старалась «казаться человеком», тем легче было распознать, что перед нами ИИ.

 

Где ИИ прячется лучше

 

Различия проявились и между платформами. На X (Twitter) нейросети имитировали людей наиболее успешно — детекция была наименее точной.
На Bluesky результаты были средними, а на Reddit — хуже всего: тексты ИИ отличались сильнее. Исследователи считают, что это связано с различием стиля общения пользователей и тем, насколько данные конкретных платформ использовались при обучении моделей.

 

Современные LLM остаются уязвимыми в области спонтанного выражения эмоций и естественной неоднозначности, характерной для человеческого общения. ИИ может имитировать грамматику и лексику, но его эмоциональная «приглаженность» остаётся заметным маркером искусственного происхождения.


Не пропустите интересное!

Підписывайтесь на наши каналы и читайте анонсы хай-тек новостей, тестов и обзоров в удобном формате!

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *





Статьи & тестыArticles

Обзор смартфона Oppo A6 Pro: амбициозный Oppo A6 Pro (CPH2799)

Новый смартфон Oppo A6 Pro — телефон среднего уровня с функциональностью смартфонов премиум-класса. Производитель наделил его множеством характеристик, присущих более дорогим телефонам. Но не обошлось и без компромиссов. Как именно сбалансирован Oppo A6 Pro – расскажем в обзоре.


Источники автономного питания для дома: инверторы, аккумуляторы, солнечные панели Invertor

Попробуем разобраться, как правильно выбрать инвертор в зависимости от мощности нагрузки, типа синусоиды и конфигурации аккумуляторной системы.


НовостиNews
| 19.08
Samsung поднимет цены на память для SSD вдвое  
SSD Samsung 9100 PRO PCIe 5.0

Samsung уже проинформировала ключевых клиентов, включая Apple, Nvidia и AMD, о повышении контрактных цен на NAND-чипы на 100%

| 16.20
Garmin tactix 8 Cerakote Edition — умные часы для военных, пожарных и спасателей  
Garmin tactix 8 Cerakote Edition

Garmin представила tactix 8 Cerakote Edition – обновленную версию флагманских тактических смартчасов, ориентированных на военных, спасателей и специалистов, работающих в условиях повышенного риска