Эксперты сообщили о возможности генерации запрещенного контента в ChatGPT
21.06.26
Публичные версии ChatGPT, по данным исследователей, могут в отдельных случаях генерировать контент, который выходит за рамки установленных правил безопасности, включая сцены насилия и сексуализированные изображения. Об этом сообщает BBC со ссылкой на отчет британского стартапа Mindgard, специализирующегося на кибербезопасности в сфере искусственного интеллекта.
В рамках исследования специалисты заявили, что им удалось добиться подобных результатов за счет незначительных модификаций стандартных пользовательских запросов, которые обычно применяются для создания безобидного или развлекательного контента. По их словам, такие изменения могут влиять на поведение модели и приводить к нежелательной генерации.
Ответ разработчиков и меры безопасности
Компания OpenAI заявила, что после ознакомления с выводами исследования внедрила дополнительные защитные механизмы, направленные на снижение вероятности генерации запрещенного контента. В компании подчеркивают, что работа над системами фильтрации и безопасности ведется непрерывно и адаптируется к новым сценариям злоупотреблений.
В Mindgard отмечают, что даже после обновлений системы отдельные вариации подходов к формулировке запросов могут сохранять риск обхода ограничений, хотя конкретные методы в публичном доступе не раскрываются.
Примеры выявленного поведения системы
По данным исследователей, в ходе тестирования были получены изображения, которые они охарактеризовали как крайне жестокие и местами сексуализированные. Основатель Mindgard Питер Гарраган заявил, что увиденные результаты выглядели «глубоко тревожными» и иногда сочетали элементы насилия и сексуального контекста в одном изображении.
Другой участник исследования, специалист по безопасности ИИ Джим Найтингейл, сообщил, что был эмоционально шокирован результатами тестов, упомянув сцены с тяжелыми травмами и изображениями погибших людей.
Спор вокруг устойчивости ограничений ИИ
Несмотря на заявления OpenAI об устранении выявленных проблем, исследователи утверждают, что альтернативные формулировки запросов могут по-прежнему приводить к нежелательным результатам генерации. По их оценке, дальнейшие эксперименты могут выявить дополнительные сценарии, в которых система ведет себя непредсказуемо.
В Mindgard подчеркивают, что подобные случаи требуют дальнейшего изучения, поскольку они поднимают вопрос о границах надежности современных систем искусственного интеллекта и устойчивости их механизмов безопасности.
Не пропустите интересное!
Підписывайтесь на наши каналы и читайте анонсы хай-тек новостей, тестов и обзоров в удобном формате!
Обзор смартфона Oppo A6 Pro: амбициозный
Новый смартфон Oppo A6 Pro — телефон среднего уровня с функциональностью смартфонов премиум-класса. Производитель наделил его множеством характеристик, присущих более дорогим телефонам. Но не обошлось и без компромиссов. Как именно сбалансирован Oppo A6 Pro – расскажем в обзоре.
One UI 8.5: новая жизнь старых смартфонов Samsung — что даёт обновление?
One UI 8.5 приносит старым Samsung Galaxy функции, которые ещё недавно были эксклюзивом новых флагманов. Но действительно ли обновление способно сделать Galaxy S22, S23 и S24 ближе к уровню Galaxy S26? Разбираемся, что меняется после установки прошивки.
Эксперты сообщили о возможности генерации запрещенного контента в ChatGPT
Публичные версии ChatGPT, по данным исследователей, могут в отдельных случаях генерировать контент, который выходит за рамки установленных правил безопасности, включая сцены насилия и сексуализированные изображения.
Эко-ловушка Mosqitter борется с комарами без инсектицидов и запаха
На рынок выходит компактная эко-система Mosqitter Mini без содержания ядовитых инсектицидов, которая имитирует человека


