Експерти повідомили про можливість генерації забороненого контенту у ChatGPT
21.06.26
Публічні версії ChatGPT, за даними дослідників, можуть в окремих випадках генерувати контент, що виходить за рамки встановлених правил безпеки, включаючи сцени насильства та сексуалізовані зображення. Про це повідомляє BBC з посиланням на звіт британського стартапу Mindgard, який спеціалізується на кібербезпеці у сфері штучного інтелекту.
У рамках дослідження фахівці заявили, що їм вдалося досягти подібних результатів за рахунок незначних модифікацій стандартних запитів користувача, які зазвичай застосовуються для створення нешкідливого або розважального контенту. За їхніми словами, такі зміни можуть впливати на поведінку моделі та призводити до небажаної генерації.
Відповідь розробників та заходи безпеки
Компанія OpenAI заявила, що після ознайомлення з висновками дослідження запровадила додаткові захисні механізми, спрямовані на зниження ймовірності створення забороненого контенту. У компанії підкреслюють, що робота над системами фільтрації та безпеки ведеться безперервно та адаптується до нових сценаріїв зловживань.
У Mindgard зазначають, що навіть після оновлення системи окремі варіації підходів до формулювання запитів можуть зберігати ризик обходу обмежень, хоча конкретні методи публічного доступу не розкриваються.
Приклади виявленої поведінки системи
За даними дослідників, у ході тестування було отримано зображення, які вони охарактеризували як вкрай жорстокі та місцями сексуалізовані. Засновник Mindgard Пітер Гарраган заявив, що побачені результати виглядали «глибоко тривожними» та іноді поєднували елементи насильства та сексуального контексту в одному зображенні.
Інший учасник дослідження, спеціаліст з безпеки ШІ Джим Найтінгейл, повідомив, що був емоційно шокований результатами тестів, згадавши сцени з тяжкими травмами та зображеннями загиблих людей.
Суперечка навколо стійкості обмежень ШІ
Незважаючи на заяви OpenAI щодо усунення виявлених проблем, дослідники стверджують, що альтернативні формулювання запитів можуть, як і раніше, призводити до небажаних результатів генерації. За оцінкою, подальші експерименти можуть виявити додаткові сценарії, у яких система веде себе непередбачено.
У Mindgard наголошують, що подібні випадки вимагають подальшого вивчення, оскільки вони порушують питання про межі надійності сучасних систем штучного інтелекту та стійкість їх механізмів безпеки.
Не пропустіть цікаве!
Підписуйтесь на наші канали та читайте анонси хай-тек новин, тестів та оглядів у зручному форматі!
Огляд смартфона Oppo A6 Pro: амбітний
Новий смартфон Oppo A6 Pro – середнячок з функціональністю смартфонів преміум-класу. Виробник наділив його кількома характеристиками, властивими більш дорожчим телефонам. Але не обійшлось і без компромісів. Як саме збалансований Oppo A6 Pro – розповімо в огляді.
One UI 8.5: нове життя старих смартфонів Samsung — що дає оновлення?
One UI 8.5 дає старим смартфонам Samsung Galaxy функції, які ще зовсім недавно були ексклюзивом тільки для нових флагманів. Але чи справді це оновлення здатне зробити Galaxy S22, S23 і S24 ближчими до рівня Galaxy S26? Розбираємося, що саме змінюється після встановлення нової прошивки.
Експерти повідомили про можливість генерації забороненого контенту у ChatGPT
Публічні версії ChatGPT, за даними дослідників, можуть в окремих випадках генерувати контент, що виходить за рамки встановлених правил безпеки, включаючи сцени насильства та сексуалізовані зображення.
Еко-пастка Mosqitter бореться з комарами без інсектицидів та запаху
На ринок виходить компактна еко-система Mosqitter Mini без вмісту отруйних інсектицидів, яка імітує людину


