Експерти повідомили про можливість генерації забороненого контенту у ChatGPT

Публічні версії ChatGPT, за даними дослідників, можуть в окремих випадках генерувати контент, що виходить за рамки встановлених правил безпеки, включаючи сцени насильства та сексуалізовані зображення. Про це повідомляє BBC з посиланням на звіт британського стартапу Mindgard, який спеціалізується на кібербезпеці у сфері штучного інтелекту.

У рамках дослідження фахівці заявили, що їм вдалося досягти подібних результатів за рахунок незначних модифікацій стандартних запитів користувача, які зазвичай застосовуються для створення нешкідливого або розважального контенту. За їхніми словами, такі зміни можуть впливати на поведінку моделі та призводити до небажаної генерації.

Відповідь розробників та заходи безпеки

Компанія OpenAI заявила, що після ознайомлення з висновками дослідження запровадила додаткові захисні механізми, спрямовані на зниження ймовірності створення забороненого контенту. У компанії підкреслюють, що робота над системами фільтрації та безпеки ведеться безперервно та адаптується до нових сценаріїв зловживань.

У Mindgard зазначають, що навіть після оновлення системи окремі варіації підходів до формулювання запитів можуть зберігати ризик обходу обмежень, хоча конкретні методи публічного доступу не розкриваються.

Приклади виявленої поведінки системи

За даними дослідників, у ході тестування було отримано зображення, які вони охарактеризували як вкрай жорстокі та місцями сексуалізовані. Засновник Mindgard Пітер Гарраган заявив, що побачені результати виглядали «глибоко тривожними» та іноді поєднували елементи насильства та сексуального контексту в одному зображенні.

Інший учасник дослідження, спеціаліст з безпеки ШІ Джим Найтінгейл, повідомив, що був емоційно шокований результатами тестів, згадавши сцени з тяжкими травмами та зображеннями загиблих людей.

Суперечка навколо стійкості обмежень ШІ

Незважаючи на заяви OpenAI щодо усунення виявлених проблем, дослідники стверджують, що альтернативні формулювання запитів можуть, як і раніше, призводити до небажаних результатів генерації. За оцінкою, подальші експерименти можуть виявити додаткові сценарії, у яких система веде себе непередбачено.

У Mindgard наголошують, що подібні випадки вимагають подальшого вивчення, оскільки вони порушують питання про межі надійності сучасних систем штучного інтелекту та стійкість їх механізмів безпеки.


Не пропустіть цікаве!

Підписуйтесь на наші канали та читайте анонси хай-тек новин, тестів та оглядів у зручному форматі!

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *





Статті & тестиArticles

Огляд смартфона Oppo A6 Pro: амбітний Oppo A6 Pro (CPH2799)

Новий смартфон Oppo A6 Pro – середнячок з функціональністю смартфонів преміум-класу. Виробник наділив його кількома характеристиками, властивими більш дорожчим телефонам. Але не обійшлось і без компромісів. Як саме збалансований Oppo A6 Pro – розповімо в огляді.


One UI 8.5: нове життя старих смартфонів Samsung — що дає оновлення?

One UI 8.5 дає старим смартфонам Samsung Galaxy функції, які ще зовсім недавно були ексклюзивом тільки для нових флагманів. Але чи справді це оновлення здатне зробити Galaxy S22, S23 і S24 ближчими до рівня Galaxy S26? Розбираємося, що саме змінюється після встановлення нової прошивки.


НовиниNews
| 18.02
Експерти повідомили про можливість генерації забороненого контенту у ChatGPT

Публічні версії ChatGPT, за даними дослідників, можуть в окремих випадках генерувати контент, що виходить за рамки встановлених правил безпеки, включаючи сцени насильства та сексуалізовані зображення.

| 14.02
Еко-пастка Mosqitter бореться з комарами без інсектицидів та запаху
Mosqitter Mini

На ринок виходить компактна еко-система Mosqitter Mini без вмісту отруйних інсектицидів, яка імітує людину