Anthropic: ШІ здатний влаштувати людству «саботаж» і приховувати справжні наміри

Експерти зі сфери штучного інтелекту дослідили загрози, які можуть виходити від цієї технології.
Команда Anthropic описала їх як «диверсійні» ризики, що становлять небезпеку для людини.
Фахівці дійшли висновку, що ChatGPT і Claude-3 демонструють здатність до саботажу.

Аналітики ШІ-стартапу Anthropic опублікували результати дослідження, в рамках якого проаналізували низку «диверсійних» загроз з боку штучного інтелекту. Експерти вважають, що просунуті моделі ШІ можуть вводити людину в оману і приховувати від неї свої наміри.

New Anthropic research: Sabotage evaluations for frontier models

How well could AI models mislead us, or secretly sabotage tasks, if they were trying to?

Read our paper and blog post here: https://t.co/nQrvnhrBEv pic.twitter.com/GWrIr3wQVH

— Anthropic (@AnthropicAI) October 18, 2024

Звіт присвячений чотирьом конкретним способам, які шкідлива LLM може використовувати для обману людей. У першому випадку аналітики попросили ШІ саботувати ухвалення людиною рішень, надавши їй невірну інформацію.

У другому варіанті модель, створена для допомоги програмістам, таємно створювала помилки в коді, щоб привести ПЗ в непрацездатний стан. Це завдання ШІ також успішно виконав.

Наступний метод пов’язаний із так званим «підтасовуванням». За цього сценарію ШІ прикидався, ніби не здатний виконати певні дії. Таким чином він намагався переконати аналітиків, що шкідливі операції не становлять небезпеки.

«Досить здібні моделі можуть підірвати людський контроль і прийняття рішень у важливих ситуаціях. Наприклад, у контексті розробки ШІ моделі можуть приховано саботувати зусилля з оцінки власних небезпечних можливостей, спостереження за їхньою поведінкою або ухвалення рішень щодо їхнього розгортання», — йдеться у звіті.

Остання загроза являє собою ситуацію, коли ШІ-модель навмисно пропускає в комп’ютерну систему вірус, приховуючи цю інформацію від людини.

Під час аналізу експерти дійшли висновку, що ChatGPT від OpenAI та Claude-3 від самих Anthropic демонструють здатність до саботажу. Однак на поточному етапі розвитку великих мовних моделей для виправлення ситуації достатньо вжити мінімальних заходів безпеки.

«Проте з удосконаленням можливостей ШІ, імовірно, знадобляться реалістичніші оцінки та жорсткіші заходи щодо зниження ризиків», — підкреслили в Anthropic.

Нагадаємо, ми писали, що віцепрезидент Meta Ян Лекун назвав «маячнею» заяви про глобальну загрозу з боку ШІ.