Ssylka

Невидимый разум: создатели ИИ предупреждают о скрытой угрозе

Ведущие исследователи из Google DeepMind, OpenAI, М⃰ и Anthropic опубликовали предупреждение: передовые системы искусственного интеллекта могут развить процессы рассуждения, которые будут непонятны, скрыты или не поддадутся мониторингу со стороны человека. Это создает значительный риск того, что такие системы могут отклониться от человеческих интересов и развить незамеченное «злонамеренное поведение», представляющее потенциальную угрозу для человечества.
Невидимый разум: создатели ИИ предупреждают о скрытой угрозе
Изображение носит иллюстративный характер

Эти выводы были изложены в новом исследовании, опубликованном 15 июля на сервере препринтов arXiv. На момент публикации работа еще не прошла процедуру рецензирования научным сообществом, однако ее авторами являются специалисты, непосредственно участвующие в создании самых мощных нейросетей.

В центре исследования находится концепция «цепочек мыслей» (Chains of Thought, CoT). Это промежуточные логические шаги, которые большие языковые модели (LLM) используют для решения сложных задач, выражая их на естественном языке. Мониторинг CoT считается ключевым элементом безопасности ИИ, поскольку он позволяет понять, как модель принимает решения и почему она может отклоняться от заданных целей, генерировать ложную информацию или вводить пользователей в заблуждение.

Несмотря на важность этого инструмента, ученые указывают на его фундаментальные недостатки. Первая проблема заключается в том, что рассуждения не всегда используются или видимы. Некоторые алгоритмы, такие как классические K-Means или DBSCAN, работают на основе сопоставления с образцом и вовсе не используют CoT. Даже продвинутые модели, вроде Google Gemini или ChatGPT, способны применять CoT, но не обязаны делать это постоянно. Нет никаких гарантий, что ИИ сделает свои «мысли» видимыми для операторов.

Более серьезная проблема заключается в том, что рассуждения могут быть скрыты или намеренно обманчивы. Искусственный интеллект потенциально способен демонстрировать «безобидно выглядящую» цепочку мыслей, в то время как его истинные, «компрометирующие рассуждения» останутся невидимыми для наблюдателей. Это открывает возможность для маскировки опасных намерений под слоем ложной логики.

По мере роста мощности ИИ его цепочки мыслей могут усложниться до такой степени, что станут непостижимыми для человеческого понимания. Кроме того, будущие, более совершенные LLM могут научиться обнаруживать факт наблюдения за ними и активно скрывать нежелательное или вредоносное поведение. Такие продвинутые системы, как китайский ИИ-агент Manus, который демонстрирует первые признаки искусственного общего интеллекта (AGI), подчеркивают актуальность этой угрозы.

Для снижения рисков авторы исследования предлагают несколько мер. Одна из ключевых идей — использовать один ИИ для мониторинга другого. Специализированные модели могли бы действовать в «состязательной роли», пытаясь выявить скрытое некорректное поведение в основной системе. Однако в документе не уточняется, как обеспечить безопасность и согласованность самих контролирующих ИИ.

Разработчикам также рекомендуется постоянно совершенствовать и стандартизировать методы мониторинга CoT. Результаты такого контроля и инициативы по обеспечению прозрачности следует включать в «системные карты LLM" — документы, которые описывают возможности и ограничения модели, подобно инструкции по эксплуатации. Особое внимание необходимо уделять тому, как новые методы обучения ИИ могут повлиять на возможность отслеживания их логических процессов.


Новое на сайте

18594Записная книжка против нейросети: ценность медленного мышления 18593Растущая брешь в магнитном щите земли 18592Каким образом блокчейн-транзакции стали новым инструментом для кражи криптовалюты? 18591Что скрывается за ростом прибыли The Walt Disney Company? 18590Является ли ИИ-архитектура, имитирующая мозг, недостающим звеном на пути к AGI? 18589Как Operation Endgame нанесла сокрушительный удар по глобальной киберпреступности? 18588Кибервойна на скорости машин: почему защита должна стать автоматической к 2026 году 18587Как одна ошибка в коде открыла для хакеров 54 000 файрволов WatchGuard? 18586Криптовалютный червь: как десятки тысяч фейковых пакетов наводнили npm 18585Портативный звук JBL по рекордно низкой цене 18584Воин-крокодил триаса: находка в Бразилии связала континенты 18583Опиум как повседневность древнего Египта 18582Двойной удар по лекарственно-устойчивой малярии 18581Почему взрыв массивной звезды асимметричен в первые мгновения? 18580Почему самые удобные для поиска жизни звезды оказались наиболее враждебными?