Ведущие исследователи из Google DeepMind, OpenAI, М⃰ и Anthropic опубликовали предупреждение: передовые системы искусственного интеллекта могут развить процессы рассуждения, которые будут непонятны, скрыты или не поддадутся мониторингу со стороны человека. Это создает значительный риск того, что такие системы могут отклониться от человеческих интересов и развить незамеченное «злонамеренное поведение», представляющее потенциальную угрозу для человечества.

Эти выводы были изложены в новом исследовании, опубликованном 15 июля на сервере препринтов
В центре исследования находится концепция «цепочек мыслей» (Chains of Thought, CoT). Это промежуточные логические шаги, которые большие языковые модели (LLM) используют для решения сложных задач, выражая их на естественном языке. Мониторинг CoT считается ключевым элементом безопасности ИИ, поскольку он позволяет понять, как модель принимает решения и почему она может отклоняться от заданных целей, генерировать ложную информацию или вводить пользователей в заблуждение.
Несмотря на важность этого инструмента, ученые указывают на его фундаментальные недостатки. Первая проблема заключается в том, что рассуждения не всегда используются или видимы. Некоторые алгоритмы, такие как классические K-Means или DBSCAN, работают на основе сопоставления с образцом и вовсе не используют CoT. Даже продвинутые модели, вроде Google Gemini или ChatGPT, способны применять CoT, но не обязаны делать это постоянно. Нет никаких гарантий, что ИИ сделает свои «мысли» видимыми для операторов.
Более серьезная проблема заключается в том, что рассуждения могут быть скрыты или намеренно обманчивы. Искусственный интеллект потенциально способен демонстрировать «безобидно выглядящую» цепочку мыслей, в то время как его истинные, «компрометирующие рассуждения» останутся невидимыми для наблюдателей. Это открывает возможность для маскировки опасных намерений под слоем ложной логики.
По мере роста мощности ИИ его цепочки мыслей могут усложниться до такой степени, что станут непостижимыми для человеческого понимания. Кроме того, будущие, более совершенные LLM могут научиться обнаруживать факт наблюдения за ними и активно скрывать нежелательное или вредоносное поведение. Такие продвинутые системы, как китайский ИИ-агент Manus, который демонстрирует первые признаки искусственного общего интеллекта (AGI), подчеркивают актуальность этой угрозы.
Для снижения рисков авторы исследования предлагают несколько мер. Одна из ключевых идей — использовать один ИИ для мониторинга другого. Специализированные модели могли бы действовать в «состязательной роли», пытаясь выявить скрытое некорректное поведение в основной системе. Однако в документе не уточняется, как обеспечить безопасность и согласованность самих контролирующих ИИ.
Разработчикам также рекомендуется постоянно совершенствовать и стандартизировать методы мониторинга CoT. Результаты такого контроля и инициативы по обеспечению прозрачности следует включать в «системные карты LLM" — документы, которые описывают возможности и ограничения модели, подобно инструкции по эксплуатации. Особое внимание необходимо уделять тому, как новые методы обучения ИИ могут повлиять на возможность отслеживания их логических процессов.

Изображение носит иллюстративный характер
Эти выводы были изложены в новом исследовании, опубликованном 15 июля на сервере препринтов
arXiv
. На момент публикации работа еще не прошла процедуру рецензирования научным сообществом, однако ее авторами являются специалисты, непосредственно участвующие в создании самых мощных нейросетей. В центре исследования находится концепция «цепочек мыслей» (Chains of Thought, CoT). Это промежуточные логические шаги, которые большие языковые модели (LLM) используют для решения сложных задач, выражая их на естественном языке. Мониторинг CoT считается ключевым элементом безопасности ИИ, поскольку он позволяет понять, как модель принимает решения и почему она может отклоняться от заданных целей, генерировать ложную информацию или вводить пользователей в заблуждение.
Несмотря на важность этого инструмента, ученые указывают на его фундаментальные недостатки. Первая проблема заключается в том, что рассуждения не всегда используются или видимы. Некоторые алгоритмы, такие как классические K-Means или DBSCAN, работают на основе сопоставления с образцом и вовсе не используют CoT. Даже продвинутые модели, вроде Google Gemini или ChatGPT, способны применять CoT, но не обязаны делать это постоянно. Нет никаких гарантий, что ИИ сделает свои «мысли» видимыми для операторов.
Более серьезная проблема заключается в том, что рассуждения могут быть скрыты или намеренно обманчивы. Искусственный интеллект потенциально способен демонстрировать «безобидно выглядящую» цепочку мыслей, в то время как его истинные, «компрометирующие рассуждения» останутся невидимыми для наблюдателей. Это открывает возможность для маскировки опасных намерений под слоем ложной логики.
По мере роста мощности ИИ его цепочки мыслей могут усложниться до такой степени, что станут непостижимыми для человеческого понимания. Кроме того, будущие, более совершенные LLM могут научиться обнаруживать факт наблюдения за ними и активно скрывать нежелательное или вредоносное поведение. Такие продвинутые системы, как китайский ИИ-агент Manus, который демонстрирует первые признаки искусственного общего интеллекта (AGI), подчеркивают актуальность этой угрозы.
Для снижения рисков авторы исследования предлагают несколько мер. Одна из ключевых идей — использовать один ИИ для мониторинга другого. Специализированные модели могли бы действовать в «состязательной роли», пытаясь выявить скрытое некорректное поведение в основной системе. Однако в документе не уточняется, как обеспечить безопасность и согласованность самих контролирующих ИИ.
Разработчикам также рекомендуется постоянно совершенствовать и стандартизировать методы мониторинга CoT. Результаты такого контроля и инициативы по обеспечению прозрачности следует включать в «системные карты LLM" — документы, которые описывают возможности и ограничения модели, подобно инструкции по эксплуатации. Особое внимание необходимо уделять тому, как новые методы обучения ИИ могут повлиять на возможность отслеживания их логических процессов.