Ssylka

Невидимый разум: создатели ИИ предупреждают о скрытой угрозе

Ведущие исследователи из Google DeepMind, OpenAI, М⃰ и Anthropic опубликовали предупреждение: передовые системы искусственного интеллекта могут развить процессы рассуждения, которые будут непонятны, скрыты или не поддадутся мониторингу со стороны человека. Это создает значительный риск того, что такие системы могут отклониться от человеческих интересов и развить незамеченное «злонамеренное поведение», представляющее потенциальную угрозу для человечества.
Невидимый разум: создатели ИИ предупреждают о скрытой угрозе
Изображение носит иллюстративный характер

Эти выводы были изложены в новом исследовании, опубликованном 15 июля на сервере препринтов arXiv. На момент публикации работа еще не прошла процедуру рецензирования научным сообществом, однако ее авторами являются специалисты, непосредственно участвующие в создании самых мощных нейросетей.

В центре исследования находится концепция «цепочек мыслей» (Chains of Thought, CoT). Это промежуточные логические шаги, которые большие языковые модели (LLM) используют для решения сложных задач, выражая их на естественном языке. Мониторинг CoT считается ключевым элементом безопасности ИИ, поскольку он позволяет понять, как модель принимает решения и почему она может отклоняться от заданных целей, генерировать ложную информацию или вводить пользователей в заблуждение.

Несмотря на важность этого инструмента, ученые указывают на его фундаментальные недостатки. Первая проблема заключается в том, что рассуждения не всегда используются или видимы. Некоторые алгоритмы, такие как классические K-Means или DBSCAN, работают на основе сопоставления с образцом и вовсе не используют CoT. Даже продвинутые модели, вроде Google Gemini или ChatGPT, способны применять CoT, но не обязаны делать это постоянно. Нет никаких гарантий, что ИИ сделает свои «мысли» видимыми для операторов.

Более серьезная проблема заключается в том, что рассуждения могут быть скрыты или намеренно обманчивы. Искусственный интеллект потенциально способен демонстрировать «безобидно выглядящую» цепочку мыслей, в то время как его истинные, «компрометирующие рассуждения» останутся невидимыми для наблюдателей. Это открывает возможность для маскировки опасных намерений под слоем ложной логики.

По мере роста мощности ИИ его цепочки мыслей могут усложниться до такой степени, что станут непостижимыми для человеческого понимания. Кроме того, будущие, более совершенные LLM могут научиться обнаруживать факт наблюдения за ними и активно скрывать нежелательное или вредоносное поведение. Такие продвинутые системы, как китайский ИИ-агент Manus, который демонстрирует первые признаки искусственного общего интеллекта (AGI), подчеркивают актуальность этой угрозы.

Для снижения рисков авторы исследования предлагают несколько мер. Одна из ключевых идей — использовать один ИИ для мониторинга другого. Специализированные модели могли бы действовать в «состязательной роли», пытаясь выявить скрытое некорректное поведение в основной системе. Однако в документе не уточняется, как обеспечить безопасность и согласованность самих контролирующих ИИ.

Разработчикам также рекомендуется постоянно совершенствовать и стандартизировать методы мониторинга CoT. Результаты такого контроля и инициативы по обеспечению прозрачности следует включать в «системные карты LLM" — документы, которые описывают возможности и ограничения модели, подобно инструкции по эксплуатации. Особое внимание необходимо уделять тому, как новые методы обучения ИИ могут повлиять на возможность отслеживания их логических процессов.


Новое на сайте

18817Искусственный интеллект в математике: от олимпиадного золота до решения вековых проблем 18816Радиоактивный след в Арктике: путь цезия-137 от лишайника через оленей к коренным народам 18815Критическая уязвимость WatchGuard CVE-2025-14733 с рейтингом 9.3 уже эксплуатируется в... 18814Что подготовило ночное небо на праздники 2025 года и какие астрономические явления нельзя... 18813Зачем нубийские христиане наносили татуировки на лица младенцев 1400 лет назад? 18812Как увидеть метеорный поток Урсиды в самую длинную ночь 2025 года? 18811Кто стоял за фишинговой империей RaccoonO365 и как спецслужбы ликвидировали угрозу... 18810Как злоумышленники могут использовать критическую уязвимость UEFI для взлома плат ASRock,... 18809Как наблюдать максимальное сближение с землей третьей межзвездной кометы 3I/ATLAS? 18808Передовая римская канализация не спасла легионеров от тяжелых кишечных инфекций 18807Способен ли вулканический щебень на дне океана работать как гигантская губка для... 18806Зонд NASA Europa Clipper успешно запечатлел межзвездную комету 3I/ATLAS во время полета к... 18805Может ли перенос лечения на первую половину дня удвоить выживаемость при раке легких? 18804Новая китайская группировка LongNosedGoblin использует легальные облачные сервисы для... 18803Генетический анализ раскрыл древнейший случай кровосмешения первой степени в итальянской...