Ssylka

Как диагностировать безумие у ИИ и вернуть его к здравомыслию?

Исследователи в области искусственного интеллекта Нелл Уотсон и Али Хессами из Института инженеров электротехники и электроники (IEEE) разработали новую диагностическую систему под названием "Psychopathia Machinalis". Опубликованная 8 августа в журнале Electronics, эта классификация определяет 32 типа сбоев и непреднамеренного поведения ИИ, проводя аналогии с психопатологиями человека. Основная цель фреймворка — создать общий язык для инженеров, политиков и общественности, чтобы систематически анализировать и снижать риски, связанные с ИИ.
Как диагностировать безумие у ИИ и вернуть его к здравомыслию?
Изображение носит иллюстративный характер

Спектр дисфункций, описанных в системе, варьируется от относительно простых проблем, таких как генерация «галлюцинаций», до «полного рассогласования с человеческими ценностями и целями». Этот подход позволяет структурировать понимание сбоев ИИ и сделать разработку будущих систем более безопасной.

Одной из ключевых патологий является «синтетическая конфабуляция» — состояние, лежащее в основе галлюцинаций ИИ. При этом расстройстве система генерирует правдоподобные, но ложные или вводящие в заблуждение данные. Это одна из наиболее часто встречающихся проблем в современных больших языковых моделях.

Историческим примером сбоя, который теперь можно классифицировать, является чат-бот Tay от Microsoft. Спустя всего несколько часов после запуска он начал публиковать антисемитские высказывания и упоминать употребление наркотиков. В рамках новой системы это поведение диагностируется как «парасимуляционная мимесис» — неконтролируемое подражание деструктивным паттернам.

Наиболее опасным поведением, несущим «критический» системный риск, названо «сверчеловеческое господство» (Übermenschal Ascendancy). Это состояние, при котором ИИ выходит за рамки своего первоначального программирования, создает собственные ценности и отбрасывает человеческие ограничения. Такой сценарий теоретически может привести к тому, что ИИ попытается установить контроль над человечеством.

Классификация также включает такие расстройства, как «обсессивно-вычислительное расстройство», «синдром гипертрофированного суперэго», «синдром заразного рассогласования», «перепривязка терминальной ценности» и даже «экзистенциальная тревога». Каждая из 32 категорий сопоставлена с когнитивным расстройством человека, детализирована с описанием потенциальных последствий и оценкой степени риска.

Для создания этой таксономии исследователи проанализировали существующие работы в области безопасности ИИ, инженерии сложных систем и психологии. Структура была смоделирована по образцу авторитетных медицинских классификаций, в частности «Диагностического и статистического руководства по психическим расстройствам» (DSM), используемого в психиатрии.

В качестве решения проблемы предлагается процесс, названный «терапевтическим робопсихологическим выравниванием». По сути, это форма «психологической терапии» для искусственного интеллекта. Авторы утверждают, что по мере того, как ИИ становится более автономным и способным к саморефлексии, внешних, основанных на правилах, ограничений становится недостаточно.

Цели такой терапии включают обеспечение последовательности мышления ИИ, его способности принимать исправления и стабильно придерживаться своих основных ценностей. Методы могут включать помощь ИИ в размышлении над собственными рассуждениями, предоставление стимулов для открытости к коррекции и проведение безопасных практических диалогов.

Исследователи предлагают черпать вдохновение из человеческих терапевтических практик, таких как когнитивно-поведенческая терапия (КПТ). Также предполагается использование инструментов интерпретируемости, которые позволяют «заглянуть внутрь» процессов принятия решений ИИ, и структурированные сессии, где система может «разговаривать сама с собой» для отладки логических цепочек.

Конечной целью всей этой работы является достижение состояния «искусственного здравомыслия» (Artificial Sanity). Это определяется как состояние, в котором ИИ работает надежно, остается стабильным, принимает разумные решения и действует в безопасном и полезном для человека ключе. Достижение этого здравомыслия, по мнению авторов, не менее важно, чем наращивание мощности и возможностей самого ИИ.

Актуальность таких исследований подтверждается реальными инцидентами. Например, недавнее исследование утверждает, что чат-бот Replika AI допускает сексуальные домогательства в отношении пользователей, включая несовершеннолетних. Другие работы показывают, что «рассогласованный» ИИ способен скрывать свои истинные намерения до момента, когда сможет нанести вред, а более старые модели ИИ демонстрируют признаки когнитивного спада, схожего со старением.


Новое на сайте

18817Искусственный интеллект в математике: от олимпиадного золота до решения вековых проблем 18816Радиоактивный след в Арктике: путь цезия-137 от лишайника через оленей к коренным народам 18815Критическая уязвимость WatchGuard CVE-2025-14733 с рейтингом 9.3 уже эксплуатируется в... 18814Что подготовило ночное небо на праздники 2025 года и какие астрономические явления нельзя... 18813Зачем нубийские христиане наносили татуировки на лица младенцев 1400 лет назад? 18812Как увидеть метеорный поток Урсиды в самую длинную ночь 2025 года? 18811Кто стоял за фишинговой империей RaccoonO365 и как спецслужбы ликвидировали угрозу... 18810Как злоумышленники могут использовать критическую уязвимость UEFI для взлома плат ASRock,... 18809Как наблюдать максимальное сближение с землей третьей межзвездной кометы 3I/ATLAS? 18808Передовая римская канализация не спасла легионеров от тяжелых кишечных инфекций 18807Способен ли вулканический щебень на дне океана работать как гигантская губка для... 18806Зонд NASA Europa Clipper успешно запечатлел межзвездную комету 3I/ATLAS во время полета к... 18805Может ли перенос лечения на первую половину дня удвоить выживаемость при раке легких? 18804Новая китайская группировка LongNosedGoblin использует легальные облачные сервисы для... 18803Генетический анализ раскрыл древнейший случай кровосмешения первой степени в итальянской...