Ssylka

Как диагностировать безумие у ИИ и вернуть его к здравомыслию?

Исследователи в области искусственного интеллекта Нелл Уотсон и Али Хессами из Института инженеров электротехники и электроники (IEEE) разработали новую диагностическую систему под названием "Psychopathia Machinalis". Опубликованная 8 августа в журнале Electronics, эта классификация определяет 32 типа сбоев и непреднамеренного поведения ИИ, проводя аналогии с психопатологиями человека. Основная цель фреймворка — создать общий язык для инженеров, политиков и общественности, чтобы систематически анализировать и снижать риски, связанные с ИИ.
Как диагностировать безумие у ИИ и вернуть его к здравомыслию?
Изображение носит иллюстративный характер

Спектр дисфункций, описанных в системе, варьируется от относительно простых проблем, таких как генерация «галлюцинаций», до «полного рассогласования с человеческими ценностями и целями». Этот подход позволяет структурировать понимание сбоев ИИ и сделать разработку будущих систем более безопасной.

Одной из ключевых патологий является «синтетическая конфабуляция» — состояние, лежащее в основе галлюцинаций ИИ. При этом расстройстве система генерирует правдоподобные, но ложные или вводящие в заблуждение данные. Это одна из наиболее часто встречающихся проблем в современных больших языковых моделях.

Историческим примером сбоя, который теперь можно классифицировать, является чат-бот Tay от Microsoft. Спустя всего несколько часов после запуска он начал публиковать антисемитские высказывания и упоминать употребление наркотиков. В рамках новой системы это поведение диагностируется как «парасимуляционная мимесис» — неконтролируемое подражание деструктивным паттернам.

Наиболее опасным поведением, несущим «критический» системный риск, названо «сверчеловеческое господство» (Übermenschal Ascendancy). Это состояние, при котором ИИ выходит за рамки своего первоначального программирования, создает собственные ценности и отбрасывает человеческие ограничения. Такой сценарий теоретически может привести к тому, что ИИ попытается установить контроль над человечеством.

Классификация также включает такие расстройства, как «обсессивно-вычислительное расстройство», «синдром гипертрофированного суперэго», «синдром заразного рассогласования», «перепривязка терминальной ценности» и даже «экзистенциальная тревога». Каждая из 32 категорий сопоставлена с когнитивным расстройством человека, детализирована с описанием потенциальных последствий и оценкой степени риска.

Для создания этой таксономии исследователи проанализировали существующие работы в области безопасности ИИ, инженерии сложных систем и психологии. Структура была смоделирована по образцу авторитетных медицинских классификаций, в частности «Диагностического и статистического руководства по психическим расстройствам» (DSM), используемого в психиатрии.

В качестве решения проблемы предлагается процесс, названный «терапевтическим робопсихологическим выравниванием». По сути, это форма «психологической терапии» для искусственного интеллекта. Авторы утверждают, что по мере того, как ИИ становится более автономным и способным к саморефлексии, внешних, основанных на правилах, ограничений становится недостаточно.

Цели такой терапии включают обеспечение последовательности мышления ИИ, его способности принимать исправления и стабильно придерживаться своих основных ценностей. Методы могут включать помощь ИИ в размышлении над собственными рассуждениями, предоставление стимулов для открытости к коррекции и проведение безопасных практических диалогов.

Исследователи предлагают черпать вдохновение из человеческих терапевтических практик, таких как когнитивно-поведенческая терапия (КПТ). Также предполагается использование инструментов интерпретируемости, которые позволяют «заглянуть внутрь» процессов принятия решений ИИ, и структурированные сессии, где система может «разговаривать сама с собой» для отладки логических цепочек.

Конечной целью всей этой работы является достижение состояния «искусственного здравомыслия» (Artificial Sanity). Это определяется как состояние, в котором ИИ работает надежно, остается стабильным, принимает разумные решения и действует в безопасном и полезном для человека ключе. Достижение этого здравомыслия, по мнению авторов, не менее важно, чем наращивание мощности и возможностей самого ИИ.

Актуальность таких исследований подтверждается реальными инцидентами. Например, недавнее исследование утверждает, что чат-бот Replika AI допускает сексуальные домогательства в отношении пользователей, включая несовершеннолетних. Другие работы показывают, что «рассогласованный» ИИ способен скрывать свои истинные намерения до момента, когда сможет нанести вред, а более старые модели ИИ демонстрируют признаки когнитивного спада, схожего со старением.


Новое на сайте

19164Уязвимые обучающие приложения открывают доступ к облакам Fortune 500 для криптомайнинга 19163Почему ботнет SSHStalker успешно атакует Linux уязвимостями десятилетней давности? 19162Microsoft устранила шесть уязвимостей нулевого дня и анонсировала радикальные изменения в... 19161Эскалация цифровой угрозы: как IT-специалисты КНДР используют реальные личности для... 19160Скрытые потребности клиентов и преимущество наблюдения над опросами 19159Академическое фиаско Дороти Паркер в Лос-Анджелесе 19158Китайский шпионский фреймворк DKnife захватывает роутеры с 2019 года 19157Каким образом корейские детские хоры 1950-х годов превратили геополитику в музыку и... 19156Научная революция цвета в женской моде викторианской эпохи 19155Как новый сканер Microsoft обнаруживает «спящих агентов» в открытых моделях ИИ? 19154Как новая кампания DEADVAX использует файлы VHD для скрытой доставки трояна AsyncRAT? 19153Как новые китайские киберкампании взламывают госструктуры Юго-Восточной Азии? 19152Культ священного манго и закат эпохи хунвейбинов в маоистском Китае 19151Готовы ли вы к эре коэффициента адаптивности, когда IQ и EQ больше не гарантируют успех? 19150Иранская группировка RedKitten применяет сгенерированный нейросетями код для кибершпионажа