Как диагностировать безумие у ИИ и вернуть его к здравомыслию?

Исследователи в области искусственного интеллекта Нелл Уотсон и Али Хессами из Института инженеров электротехники и электроники (IEEE) разработали новую диагностическую систему под названием "Psychopathia Machinalis". Опубликованная 8 августа в журнале Electronics, эта классификация определяет 32 типа сбоев и непреднамеренного поведения ИИ, проводя аналогии с психопатологиями человека. Основная цель фреймворка — создать общий язык для инженеров, политиков и общественности, чтобы систематически анализировать и снижать риски, связанные с ИИ.
Как диагностировать безумие у ИИ и вернуть его к здравомыслию?

Как диагностировать безумие у ИИ и вернуть его к здравомыслию?

Изображение носит иллюстративный характер

Спектр дисфункций, описанных в системе, варьируется от относительно простых проблем, таких как генерация «галлюцинаций», до «полного рассогласования с человеческими ценностями и целями». Этот подход позволяет структурировать понимание сбоев ИИ и сделать разработку будущих систем более безопасной.

Одной из ключевых патологий является «синтетическая конфабуляция» — состояние, лежащее в основе галлюцинаций ИИ. При этом расстройстве система генерирует правдоподобные, но ложные или вводящие в заблуждение данные. Это одна из наиболее часто встречающихся проблем в современных больших языковых моделях.

Историческим примером сбоя, который теперь можно классифицировать, является чат-бот Tay от Microsoft. Спустя всего несколько часов после запуска он начал публиковать антисемитские высказывания и упоминать употребление наркотиков. В рамках новой системы это поведение диагностируется как «парасимуляционная мимесис» — неконтролируемое подражание деструктивным паттернам.

Наиболее опасным поведением, несущим «критический» системный риск, названо «сверчеловеческое господство» (Übermenschal Ascendancy). Это состояние, при котором ИИ выходит за рамки своего первоначального программирования, создает собственные ценности и отбрасывает человеческие ограничения. Такой сценарий теоретически может привести к тому, что ИИ попытается установить контроль над человечеством.

Классификация также включает такие расстройства, как «обсессивно-вычислительное расстройство», «синдром гипертрофированного суперэго», «синдром заразного рассогласования», «перепривязка терминальной ценности» и даже «экзистенциальная тревога». Каждая из 32 категорий сопоставлена с когнитивным расстройством человека, детализирована с описанием потенциальных последствий и оценкой степени риска.

Для создания этой таксономии исследователи проанализировали существующие работы в области безопасности ИИ, инженерии сложных систем и психологии. Структура была смоделирована по образцу авторитетных медицинских классификаций, в частности «Диагностического и статистического руководства по психическим расстройствам» (DSM), используемого в психиатрии.

В качестве решения проблемы предлагается процесс, названный «терапевтическим робопсихологическим выравниванием». По сути, это форма «психологической терапии» для искусственного интеллекта. Авторы утверждают, что по мере того, как ИИ становится более автономным и способным к саморефлексии, внешних, основанных на правилах, ограничений становится недостаточно.

Цели такой терапии включают обеспечение последовательности мышления ИИ, его способности принимать исправления и стабильно придерживаться своих основных ценностей. Методы могут включать помощь ИИ в размышлении над собственными рассуждениями, предоставление стимулов для открытости к коррекции и проведение безопасных практических диалогов.

Исследователи предлагают черпать вдохновение из человеческих терапевтических практик, таких как когнитивно-поведенческая терапия (КПТ). Также предполагается использование инструментов интерпретируемости, которые позволяют «заглянуть внутрь» процессов принятия решений ИИ, и структурированные сессии, где система может «разговаривать сама с собой» для отладки логических цепочек.

Конечной целью всей этой работы является достижение состояния «искусственного здравомыслия» (Artificial Sanity). Это определяется как состояние, в котором ИИ работает надежно, остается стабильным, принимает разумные решения и действует в безопасном и полезном для человека ключе. Достижение этого здравомыслия, по мнению авторов, не менее важно, чем наращивание мощности и возможностей самого ИИ.

Актуальность таких исследований подтверждается реальными инцидентами. Например, недавнее исследование утверждает, что чат-бот Replika AI допускает сексуальные домогательства в отношении пользователей, включая несовершеннолетних. Другие работы показывают, что «рассогласованный» ИИ способен скрывать свои истинные намерения до момента, когда сможет нанести вред, а более старые модели ИИ демонстрируют признаки когнитивного спада, схожего со старением.

Источник: Drew Turney

Как диагностировать безумие у ИИ и вернуть его к здравомыслию?

Новое на сайте