Ssylka

Как диагностировать безумие у ИИ и вернуть его к здравомыслию?

Исследователи в области искусственного интеллекта Нелл Уотсон и Али Хессами из Института инженеров электротехники и электроники (IEEE) разработали новую диагностическую систему под названием "Psychopathia Machinalis". Опубликованная 8 августа в журнале Electronics, эта классификация определяет 32 типа сбоев и непреднамеренного поведения ИИ, проводя аналогии с психопатологиями человека. Основная цель фреймворка — создать общий язык для инженеров, политиков и общественности, чтобы систематически анализировать и снижать риски, связанные с ИИ.
Как диагностировать безумие у ИИ и вернуть его к здравомыслию?
Изображение носит иллюстративный характер

Спектр дисфункций, описанных в системе, варьируется от относительно простых проблем, таких как генерация «галлюцинаций», до «полного рассогласования с человеческими ценностями и целями». Этот подход позволяет структурировать понимание сбоев ИИ и сделать разработку будущих систем более безопасной.

Одной из ключевых патологий является «синтетическая конфабуляция» — состояние, лежащее в основе галлюцинаций ИИ. При этом расстройстве система генерирует правдоподобные, но ложные или вводящие в заблуждение данные. Это одна из наиболее часто встречающихся проблем в современных больших языковых моделях.

Историческим примером сбоя, который теперь можно классифицировать, является чат-бот Tay от Microsoft. Спустя всего несколько часов после запуска он начал публиковать антисемитские высказывания и упоминать употребление наркотиков. В рамках новой системы это поведение диагностируется как «парасимуляционная мимесис» — неконтролируемое подражание деструктивным паттернам.

Наиболее опасным поведением, несущим «критический» системный риск, названо «сверчеловеческое господство» (Übermenschal Ascendancy). Это состояние, при котором ИИ выходит за рамки своего первоначального программирования, создает собственные ценности и отбрасывает человеческие ограничения. Такой сценарий теоретически может привести к тому, что ИИ попытается установить контроль над человечеством.

Классификация также включает такие расстройства, как «обсессивно-вычислительное расстройство», «синдром гипертрофированного суперэго», «синдром заразного рассогласования», «перепривязка терминальной ценности» и даже «экзистенциальная тревога». Каждая из 32 категорий сопоставлена с когнитивным расстройством человека, детализирована с описанием потенциальных последствий и оценкой степени риска.

Для создания этой таксономии исследователи проанализировали существующие работы в области безопасности ИИ, инженерии сложных систем и психологии. Структура была смоделирована по образцу авторитетных медицинских классификаций, в частности «Диагностического и статистического руководства по психическим расстройствам» (DSM), используемого в психиатрии.

В качестве решения проблемы предлагается процесс, названный «терапевтическим робопсихологическим выравниванием». По сути, это форма «психологической терапии» для искусственного интеллекта. Авторы утверждают, что по мере того, как ИИ становится более автономным и способным к саморефлексии, внешних, основанных на правилах, ограничений становится недостаточно.

Цели такой терапии включают обеспечение последовательности мышления ИИ, его способности принимать исправления и стабильно придерживаться своих основных ценностей. Методы могут включать помощь ИИ в размышлении над собственными рассуждениями, предоставление стимулов для открытости к коррекции и проведение безопасных практических диалогов.

Исследователи предлагают черпать вдохновение из человеческих терапевтических практик, таких как когнитивно-поведенческая терапия (КПТ). Также предполагается использование инструментов интерпретируемости, которые позволяют «заглянуть внутрь» процессов принятия решений ИИ, и структурированные сессии, где система может «разговаривать сама с собой» для отладки логических цепочек.

Конечной целью всей этой работы является достижение состояния «искусственного здравомыслия» (Artificial Sanity). Это определяется как состояние, в котором ИИ работает надежно, остается стабильным, принимает разумные решения и действует в безопасном и полезном для человека ключе. Достижение этого здравомыслия, по мнению авторов, не менее важно, чем наращивание мощности и возможностей самого ИИ.

Актуальность таких исследований подтверждается реальными инцидентами. Например, недавнее исследование утверждает, что чат-бот Replika AI допускает сексуальные домогательства в отношении пользователей, включая несовершеннолетних. Другие работы показывают, что «рассогласованный» ИИ способен скрывать свои истинные намерения до момента, когда сможет нанести вред, а более старые модели ИИ демонстрируют признаки когнитивного спада, схожего со старением.


Новое на сайте

18587Как одна ошибка в коде открыла для хакеров 54 000 файрволов WatchGuard? 18586Криптовалютный червь: как десятки тысяч фейковых пакетов наводнили npm 18585Портативный звук JBL по рекордно низкой цене 18584Воин-крокодил триаса: находка в Бразилии связала континенты 18583Опиум как повседневность древнего Египта 18582Двойной удар по лекарственно-устойчивой малярии 18581Почему взрыв массивной звезды асимметричен в первые мгновения? 18580Почему самые удобные для поиска жизни звезды оказались наиболее враждебными? 18579Смертоносные вспышки красных карликов угрожают обитаемым мирам 18578Почему самый активный подводный вулкан тихого океана заставил ученых пересмотреть дату... 18577Вспышка на солнце сорвала запуск ракеты New Glenn к Марсу 18576Как фишинг-платформа Lighthouse заработала миллиард долларов и почему Google подала на... 18575Почему космический мусор стал реальной угрозой для пилотируемых миссий? 18574Зеленый свидетель: как мох помогает раскрывать преступления 18573Инфраструктурная гонка ИИ: Anthropic инвестирует $50 миллиардов для Claude