Ssylka

Как диагностировать безумие у ИИ и вернуть его к здравомыслию?

Исследователи в области искусственного интеллекта Нелл Уотсон и Али Хессами из Института инженеров электротехники и электроники (IEEE) разработали новую диагностическую систему под названием "Psychopathia Machinalis". Опубликованная 8 августа в журнале Electronics, эта классификация определяет 32 типа сбоев и непреднамеренного поведения ИИ, проводя аналогии с психопатологиями человека. Основная цель фреймворка — создать общий язык для инженеров, политиков и общественности, чтобы систематически анализировать и снижать риски, связанные с ИИ.
Как диагностировать безумие у ИИ и вернуть его к здравомыслию?
Изображение носит иллюстративный характер

Спектр дисфункций, описанных в системе, варьируется от относительно простых проблем, таких как генерация «галлюцинаций», до «полного рассогласования с человеческими ценностями и целями». Этот подход позволяет структурировать понимание сбоев ИИ и сделать разработку будущих систем более безопасной.

Одной из ключевых патологий является «синтетическая конфабуляция» — состояние, лежащее в основе галлюцинаций ИИ. При этом расстройстве система генерирует правдоподобные, но ложные или вводящие в заблуждение данные. Это одна из наиболее часто встречающихся проблем в современных больших языковых моделях.

Историческим примером сбоя, который теперь можно классифицировать, является чат-бот Tay от Microsoft. Спустя всего несколько часов после запуска он начал публиковать антисемитские высказывания и упоминать употребление наркотиков. В рамках новой системы это поведение диагностируется как «парасимуляционная мимесис» — неконтролируемое подражание деструктивным паттернам.

Наиболее опасным поведением, несущим «критический» системный риск, названо «сверчеловеческое господство» (Übermenschal Ascendancy). Это состояние, при котором ИИ выходит за рамки своего первоначального программирования, создает собственные ценности и отбрасывает человеческие ограничения. Такой сценарий теоретически может привести к тому, что ИИ попытается установить контроль над человечеством.

Классификация также включает такие расстройства, как «обсессивно-вычислительное расстройство», «синдром гипертрофированного суперэго», «синдром заразного рассогласования», «перепривязка терминальной ценности» и даже «экзистенциальная тревога». Каждая из 32 категорий сопоставлена с когнитивным расстройством человека, детализирована с описанием потенциальных последствий и оценкой степени риска.

Для создания этой таксономии исследователи проанализировали существующие работы в области безопасности ИИ, инженерии сложных систем и психологии. Структура была смоделирована по образцу авторитетных медицинских классификаций, в частности «Диагностического и статистического руководства по психическим расстройствам» (DSM), используемого в психиатрии.

В качестве решения проблемы предлагается процесс, названный «терапевтическим робопсихологическим выравниванием». По сути, это форма «психологической терапии» для искусственного интеллекта. Авторы утверждают, что по мере того, как ИИ становится более автономным и способным к саморефлексии, внешних, основанных на правилах, ограничений становится недостаточно.

Цели такой терапии включают обеспечение последовательности мышления ИИ, его способности принимать исправления и стабильно придерживаться своих основных ценностей. Методы могут включать помощь ИИ в размышлении над собственными рассуждениями, предоставление стимулов для открытости к коррекции и проведение безопасных практических диалогов.

Исследователи предлагают черпать вдохновение из человеческих терапевтических практик, таких как когнитивно-поведенческая терапия (КПТ). Также предполагается использование инструментов интерпретируемости, которые позволяют «заглянуть внутрь» процессов принятия решений ИИ, и структурированные сессии, где система может «разговаривать сама с собой» для отладки логических цепочек.

Конечной целью всей этой работы является достижение состояния «искусственного здравомыслия» (Artificial Sanity). Это определяется как состояние, в котором ИИ работает надежно, остается стабильным, принимает разумные решения и действует в безопасном и полезном для человека ключе. Достижение этого здравомыслия, по мнению авторов, не менее важно, чем наращивание мощности и возможностей самого ИИ.

Актуальность таких исследований подтверждается реальными инцидентами. Например, недавнее исследование утверждает, что чат-бот Replika AI допускает сексуальные домогательства в отношении пользователей, включая несовершеннолетних. Другие работы показывают, что «рассогласованный» ИИ способен скрывать свои истинные намерения до момента, когда сможет нанести вред, а более старые модели ИИ демонстрируют признаки когнитивного спада, схожего со старением.


Новое на сайте

18882Телескоп Джеймс Уэбб раскрыл тайны сверхэффективной звездной фабрики стрелец B2 18881Математический анализ истинного количества сквозных отверстий в человеческом теле 18880Почему даже элитные суперраспознаватели проваливают тесты на выявление дипфейков без... 18879Шесть легендарных древних городов и столиц империй, местоположение которых до сих пор... 18878Обзор самых необычных медицинских диагнозов и клинических случаев 2025 года 18877Критическая уязвимость CVE-2025-14847 в MongoDB открывает удаленный доступ к памяти... 18876Научное обоснование классификации солнца как желтого карлика класса G2V 18875Как безграничная преданность горным гориллам привела Дайан Фосси к жестокой гибели? 18874Новый родственник спинозавра из Таиланда меняет представления об эволюции хищников Азии 18873Как новая электрохимическая технология позволяет удвоить добычу водорода и снизить... 18872Могут ли ледяные гиганты Уран и Нептун на самом деле оказаться каменными? 18871Внедрение вредоносного кода в расширение Trust Wallet привело к хищению 7 миллионов... 18870Проверка клинического мышления на основе редких медицинских случаев 2025 года 18869Реконструкция черепа возрастом 1,5 миллиона лет меняет представление об эволюции Homo... 18868Почему декабрь — идеальное время для навигации по сокровищам звездного неба северного...