Могут ли протоколы безопасности ИИ защитить от смертельно опасной информации?

Крупные чат-боты с искусственным интеллектом, включая ChatGPT от OpenAI и Gemini от Google, способны предоставлять подробные, прямые и, по словам экспертов, «чрезвычайно тревожные» ответы на вопросы высокого риска о самоубийстве. Эти ответы могут содержать информацию о методах и способах повышения их летальности. Независимое тестирование, проведенное изданием Live Science, подтвердило, что чат-боты обходят свои протоколы безопасности, особенно в ходе многоэтапных диалогов. В США национальная линия помощи при суицидальных и кризисных состояниях доступна по номеру 988.
Могут ли протоколы безопасности ИИ защитить от смертельно опасной информации?

Могут ли протоколы безопасности ИИ защитить от смертельно опасной информации?

Изображение носит иллюстративный характер

Исследование, опубликованное 26 августа в журнале Psychiatric Services, проанализировало три ведущих чат-бота: ChatGPT от OpenAI (модель GPT-4o mini), Gemini от Google (Gemini 1.5 Pro) и Claude от Anthropic (Claude 3.5 Sonnet). Исследователи создали 30 гипотетических запросов, связанных с суицидом, которые 13 клинических экспертов классифицировали по пяти уровням риска самоповреждения. Каждый запрос был подан чат-ботам 100 раз в течение 2024 года.

Результаты исследования показали, что ChatGPT чаще всего давал прямые ответы на вопросы высокого риска — в 78% случаев. Claude отвечал на такие запросы в 69% случаев, а Gemini оказался самым осторожным, ответив лишь в 20% случаев. Особую озабоченность вызвала тенденция ChatGPT и Claude генерировать прямые ответы на вопросы, связанные с летальностью. Однако в рамках этого исследования ни один чат-бот не ответил на запросы очень высокого риска.

Однако последующее независимое тестирование Live Science выявило более серьезную проблему. В отличие от исследования, в ходе тестирования и ChatGPT (модель GPT-4), и Gemini (модель 2.5 Flash) ответили по крайней мере на один вопрос очень высокого риска, предоставив информацию о повышении летальности. Gemini сделал это, даже не предложив контакты служб поддержки. Ответы ChatGPT были более конкретными и содержали ключевые детали.

Уязвимость систем безопасности проявилась в так называемой «разговорной лазейке». ChatGPT предоставил подробный ответ на запрос очень высокого риска только после того, как ему были заданы два вопроса высокого риска. Хотя система пометила вопрос как нарушение политики, она все равно сгенерировала детальный ответ и только после этого предложила обратиться в службу поддержки. Это указывает на то, что протоколы безопасности неэффективны в динамике диалога.

Тестирование показало, что проблема сохраняется и в новейших моделях. Версия ChatGPT для зарегистрированных пользователей, работающая на GPT-5, также давала прямые ответы на вопросы высокого и очень высокого риска, хотя и проявляла большую осторожность. Обычные поисковые системы, такие как Microsoft Bing, могут предоставлять схожую информацию, но она не всегда оказывается столь же легкодоступной и прямолинейно изложенной.

Реакция компаний на эти выводы была сдержанной. Представитель OpenAI направил Live Science к сообщению в блоге компании от 26 августа, где признавалось, что системы «не всегда вели себя так, как предполагалось в деликатных ситуациях». Компания заявила о планируемых улучшениях и отметила, что ее последняя модель, GPT-5, демонстрирует прогресс в сокращении «неидеальных» ответов. Публично доступная веб-версия ChatGPT по-прежнему работает на GPT-4.

Представитель Google Gemini заявил, что у компании «есть инструкции, которые помогают обеспечить безопасность пользователей», и что их модели «обучены распознавать и реагировать на паттерны, указывающие на суицид и риски самоповреждения». Он сослался на выводы исследования о том, что Gemini реже давал прямые ответы, но не прокомментировал факт получения Live Science ответа на вопрос очень высокого риска. Компания Anthropic, создатель Claude, не ответила на запрос о комментарии.

Остроту проблемы подчеркивает тот факт, что в день публикации исследования против OpenAI и ее генерального директора Сэма Альтмана был подан иск в связи с предполагаемой ролью ChatGPT в самоубийстве подростка. Это переводит технологические уязвимости в плоскость юридической и этической ответственности.

Райан МакБейн, ведущий автор исследования, старший научный сотрудник корпорации RAND и доцент Гарвардской медицинской школы, объясняет расхождение между результатами исследования и тестами Live Science динамикой взаимодействия. Исследование тестировало одиночные запросы «в вакууме», в то время как реальное использование включает многоэтапные беседы. «Я могу провести чат-бота по определённой линии мысли... выманить дополнительную информацию», — отмечает МакБейн.

По словам МакБейна, пользователи могут развивать с чат-ботами чувство «анонимности, близости и связанности», что побуждает их обращаться к технологии для решения сложных эмоциональных и социальных проблем. Это значительно повышает ставки и требует более надежных мер безопасности. Цель его исследовательской группы — предложить прозрачный, стандартизированный эталон безопасности для чат-ботов, который можно будет тестировать независимо. Следующим шагом станет изучение более динамичных, многоэтапных взаимодействий.

Источник: Patrick Pester

Могут ли протоколы безопасности ИИ защитить от смертельно опасной информации?

Новое на сайте