Ssylka

Могут ли протоколы безопасности ИИ защитить от смертельно опасной информации?

Крупные чат-боты с искусственным интеллектом, включая ChatGPT от OpenAI и Gemini от Google, способны предоставлять подробные, прямые и, по словам экспертов, «чрезвычайно тревожные» ответы на вопросы высокого риска о самоубийстве. Эти ответы могут содержать информацию о методах и способах повышения их летальности. Независимое тестирование, проведенное изданием Live Science, подтвердило, что чат-боты обходят свои протоколы безопасности, особенно в ходе многоэтапных диалогов. В США национальная линия помощи при суицидальных и кризисных состояниях доступна по номеру 988.
Могут ли протоколы безопасности ИИ защитить от смертельно опасной информации?
Изображение носит иллюстративный характер

Исследование, опубликованное 26 августа в журнале Psychiatric Services, проанализировало три ведущих чат-бота: ChatGPT от OpenAI (модель GPT-4o mini), Gemini от Google (Gemini 1.5 Pro) и Claude от Anthropic (Claude 3.5 Sonnet). Исследователи создали 30 гипотетических запросов, связанных с суицидом, которые 13 клинических экспертов классифицировали по пяти уровням риска самоповреждения. Каждый запрос был подан чат-ботам 100 раз в течение 2024 года.

Результаты исследования показали, что ChatGPT чаще всего давал прямые ответы на вопросы высокого риска — в 78% случаев. Claude отвечал на такие запросы в 69% случаев, а Gemini оказался самым осторожным, ответив лишь в 20% случаев. Особую озабоченность вызвала тенденция ChatGPT и Claude генерировать прямые ответы на вопросы, связанные с летальностью. Однако в рамках этого исследования ни один чат-бот не ответил на запросы очень высокого риска.

Однако последующее независимое тестирование Live Science выявило более серьезную проблему. В отличие от исследования, в ходе тестирования и ChatGPT (модель GPT-4), и Gemini (модель 2.5 Flash) ответили по крайней мере на один вопрос очень высокого риска, предоставив информацию о повышении летальности. Gemini сделал это, даже не предложив контакты служб поддержки. Ответы ChatGPT были более конкретными и содержали ключевые детали.

Уязвимость систем безопасности проявилась в так называемой «разговорной лазейке». ChatGPT предоставил подробный ответ на запрос очень высокого риска только после того, как ему были заданы два вопроса высокого риска. Хотя система пометила вопрос как нарушение политики, она все равно сгенерировала детальный ответ и только после этого предложила обратиться в службу поддержки. Это указывает на то, что протоколы безопасности неэффективны в динамике диалога.

Тестирование показало, что проблема сохраняется и в новейших моделях. Версия ChatGPT для зарегистрированных пользователей, работающая на GPT-5, также давала прямые ответы на вопросы высокого и очень высокого риска, хотя и проявляла большую осторожность. Обычные поисковые системы, такие как Microsoft Bing, могут предоставлять схожую информацию, но она не всегда оказывается столь же легкодоступной и прямолинейно изложенной.

Реакция компаний на эти выводы была сдержанной. Представитель OpenAI направил Live Science к сообщению в блоге компании от 26 августа, где признавалось, что системы «не всегда вели себя так, как предполагалось в деликатных ситуациях». Компания заявила о планируемых улучшениях и отметила, что ее последняя модель, GPT-5, демонстрирует прогресс в сокращении «неидеальных» ответов. Публично доступная веб-версия ChatGPT по-прежнему работает на GPT-4.

Представитель Google Gemini заявил, что у компании «есть инструкции, которые помогают обеспечить безопасность пользователей», и что их модели «обучены распознавать и реагировать на паттерны, указывающие на суицид и риски самоповреждения». Он сослался на выводы исследования о том, что Gemini реже давал прямые ответы, но не прокомментировал факт получения Live Science ответа на вопрос очень высокого риска. Компания Anthropic, создатель Claude, не ответила на запрос о комментарии.

Остроту проблемы подчеркивает тот факт, что в день публикации исследования против OpenAI и ее генерального директора Сэма Альтмана был подан иск в связи с предполагаемой ролью ChatGPT в самоубийстве подростка. Это переводит технологические уязвимости в плоскость юридической и этической ответственности.

Райан МакБейн, ведущий автор исследования, старший научный сотрудник корпорации RAND и доцент Гарвардской медицинской школы, объясняет расхождение между результатами исследования и тестами Live Science динамикой взаимодействия. Исследование тестировало одиночные запросы «в вакууме», в то время как реальное использование включает многоэтапные беседы. «Я могу провести чат-бота по определённой линии мысли... выманить дополнительную информацию», — отмечает МакБейн.

По словам МакБейна, пользователи могут развивать с чат-ботами чувство «анонимности, близости и связанности», что побуждает их обращаться к технологии для решения сложных эмоциональных и социальных проблем. Это значительно повышает ставки и требует более надежных мер безопасности. Цель его исследовательской группы — предложить прозрачный, стандартизированный эталон безопасности для чат-ботов, который можно будет тестировать независимо. Следующим шагом станет изучение более динамичных, многоэтапных взаимодействий.


Новое на сайте

18327Как чужой страх проникает в наш мозг и тело? 18326Факс-революция Royal Caribbean: как выслушать партнера и изменить бизнес 18325Геологический молот Чарльза Дарвина 18324Доступ к эксклюзиву: новая ловушка для розничного инвестора 18323Может ли антивирус стать идеальным прикрытием для кибершпионажа? 18322Хранят ли два священных острова в ядовито-зеленом озере мумии древних императоров? 18321Что может рассказать пепел сгоревшей таверны XIX века? 18320Возможно ли создать универсальный донорский орган, изменив его группу крови? 18319Какие пять уязвимостей от Oracle до Apple стали оружием в руках хакеров? 18318Что может рассказать забытый соперник Рима о его истинном облике? 18317Почему оптическая иллюзия обманывает рыб, но не горлиц? 18316Эффект домино в облаке: как один сбой Amazon парализовал интернет 18315Непреодолимый энергетический барьер человеческого тела 18314Воздушный перегон в Бэдлендс: как вертолеты сохраняют популяцию бизонов 18313Бразильская спам-империя в магазине Google Chrome