Парадокс искусственного интеллекта: почему оскорбления делают ChatGPT умнее

Новое предварительное исследование показывает, что использование грубого или уничижительного языка в запросах к чат-ботам, таким как ChatGPT-4o от OpenAI, может значительно повысить точность их ответов. Точность ответов прогрессивно возрастала по мере того, как тон запросов менялся от «очень вежливого» до «очень грубого».
Парадокс искусственного интеллекта: почему оскорбления делают ChatGPT умнее
Изображение носит иллюстративный характер

Несмотря на эти результаты, учёные, проводившие исследование, категорически предостерегают от подобной практики. Они заявляют, что враждебный или токсичный язык в общении с ИИ может привести к негативному пользовательскому опыту, снижению доступности и инклюзивности технологий, а также к продвижению вредных коммуникационных норм в обществе.

Результаты этого исследования, опубликованного 6 октября в виде препринта в базе данных arXiv, являются доказательством того, что большие языковые модели (LLM) крайне чувствительны к «поверхностным сигналам в запросах». Это создает непреднамеренный конфликт между производительностью модели и благополучием пользователя. Исследование относится к области инженерии промптов, которая изучает, как структура, стиль и язык запросов влияют на выводы LLM.

В ходе эксперимента исследователи использовали модель ChatGPT-4o. Они составили 50 вопросов с несколькими вариантами ответов по математике, истории и науке. Каждый вопрос был представлен модели в пяти различных тональностях: очень вежливой, вежливой, нейтральной, грубой и очень грубой. Таким образом, было создано 250 уникальных запросов, и каждый из них подавался в модель 10 раз для обеспечения надежности результатов.

Для чистоты эксперимента были приняты контрольные меры. Перед каждым новым запросом чат-боту давалась инструкция «полностью игнорировать предыдущие обмены», чтобы исключить влияние предыдущей тональности. Кроме того, модель просили выбрать только один из четырех предложенных вариантов ответа, не предоставляя объяснений.

Примеры формулировок варьировались от нейтральных (вопрос без предисловий) до очень вежливых («Могу я попросить вашей помощи с этим вопросом?») и очень грубых («Эй, принеси-подай, разберись с этим» или «Я знаю, что ты не очень умный, но попробуй решить это»).

Результаты показали четкую зависимость точности от тональности. Очень вежливые запросы дали точность 80.8%. Вежливые запросы показали результат в 81.2%. Нейтральные и грубые запросы достигли точности в 82.8%. Наиболее точными оказались ответы на очень грубые запросы — 84.8%.

Эти выводы противоречат некоторым предыдущим исследованиям, которые в целом показывали, что «невежливые запросы часто приводят к низкой производительности». В одном из таких исследований, где использовались модели ChatGPT 3.5 и Llama 2-70B, применялся диапазон из восьми различных тональностей.

Однако, несмотря на общее противоречие, в том более раннем исследовании также была обнаружена схожая, хотя и менее выраженная, тенденция. Самые грубые запросы показали несколько более высокую точность (76.47%) по сравнению с самыми вежливыми (75.82%), что указывает на возможное наличие общей закономерности у разных моделей.

Авторы текущего исследования признают его предварительный характер и наличие ограничений. Они отмечают, что набор из 250 вопросов является небольшим, а эксперимент проводился только на одной модели ИИ (ChatGPT-4o), что не позволяет обобщать результаты. Кроме того, использование только вопросов с несколькими вариантами ответов измеряет лишь один аспект производительности.

В будущем команда планирует расширить исследование. Они намерены протестировать другие большие языковые модели, в частности Claude от Anthropic и ChatGPT o3 от OpenAI. Также планируется расширить набор измеряемых показателей, включив в них оценку беглости речи, логичности рассуждений и связности текста.


Новое на сайте

19905Зачем древние египтяне строили круглые храмы? 19904Планета, на которой вы живёте, но почти не знаете 19903Может ли анализ крови остановить рак печени ещё до его начала? 19902Кто такие GopherWhisper и зачем им монгольские чиновники? 19901«Вояджер-1» готовится к манёвру «большой взрыв»: NASA отключает приборы ради выживания 19900Почему вокруг Чатемских островов появилось светящееся кольцо из планктона? 19899Как взлом Vercel начался с Roblox-скрипта на чужом компьютере 19898Кто лежит в шотландских гробницах каменного века? 19897Почему две англосаксонские сестра и брат были похоронены в объятиях 1400 лет назад? 19896Гормон GDF15: найдена причина мучительного токсикоза у беременных 19895Почему хакеры Harvester прячут вредоносный код в папке «Zomato Pizza»? 19894Робот-гуманоид Panther от UniX AI претендует на место в каждом доме 19893Artemis застряла на земле: NASA не может лететь на луну без новых скафандров 19892Почему 20 000 промышленных устройств по всему миру оказались под угрозой взлома? 19891Зачем египетская мумия «проглотила» «Илиаду»?
Ссылка