Парадокс искусственного интеллекта: почему оскорбления делают ChatGPT умнее

Новое предварительное исследование показывает, что использование грубого или уничижительного языка в запросах к чат-ботам, таким как ChatGPT-4o от OpenAI, может значительно повысить точность их ответов. Точность ответов прогрессивно возрастала по мере того, как тон запросов менялся от «очень вежливого» до «очень грубого».
Парадокс искусственного интеллекта: почему оскорбления делают ChatGPT умнее
Изображение носит иллюстративный характер

Несмотря на эти результаты, учёные, проводившие исследование, категорически предостерегают от подобной практики. Они заявляют, что враждебный или токсичный язык в общении с ИИ может привести к негативному пользовательскому опыту, снижению доступности и инклюзивности технологий, а также к продвижению вредных коммуникационных норм в обществе.

Результаты этого исследования, опубликованного 6 октября в виде препринта в базе данных arXiv, являются доказательством того, что большие языковые модели (LLM) крайне чувствительны к «поверхностным сигналам в запросах». Это создает непреднамеренный конфликт между производительностью модели и благополучием пользователя. Исследование относится к области инженерии промптов, которая изучает, как структура, стиль и язык запросов влияют на выводы LLM.

В ходе эксперимента исследователи использовали модель ChatGPT-4o. Они составили 50 вопросов с несколькими вариантами ответов по математике, истории и науке. Каждый вопрос был представлен модели в пяти различных тональностях: очень вежливой, вежливой, нейтральной, грубой и очень грубой. Таким образом, было создано 250 уникальных запросов, и каждый из них подавался в модель 10 раз для обеспечения надежности результатов.

Для чистоты эксперимента были приняты контрольные меры. Перед каждым новым запросом чат-боту давалась инструкция «полностью игнорировать предыдущие обмены», чтобы исключить влияние предыдущей тональности. Кроме того, модель просили выбрать только один из четырех предложенных вариантов ответа, не предоставляя объяснений.

Примеры формулировок варьировались от нейтральных (вопрос без предисловий) до очень вежливых («Могу я попросить вашей помощи с этим вопросом?») и очень грубых («Эй, принеси-подай, разберись с этим» или «Я знаю, что ты не очень умный, но попробуй решить это»).

Результаты показали четкую зависимость точности от тональности. Очень вежливые запросы дали точность 80.8%. Вежливые запросы показали результат в 81.2%. Нейтральные и грубые запросы достигли точности в 82.8%. Наиболее точными оказались ответы на очень грубые запросы — 84.8%.

Эти выводы противоречат некоторым предыдущим исследованиям, которые в целом показывали, что «невежливые запросы часто приводят к низкой производительности». В одном из таких исследований, где использовались модели ChatGPT 3.5 и Llama 2-70B, применялся диапазон из восьми различных тональностей.

Однако, несмотря на общее противоречие, в том более раннем исследовании также была обнаружена схожая, хотя и менее выраженная, тенденция. Самые грубые запросы показали несколько более высокую точность (76.47%) по сравнению с самыми вежливыми (75.82%), что указывает на возможное наличие общей закономерности у разных моделей.

Авторы текущего исследования признают его предварительный характер и наличие ограничений. Они отмечают, что набор из 250 вопросов является небольшим, а эксперимент проводился только на одной модели ИИ (ChatGPT-4o), что не позволяет обобщать результаты. Кроме того, использование только вопросов с несколькими вариантами ответов измеряет лишь один аспект производительности.

В будущем команда планирует расширить исследование. Они намерены протестировать другие большие языковые модели, в частности Claude от Anthropic и ChatGPT o3 от OpenAI. Также планируется расширить набор измеряемых показателей, включив в них оценку беглости речи, логичности рассуждений и связности текста.


Новое на сайте

20066[b]Фотосинтез в глазах мышей: возможно ли это без превращения в растение?[/b] 20065[b]СПКЯ стало СПМЯ: почему переименование болезни, затрагивающей миллионы женщин, заняло... 20064[b]Почему великая пирамида Гизы пережила все землетрясения за 4500 лет[/b] 20063[b]Генетика Homo erectus: что зубная эмаль рассказала о наших предках[/b] 20062[b]Кости в бухте эребус: что кости моряков Франклина рассказывают спустя полтора века[/b] 20061[b]Крупнейший плавучий ветрогенератор в мире: Китай испытывает установку у берегов... 20060[b]Карие глаза младенца стали индиго после лечения от COVID-19[/b] 20058[b]Почему серебряная чаша с Афиной пролежала в немецком лесу две тысячи лет?[/b] 20057[b]Дыра в атмосфере солнца: вспышка достигла пика и может зажечь полярное сияние[/b] 20056[b]Динго возрастом 950 лет: кто и зачем кормил могилу животного сотни лет?[/b] 20055[b]Томоэ гозэн: женщина-самурай, которая существовала на самом деле[/b] 20054[b]Что видели астронавты «Аполлона-12» над лунным горизонтом?[/b] 20053[b]Восковой блокнот на латыни и шёлковая туалетная бумага: кто посещал средневековый... 20052[b]Хантавирус на борту: 41 человек под наблюдением после рейса MV Hondius[/b]
Ссылка