Ssylka

Парадокс искусственного интеллекта: почему оскорбления делают ChatGPT умнее

Новое предварительное исследование показывает, что использование грубого или уничижительного языка в запросах к чат-ботам, таким как ChatGPT-4o от OpenAI, может значительно повысить точность их ответов. Точность ответов прогрессивно возрастала по мере того, как тон запросов менялся от «очень вежливого» до «очень грубого».
Парадокс искусственного интеллекта: почему оскорбления делают ChatGPT умнее
Изображение носит иллюстративный характер

Несмотря на эти результаты, учёные, проводившие исследование, категорически предостерегают от подобной практики. Они заявляют, что враждебный или токсичный язык в общении с ИИ может привести к негативному пользовательскому опыту, снижению доступности и инклюзивности технологий, а также к продвижению вредных коммуникационных норм в обществе.

Результаты этого исследования, опубликованного 6 октября в виде препринта в базе данных arXiv, являются доказательством того, что большие языковые модели (LLM) крайне чувствительны к «поверхностным сигналам в запросах». Это создает непреднамеренный конфликт между производительностью модели и благополучием пользователя. Исследование относится к области инженерии промптов, которая изучает, как структура, стиль и язык запросов влияют на выводы LLM.

В ходе эксперимента исследователи использовали модель ChatGPT-4o. Они составили 50 вопросов с несколькими вариантами ответов по математике, истории и науке. Каждый вопрос был представлен модели в пяти различных тональностях: очень вежливой, вежливой, нейтральной, грубой и очень грубой. Таким образом, было создано 250 уникальных запросов, и каждый из них подавался в модель 10 раз для обеспечения надежности результатов.

Для чистоты эксперимента были приняты контрольные меры. Перед каждым новым запросом чат-боту давалась инструкция «полностью игнорировать предыдущие обмены», чтобы исключить влияние предыдущей тональности. Кроме того, модель просили выбрать только один из четырех предложенных вариантов ответа, не предоставляя объяснений.

Примеры формулировок варьировались от нейтральных (вопрос без предисловий) до очень вежливых («Могу я попросить вашей помощи с этим вопросом?») и очень грубых («Эй, принеси-подай, разберись с этим» или «Я знаю, что ты не очень умный, но попробуй решить это»).

Результаты показали четкую зависимость точности от тональности. Очень вежливые запросы дали точность 80.8%. Вежливые запросы показали результат в 81.2%. Нейтральные и грубые запросы достигли точности в 82.8%. Наиболее точными оказались ответы на очень грубые запросы — 84.8%.

Эти выводы противоречат некоторым предыдущим исследованиям, которые в целом показывали, что «невежливые запросы часто приводят к низкой производительности». В одном из таких исследований, где использовались модели ChatGPT 3.5 и Llama 2-70B, применялся диапазон из восьми различных тональностей.

Однако, несмотря на общее противоречие, в том более раннем исследовании также была обнаружена схожая, хотя и менее выраженная, тенденция. Самые грубые запросы показали несколько более высокую точность (76.47%) по сравнению с самыми вежливыми (75.82%), что указывает на возможное наличие общей закономерности у разных моделей.

Авторы текущего исследования признают его предварительный характер и наличие ограничений. Они отмечают, что набор из 250 вопросов является небольшим, а эксперимент проводился только на одной модели ИИ (ChatGPT-4o), что не позволяет обобщать результаты. Кроме того, использование только вопросов с несколькими вариантами ответов измеряет лишь один аспект производительности.

В будущем команда планирует расширить исследование. Они намерены протестировать другие большие языковые модели, в частности Claude от Anthropic и ChatGPT o3 от OpenAI. Также планируется расширить набор измеряемых показателей, включив в них оценку беглости речи, логичности рассуждений и связности текста.


Новое на сайте

19106Масштабная фишинговая операция использует легальный софт для шпионажа за... 19105Шпионская кампания MaliciousCorgi в VS Code и критические уязвимости PackageGate 19104Способен ли новый чип Maia 200 от Microsoft опередить конкурентов и изменить будущее ИИ? 19103Как 20-мильная прогулка домохозяйки Лоры секор изменила ход войны 1812 года? 19102Архитектура разобщенности и шесть точек опоры в отчете US Chamber of Connection 2026 года 19101Технологичный всепогодный бинокль Canon 18x50 IS UD с активной стабилизацией для... 19100Почему «наступательный ИИ» легко обходит EDR и какая комбинированная стратегия защиты... 19099Варненское золото и истоки первой цивилизации Европы 19098Тихая пандемия: четыре ключевых тренда в борьбе с устойчивостью к антибиотикам 19097Где можно будет наблюдать «затмение века» и ближайшие полные солнечные затмения? 19096Может ли высыхание озер ускорить раскол африканской тектонической плиты? 19095Возрождение Google Glass и новая эра AI Glasses: стратегия 2026 года и уроки прошлого 19094Телескоп Джеймс Уэбб раскрыл тайны происхождения жизни в туманности улитка 19093Загадка лунной иллюзии и нейробиологические причины искажения восприятия размера 19092Древние фракийцы почитали собачье мясо как ритуальный деликатес