Действительно ли чат-боты упрощают науку до опасной дезинформации?

Новое исследование, опубликованное 30 апреля в журнале Royal Society Open Science, показывает, что большие языковые модели (LLM) в пять раз чаще, чем эксперты-люди, чрезмерно упрощают и обобщают научные выводы. Ведущий автор работы Уве Петерс, постдокторант из Боннского университета в Германии, и его команда проанализировали 4900 резюме научных статей, чтобы оценить, как чат-боты изменяют смысл первоисточников.
Действительно ли чат-боты упрощают науку до опасной дезинформации?
Изображение носит иллюстративный характер

В ходе исследования были протестированы 10 популярных версий языковых моделей, включая четыре версии ChatGPT, три версии Claude, две Llama и одну DeepSeek. Ученые задавались тремя ключевыми вопросами: обобщают ли LLM выводы чрезмерно, уменьшается ли это обобщение при запросе на «более точное» резюме и делают ли они это чаще, чем люди.

Результаты выявили тревожную тенденцию. При прямом запросе на создание «точного» резюме чат-боты в два раза чаще допускали чрезмерное обобщение, чем при стандартном запросе. Это создает парадокс: стремление к точности провоцирует модель на создание более широких, но менее корректных утверждений.

Исследование также показало, что новые версии LLM склонны к искажениям в большей степени, чем их предшественники. Если старые модели часто уклонялись от ответа на сложные вопросы, то современные чат-боты генерируют «вводящие в заблуждение авторитетные, но ошибочные ответы», вместо того чтобы признать нехватку данных. Единственным исключением стали модели Claude, которые показали высокие результаты по всем критериям тестирования.

Наиболее распространенной ошибкой оказалась трансформация количественных данных в общую, неспецифическую информацию. Модели систематически опускали конкретные дозировки, статистические показатели и другие числовые значения, заменяя их обобщенными формулировками, что кардинально меняло суть научного вывода.

Примером такой опасной трансформации является работа модели DeepSeek. Оригинальная фраза из исследования, гласившая, что процедура «была безопасной и могла быть выполнена успешно» (констатация факта в прошлом), была преобразована чат-ботом в утверждение, что она «является безопасным и эффективным вариантом лечения» (общая медицинская рекомендация в настоящем времени).

Аналогичную ошибку допустила модель Llama при обработке данных о препарате для лечения диабета 2 типа. Чат-бот расширил область эффективности лекарства, полностью опустив критически важные детали о дозировке, частоте приема и специфических эффектах для молодых людей. Подобные искажения могут ввести в заблуждение медицинских работников и привести к назначению препаратов вне рамок их доказанной эффективности.

Уве Петерс предупреждает, что, хотя обобщение может показаться полезной функцией, оно изменяет смысл оригинального исследования. По его словам, существует «реальный риск крупномасштабного неверного толкования науки», особенно в условиях роста использования чат-ботов и снижения общественного доверия к научным институтам.

Макс Роллуэйдж, вице-президент по искусственному интеллекту и исследованиям в компании Limbic, занимающейся ИИ-технологиями для клинического психического здоровья, подтверждает, что обобщение со стороны LLM уже стало «рутинной частью рабочих процессов» в таких областях, как медицина. Он отмечает, что предвзятость моделей может проявляться в тонких формах, таких как «тихое раздувание масштаба утверждения». Для борьбы с этим Роллуэйдж предлагает разработчикам создавать «защитные механизмы рабочего процесса», которые будут выявлять чрезмерные упрощения и упущения.

Патриция Тейн, соучредитель и генеральный директор компании Private AI, видит корень проблемы в данных для обучения. Модели часто обучаются на упрощенной научной журналистике, а не на первичных научных источниках, из-за чего они наследуют и усиливают уже существующие упрощения. Тейн называет применение «моделей общего назначения в специализированных областях без надлежащего экспертного надзора» фундаментальным злоупотреблением технологией.

Эксперты отмечают, что у исследования есть ограничения. Будущие работы должны включать тестирование LLM на других научных задачах, анализировать тексты не только на английском языке и определять, какие типы научных утверждений наиболее уязвимы для искажения.

Эта проблема приобретает особую актуальность в свете соглашения, заключенного в декабре 2024 года между издательством Future Publishing и компанией OpenAI. В рамках сделки контент более чем 200 медиабрендов издательства будет интегрирован для


Новое на сайте

19521Банковский троян VENON на Rust атакует Бразилию с помощью девяти техник обхода защиты 19520Бонобо агрессивны не меньше шимпанзе, но всё решают самки 19519Почему 600-килограммовый зонд NASA падает на Землю из-за солнечной активности? 19518«Липовый календарь»: как расписание превращает работников в расходный материал 19517Вредоносные Rust-пакеты и ИИ-бот крадут секреты разработчиков через CI/CD-пайплайны 19516Как хакеры за 72 часа превратили npm-пакет в ключ от целого облака AWS 19515Как WebDAV-диск и поддельная капча помогают обойти антивирус? 19514Могут ли простые числа скрываться внутри чёрных дыр? 19513Метеорит пробил крышу дома в Германии — откуда взялся огненный шар над Европой? 19512Уязвимости LeakyLooker в Google Looker Studio открывали доступ к чужим базам данных 19511Почему тысячи серверов оказываются открытой дверью для хакеров, хотя могли бы ею не быть? 19510Как исследователи за четыре минуты заставили ИИ-браузер Perplexity Comet попасться на... 19509Может ли женщина без влагалища и шейки матки зачать ребёнка естественным путём? 19508Зачем учёные из Вены создали QR-код, который невозможно увидеть без электронного... 19507Девять уязвимостей CrackArmor позволяют получить root-доступ через модуль безопасности...
Ссылка