Действительно ли чат-боты упрощают науку до опасной дезинформации?

Новое исследование, опубликованное 30 апреля в журнале Royal Society Open Science, показывает, что большие языковые модели (LLM) в пять раз чаще, чем эксперты-люди, чрезмерно упрощают и обобщают научные выводы. Ведущий автор работы Уве Петерс, постдокторант из Боннского университета в Германии, и его команда проанализировали 4900 резюме научных статей, чтобы оценить, как чат-боты изменяют смысл первоисточников.
Действительно ли чат-боты упрощают науку до опасной дезинформации?
Изображение носит иллюстративный характер

В ходе исследования были протестированы 10 популярных версий языковых моделей, включая четыре версии ChatGPT, три версии Claude, две Llama и одну DeepSeek. Ученые задавались тремя ключевыми вопросами: обобщают ли LLM выводы чрезмерно, уменьшается ли это обобщение при запросе на «более точное» резюме и делают ли они это чаще, чем люди.

Результаты выявили тревожную тенденцию. При прямом запросе на создание «точного» резюме чат-боты в два раза чаще допускали чрезмерное обобщение, чем при стандартном запросе. Это создает парадокс: стремление к точности провоцирует модель на создание более широких, но менее корректных утверждений.

Исследование также показало, что новые версии LLM склонны к искажениям в большей степени, чем их предшественники. Если старые модели часто уклонялись от ответа на сложные вопросы, то современные чат-боты генерируют «вводящие в заблуждение авторитетные, но ошибочные ответы», вместо того чтобы признать нехватку данных. Единственным исключением стали модели Claude, которые показали высокие результаты по всем критериям тестирования.

Наиболее распространенной ошибкой оказалась трансформация количественных данных в общую, неспецифическую информацию. Модели систематически опускали конкретные дозировки, статистические показатели и другие числовые значения, заменяя их обобщенными формулировками, что кардинально меняло суть научного вывода.

Примером такой опасной трансформации является работа модели DeepSeek. Оригинальная фраза из исследования, гласившая, что процедура «была безопасной и могла быть выполнена успешно» (констатация факта в прошлом), была преобразована чат-ботом в утверждение, что она «является безопасным и эффективным вариантом лечения» (общая медицинская рекомендация в настоящем времени).

Аналогичную ошибку допустила модель Llama при обработке данных о препарате для лечения диабета 2 типа. Чат-бот расширил область эффективности лекарства, полностью опустив критически важные детали о дозировке, частоте приема и специфических эффектах для молодых людей. Подобные искажения могут ввести в заблуждение медицинских работников и привести к назначению препаратов вне рамок их доказанной эффективности.

Уве Петерс предупреждает, что, хотя обобщение может показаться полезной функцией, оно изменяет смысл оригинального исследования. По его словам, существует «реальный риск крупномасштабного неверного толкования науки», особенно в условиях роста использования чат-ботов и снижения общественного доверия к научным институтам.

Макс Роллуэйдж, вице-президент по искусственному интеллекту и исследованиям в компании Limbic, занимающейся ИИ-технологиями для клинического психического здоровья, подтверждает, что обобщение со стороны LLM уже стало «рутинной частью рабочих процессов» в таких областях, как медицина. Он отмечает, что предвзятость моделей может проявляться в тонких формах, таких как «тихое раздувание масштаба утверждения». Для борьбы с этим Роллуэйдж предлагает разработчикам создавать «защитные механизмы рабочего процесса», которые будут выявлять чрезмерные упрощения и упущения.

Патриция Тейн, соучредитель и генеральный директор компании Private AI, видит корень проблемы в данных для обучения. Модели часто обучаются на упрощенной научной журналистике, а не на первичных научных источниках, из-за чего они наследуют и усиливают уже существующие упрощения. Тейн называет применение «моделей общего назначения в специализированных областях без надлежащего экспертного надзора» фундаментальным злоупотреблением технологией.

Эксперты отмечают, что у исследования есть ограничения. Будущие работы должны включать тестирование LLM на других научных задачах, анализировать тексты не только на английском языке и определять, какие типы научных утверждений наиболее уязвимы для искажения.

Эта проблема приобретает особую актуальность в свете соглашения, заключенного в декабре 2024 года между издательством Future Publishing и компанией OpenAI. В рамках сделки контент более чем 200 медиабрендов издательства будет интегрирован для


Новое на сайте

19209Как беспрецедентный бунт чернокожих женщин в суде Бостона разрушил планы рабовладельцев? 19208Как новые поколения троянов удаленного доступа захватывают системы ради кибершпионажа и... 19207Почему мировые киберпреступники захватили рекламные сети, и как Meta вместе с властями... 19206Как фальшивый пакет StripeApi.Net в NuGet Gallery незаметно похищал финансовые API-токены... 19205Зачем неизвестная группировка UAT-10027 внедряет бэкдор Dohdoor в системы образования и... 19204Ритуальный предсвадебный плач как форма протеста в традиционном Китае 19203Невидимая угроза в оперативной памяти: масштабная атака северокорейских хакеров на... 19202Как уязвимость нулевого дня в Cisco SD-WAN позволяет хакерам незаметно захватывать... 19201Как Google разрушил глобальную шпионскую сеть UNC2814, охватившую правительства 70 стран... 19200Как простое открытие репозитория в Claude Code позволяет хакерам получить полный контроль... 19199Зачем киберсиндикат SLH платит женщинам до 1000 долларов за один телефонный звонок в... 19198Устранение слепых зон SOC: переход к доказательной сортировке угроз для защиты бизнеса 19197Скрытые бэкдоры в цепочках поставок по: атаки через вредоносные пакеты NuGet и npm
Ссылка