Новое исследование, опубликованное 30 апреля в журнале Royal Society Open Science, показывает, что большие языковые модели (LLM) в пять раз чаще, чем эксперты-люди, чрезмерно упрощают и обобщают научные выводы. Ведущий автор работы Уве Петерс, постдокторант из Боннского университета в Германии, и его команда проанализировали 4900 резюме научных статей, чтобы оценить, как чат-боты изменяют смысл первоисточников.

В ходе исследования были протестированы 10 популярных версий языковых моделей, включая четыре версии ChatGPT, три версии Claude, две Llama и одну DeepSeek. Ученые задавались тремя ключевыми вопросами: обобщают ли LLM выводы чрезмерно, уменьшается ли это обобщение при запросе на «более точное» резюме и делают ли они это чаще, чем люди.
Результаты выявили тревожную тенденцию. При прямом запросе на создание «точного» резюме чат-боты в два раза чаще допускали чрезмерное обобщение, чем при стандартном запросе. Это создает парадокс: стремление к точности провоцирует модель на создание более широких, но менее корректных утверждений.
Исследование также показало, что новые версии LLM склонны к искажениям в большей степени, чем их предшественники. Если старые модели часто уклонялись от ответа на сложные вопросы, то современные чат-боты генерируют «вводящие в заблуждение авторитетные, но ошибочные ответы», вместо того чтобы признать нехватку данных. Единственным исключением стали модели Claude, которые показали высокие результаты по всем критериям тестирования.
Наиболее распространенной ошибкой оказалась трансформация количественных данных в общую, неспецифическую информацию. Модели систематически опускали конкретные дозировки, статистические показатели и другие числовые значения, заменяя их обобщенными формулировками, что кардинально меняло суть научного вывода.
Примером такой опасной трансформации является работа модели DeepSeek. Оригинальная фраза из исследования, гласившая, что процедура «была безопасной и могла быть выполнена успешно» (констатация факта в прошлом), была преобразована чат-ботом в утверждение, что она «является безопасным и эффективным вариантом лечения» (общая медицинская рекомендация в настоящем времени).
Аналогичную ошибку допустила модель Llama при обработке данных о препарате для лечения диабета 2 типа. Чат-бот расширил область эффективности лекарства, полностью опустив критически важные детали о дозировке, частоте приема и специфических эффектах для молодых людей. Подобные искажения могут ввести в заблуждение медицинских работников и привести к назначению препаратов вне рамок их доказанной эффективности.
Уве Петерс предупреждает, что, хотя обобщение может показаться полезной функцией, оно изменяет смысл оригинального исследования. По его словам, существует «реальный риск крупномасштабного неверного толкования науки», особенно в условиях роста использования чат-ботов и снижения общественного доверия к научным институтам.
Макс Роллуэйдж, вице-президент по искусственному интеллекту и исследованиям в компании Limbic, занимающейся ИИ-технологиями для клинического психического здоровья, подтверждает, что обобщение со стороны LLM уже стало «рутинной частью рабочих процессов» в таких областях, как медицина. Он отмечает, что предвзятость моделей может проявляться в тонких формах, таких как «тихое раздувание масштаба утверждения». Для борьбы с этим Роллуэйдж предлагает разработчикам создавать «защитные механизмы рабочего процесса», которые будут выявлять чрезмерные упрощения и упущения.
Патриция Тейн, соучредитель и генеральный директор компании Private AI, видит корень проблемы в данных для обучения. Модели часто обучаются на упрощенной научной журналистике, а не на первичных научных источниках, из-за чего они наследуют и усиливают уже существующие упрощения. Тейн называет применение «моделей общего назначения в специализированных областях без надлежащего экспертного надзора» фундаментальным злоупотреблением технологией.
Эксперты отмечают, что у исследования есть ограничения. Будущие работы должны включать тестирование LLM на других научных задачах, анализировать тексты не только на английском языке и определять, какие типы научных утверждений наиболее уязвимы для искажения.
Эта проблема приобретает особую актуальность в свете соглашения, заключенного в декабре 2024 года между издательством Future Publishing и компанией OpenAI. В рамках сделки контент более чем 200 медиабрендов издательства будет интегрирован для

Изображение носит иллюстративный характер
В ходе исследования были протестированы 10 популярных версий языковых моделей, включая четыре версии ChatGPT, три версии Claude, две Llama и одну DeepSeek. Ученые задавались тремя ключевыми вопросами: обобщают ли LLM выводы чрезмерно, уменьшается ли это обобщение при запросе на «более точное» резюме и делают ли они это чаще, чем люди.
Результаты выявили тревожную тенденцию. При прямом запросе на создание «точного» резюме чат-боты в два раза чаще допускали чрезмерное обобщение, чем при стандартном запросе. Это создает парадокс: стремление к точности провоцирует модель на создание более широких, но менее корректных утверждений.
Исследование также показало, что новые версии LLM склонны к искажениям в большей степени, чем их предшественники. Если старые модели часто уклонялись от ответа на сложные вопросы, то современные чат-боты генерируют «вводящие в заблуждение авторитетные, но ошибочные ответы», вместо того чтобы признать нехватку данных. Единственным исключением стали модели Claude, которые показали высокие результаты по всем критериям тестирования.
Наиболее распространенной ошибкой оказалась трансформация количественных данных в общую, неспецифическую информацию. Модели систематически опускали конкретные дозировки, статистические показатели и другие числовые значения, заменяя их обобщенными формулировками, что кардинально меняло суть научного вывода.
Примером такой опасной трансформации является работа модели DeepSeek. Оригинальная фраза из исследования, гласившая, что процедура «была безопасной и могла быть выполнена успешно» (констатация факта в прошлом), была преобразована чат-ботом в утверждение, что она «является безопасным и эффективным вариантом лечения» (общая медицинская рекомендация в настоящем времени).
Аналогичную ошибку допустила модель Llama при обработке данных о препарате для лечения диабета 2 типа. Чат-бот расширил область эффективности лекарства, полностью опустив критически важные детали о дозировке, частоте приема и специфических эффектах для молодых людей. Подобные искажения могут ввести в заблуждение медицинских работников и привести к назначению препаратов вне рамок их доказанной эффективности.
Уве Петерс предупреждает, что, хотя обобщение может показаться полезной функцией, оно изменяет смысл оригинального исследования. По его словам, существует «реальный риск крупномасштабного неверного толкования науки», особенно в условиях роста использования чат-ботов и снижения общественного доверия к научным институтам.
Макс Роллуэйдж, вице-президент по искусственному интеллекту и исследованиям в компании Limbic, занимающейся ИИ-технологиями для клинического психического здоровья, подтверждает, что обобщение со стороны LLM уже стало «рутинной частью рабочих процессов» в таких областях, как медицина. Он отмечает, что предвзятость моделей может проявляться в тонких формах, таких как «тихое раздувание масштаба утверждения». Для борьбы с этим Роллуэйдж предлагает разработчикам создавать «защитные механизмы рабочего процесса», которые будут выявлять чрезмерные упрощения и упущения.
Патриция Тейн, соучредитель и генеральный директор компании Private AI, видит корень проблемы в данных для обучения. Модели часто обучаются на упрощенной научной журналистике, а не на первичных научных источниках, из-за чего они наследуют и усиливают уже существующие упрощения. Тейн называет применение «моделей общего назначения в специализированных областях без надлежащего экспертного надзора» фундаментальным злоупотреблением технологией.
Эксперты отмечают, что у исследования есть ограничения. Будущие работы должны включать тестирование LLM на других научных задачах, анализировать тексты не только на английском языке и определять, какие типы научных утверждений наиболее уязвимы для искажения.
Эта проблема приобретает особую актуальность в свете соглашения, заключенного в декабре 2024 года между издательством Future Publishing и компанией OpenAI. В рамках сделки контент более чем 200 медиабрендов издательства будет интегрирован для