Медицинский ИИ: рост технологий и недостаточная проверка

Искусственный интеллект интегрируется во множество сфер здравоохранения: скрининг рака молочной железы, ведение клинических записей, управление медицинскими страховками, виртуальное сопровождение пациентов и транскрипция бесед врача с пациентом. Компании уверяют, что эти инструменты повышают эффективность работы и снижают нагрузку на персонал, однако остаются вопросы реальной работоспособности систем.
Медицинский ИИ: рост технологий и недостаточная проверка
Изображение носит иллюстративный характер

Крупномасштабные языковые модели обучаются на обширных наборах данных для создания текстов, максимально приближённых к человеческому стилю. В большинстве случаев оценка их эффективности в медицине проводится через тестирование, аналогичное экзаменам медицинских студентов, таким как MCAT.

Лишь 5% исследований, посвящённых медицинским AI, используют данные реальных пациентов. Практически все тесты сосредоточены на проверке теоретических знаний, вместо того чтобы оценивать выполнение таких важных задач, как выписывание рецептов, суммирование консультаций или непосредственное общение с пациентами.

Дебора Раджи из Университета Калифорнии в Беркли отмечает, что существующие эталоны оценивания чрезмерно ориентированы на экзаменационные вопросы. «Эти тесты отвлекают и создают ложное чувство уверенности в клинических способностях системы», – считает она, подчёркивая, что такие подходы вовсе не отражают сложность реальных клинических условий и игнорируют вклад медсестёр и другого медицинского персонала.

Для улучшения оценки предлагается проведение интервью с экспертами отрасли, сбор естественных данных из пилотных испытаний и использование методов «red teaming», позволяющих выявить уязвимости системы при нестандартных запросах. Роксана Данешжу, соавтор исследований в этом направлении, подтверждает важность подобного подхода.

Получение данных об использовании ИИ в настоящих больничных условиях, включая анонимизированную информацию о пациентах, позволяет создать оценку, основанную на реальных наблюдениях, аналогичных методикам психологического анализа. Такой сбор данных способствует более точному определению эффективности инструментов в клиническом контексте.

Специализированные эталоны для суммирования врачебных записей и анализа загруженных данных принципиально отличаются от тестов, ориентированных на воспроизведение знаний. Усиление акцента на задачах, свойственных повседневной клинической практике, становится ключевым направлением для дальнейшего развития системы оценивания.

Рекомендуется повышение прозрачности в институциональных практиках: больницы должны создавать инвентари используемых AI-продуктов с подробным описанием рабочих процессов, а поставщики — делиться информацией о принятых стандартах тестирования. Такой обмен данными позволит выявить существующие пробелы в оценке эффективности технологий.

Оценка ИИ должна основываться на реалистичных сценариях, отражающих его непосредственную интеграцию в клиническую работу. Эти рекомендации были изложены в интервью, опубликованном в Science News, с дополнительными ссылками на февральский выпуск New England Journal of Medicine AI, что подчёркивает необходимость пересмотра текущих методов тестирования в пользу более строгих и практичных подходов.


Новое на сайте

19209Как беспрецедентный бунт чернокожих женщин в суде Бостона разрушил планы рабовладельцев? 19208Как новые поколения троянов удаленного доступа захватывают системы ради кибершпионажа и... 19207Почему мировые киберпреступники захватили рекламные сети, и как Meta вместе с властями... 19206Как фальшивый пакет StripeApi.Net в NuGet Gallery незаметно похищал финансовые API-токены... 19205Зачем неизвестная группировка UAT-10027 внедряет бэкдор Dohdoor в системы образования и... 19204Ритуальный предсвадебный плач как форма протеста в традиционном Китае 19203Невидимая угроза в оперативной памяти: масштабная атака северокорейских хакеров на... 19202Как уязвимость нулевого дня в Cisco SD-WAN позволяет хакерам незаметно захватывать... 19201Как Google разрушил глобальную шпионскую сеть UNC2814, охватившую правительства 70 стран... 19200Как простое открытие репозитория в Claude Code позволяет хакерам получить полный контроль... 19199Зачем киберсиндикат SLH платит женщинам до 1000 долларов за один телефонный звонок в... 19198Устранение слепых зон SOC: переход к доказательной сортировке угроз для защиты бизнеса 19197Скрытые бэкдоры в цепочках поставок по: атаки через вредоносные пакеты NuGet и npm 19196Как абсолютная самоотдача, отказ от эго и физиологическое переосмысление тревоги помогают... 19195Отказ от стратегии гладиаторов как главный драйвер экспоненциального роста корпораций
Ссылка