Ssylka

Медицинский ИИ: рост технологий и недостаточная проверка

Искусственный интеллект интегрируется во множество сфер здравоохранения: скрининг рака молочной железы, ведение клинических записей, управление медицинскими страховками, виртуальное сопровождение пациентов и транскрипция бесед врача с пациентом. Компании уверяют, что эти инструменты повышают эффективность работы и снижают нагрузку на персонал, однако остаются вопросы реальной работоспособности систем.
Медицинский ИИ: рост технологий и недостаточная проверка
Изображение носит иллюстративный характер

Крупномасштабные языковые модели обучаются на обширных наборах данных для создания текстов, максимально приближённых к человеческому стилю. В большинстве случаев оценка их эффективности в медицине проводится через тестирование, аналогичное экзаменам медицинских студентов, таким как MCAT.

Лишь 5% исследований, посвящённых медицинским AI, используют данные реальных пациентов. Практически все тесты сосредоточены на проверке теоретических знаний, вместо того чтобы оценивать выполнение таких важных задач, как выписывание рецептов, суммирование консультаций или непосредственное общение с пациентами.

Дебора Раджи из Университета Калифорнии в Беркли отмечает, что существующие эталоны оценивания чрезмерно ориентированы на экзаменационные вопросы. «Эти тесты отвлекают и создают ложное чувство уверенности в клинических способностях системы», – считает она, подчёркивая, что такие подходы вовсе не отражают сложность реальных клинических условий и игнорируют вклад медсестёр и другого медицинского персонала.

Для улучшения оценки предлагается проведение интервью с экспертами отрасли, сбор естественных данных из пилотных испытаний и использование методов «red teaming», позволяющих выявить уязвимости системы при нестандартных запросах. Роксана Данешжу, соавтор исследований в этом направлении, подтверждает важность подобного подхода.

Получение данных об использовании ИИ в настоящих больничных условиях, включая анонимизированную информацию о пациентах, позволяет создать оценку, основанную на реальных наблюдениях, аналогичных методикам психологического анализа. Такой сбор данных способствует более точному определению эффективности инструментов в клиническом контексте.

Специализированные эталоны для суммирования врачебных записей и анализа загруженных данных принципиально отличаются от тестов, ориентированных на воспроизведение знаний. Усиление акцента на задачах, свойственных повседневной клинической практике, становится ключевым направлением для дальнейшего развития системы оценивания.

Рекомендуется повышение прозрачности в институциональных практиках: больницы должны создавать инвентари используемых AI-продуктов с подробным описанием рабочих процессов, а поставщики — делиться информацией о принятых стандартах тестирования. Такой обмен данными позволит выявить существующие пробелы в оценке эффективности технологий.

Оценка ИИ должна основываться на реалистичных сценариях, отражающих его непосредственную интеграцию в клиническую работу. Эти рекомендации были изложены в интервью, опубликованном в Science News, с дополнительными ссылками на февральский выпуск New England Journal of Medicine AI, что подчёркивает необходимость пересмотра текущих методов тестирования в пользу более строгих и практичных подходов.


Новое на сайте

18663Масштабная кампания ShadyPanda заразила миллионы браузеров через официальные обновления 18662Как помидорные бои и персонажи Pixar помогают лидерам превратить корпоративную культуру 18661Как астероид 2024 YR4 стал первой исторической проверкой системы планетарной защиты и... 18660Агентные ИИ-браузеры как троянский конь новой эры кибербезопасности 18659Многовековая история изучения приливов от античных гипотез до синтеза Исаака Ньютона 18658Как выглядела защита от солнца римских легионеров в Египте 1600 лет назад? 18657Хакеры ToddyCat обновили арсенал для тотального взлома Outlook и Microsoft 365 18656Асимметрия безопасности: почему многомиллионные вложения в инструменты детекции не... 18655Как безопасно использовать репозитории Chocolatey и Winget, не подвергая инфраструктуру... 18654Масштабная утечка конфиденциальных данных через популярные онлайн-форматеры кода 18653Как расширение списка жертв взлома Gainsight связано с запуском вымогателя ShinySp1d3r 18652Как расширение Crypto Copilot незаметно похищает средства пользователей Solana на... 18651Как обновление политик безопасности Microsoft Entra ID в 2026 году искоренит атаки 18650Архитектурная уязвимость Microsoft Teams позволяет хакерам отключать защиту Defender 18649Вторая волна червеобразной атаки Shai-Hulud прорвала защиту экосистем npm и Maven