Медицинский ИИ: рост технологий и недостаточная проверка

Искусственный интеллект интегрируется во множество сфер здравоохранения: скрининг рака молочной железы, ведение клинических записей, управление медицинскими страховками, виртуальное сопровождение пациентов и транскрипция бесед врача с пациентом. Компании уверяют, что эти инструменты повышают эффективность работы и снижают нагрузку на персонал, однако остаются вопросы реальной работоспособности систем.
Медицинский ИИ: рост технологий и недостаточная проверка
Изображение носит иллюстративный характер

Крупномасштабные языковые модели обучаются на обширных наборах данных для создания текстов, максимально приближённых к человеческому стилю. В большинстве случаев оценка их эффективности в медицине проводится через тестирование, аналогичное экзаменам медицинских студентов, таким как MCAT.

Лишь 5% исследований, посвящённых медицинским AI, используют данные реальных пациентов. Практически все тесты сосредоточены на проверке теоретических знаний, вместо того чтобы оценивать выполнение таких важных задач, как выписывание рецептов, суммирование консультаций или непосредственное общение с пациентами.

Дебора Раджи из Университета Калифорнии в Беркли отмечает, что существующие эталоны оценивания чрезмерно ориентированы на экзаменационные вопросы. «Эти тесты отвлекают и создают ложное чувство уверенности в клинических способностях системы», – считает она, подчёркивая, что такие подходы вовсе не отражают сложность реальных клинических условий и игнорируют вклад медсестёр и другого медицинского персонала.

Для улучшения оценки предлагается проведение интервью с экспертами отрасли, сбор естественных данных из пилотных испытаний и использование методов «red teaming», позволяющих выявить уязвимости системы при нестандартных запросах. Роксана Данешжу, соавтор исследований в этом направлении, подтверждает важность подобного подхода.

Получение данных об использовании ИИ в настоящих больничных условиях, включая анонимизированную информацию о пациентах, позволяет создать оценку, основанную на реальных наблюдениях, аналогичных методикам психологического анализа. Такой сбор данных способствует более точному определению эффективности инструментов в клиническом контексте.

Специализированные эталоны для суммирования врачебных записей и анализа загруженных данных принципиально отличаются от тестов, ориентированных на воспроизведение знаний. Усиление акцента на задачах, свойственных повседневной клинической практике, становится ключевым направлением для дальнейшего развития системы оценивания.

Рекомендуется повышение прозрачности в институциональных практиках: больницы должны создавать инвентари используемых AI-продуктов с подробным описанием рабочих процессов, а поставщики — делиться информацией о принятых стандартах тестирования. Такой обмен данными позволит выявить существующие пробелы в оценке эффективности технологий.

Оценка ИИ должна основываться на реалистичных сценариях, отражающих его непосредственную интеграцию в клиническую работу. Эти рекомендации были изложены в интервью, опубликованном в Science News, с дополнительными ссылками на февральский выпуск New England Journal of Medicine AI, что подчёркивает необходимость пересмотра текущих методов тестирования в пользу более строгих и практичных подходов.


Новое на сайте

19164Уязвимые обучающие приложения открывают доступ к облакам Fortune 500 для криптомайнинга 19163Почему ботнет SSHStalker успешно атакует Linux уязвимостями десятилетней давности? 19162Microsoft устранила шесть уязвимостей нулевого дня и анонсировала радикальные изменения в... 19161Эскалация цифровой угрозы: как IT-специалисты КНДР используют реальные личности для... 19160Скрытые потребности клиентов и преимущество наблюдения над опросами 19159Академическое фиаско Дороти Паркер в Лос-Анджелесе 19158Китайский шпионский фреймворк DKnife захватывает роутеры с 2019 года 19157Каким образом корейские детские хоры 1950-х годов превратили геополитику в музыку и... 19156Научная революция цвета в женской моде викторианской эпохи 19155Как новый сканер Microsoft обнаруживает «спящих агентов» в открытых моделях ИИ? 19154Как новая кампания DEADVAX использует файлы VHD для скрытой доставки трояна AsyncRAT? 19153Как новые китайские киберкампании взламывают госструктуры Юго-Восточной Азии? 19152Культ священного манго и закат эпохи хунвейбинов в маоистском Китае 19151Готовы ли вы к эре коэффициента адаптивности, когда IQ и EQ больше не гарантируют успех? 19150Иранская группировка RedKitten применяет сгенерированный нейросетями код для кибершпионажа
Ссылка