Почему защита самих моделей ИИ становится бессмысленной, если уязвимыми остаются рабочие процессы вокруг них?

Службы безопасности совершают критическую ошибку, сосредотачивая усилия на защите исключительно моделей искусственного интеллекта, в то время как реальная угроза сместилась в плоскость рабочих процессов. По мере того как ИИ внедряется в бизнес-процессы — от составления черновиков до извлечения данных, — целью злоумышленников становится не сам алгоритм, а контекст, в котором он функционирует. Вектор атак теперь направлен на манипуляцию каналами связи и окружением, поскольку современные нейросети не имеют встроенной концепции границ доверия и полагаются на вероятностное принятие решений, а не на жестко заданные правила.
Почему защита самих моделей ИИ становится бессмысленной, если уязвимыми остаются рабочие процессы вокруг них?

Почему защита самих моделей ИИ становится бессмысленной, если уязвимыми остаются рабочие процессы вокруг них?

Изображение носит иллюстративный характер

Ярким подтверждением этой уязвимости стал инцидент с двумя расширениями для браузера Chrome, которые позиционировались как «ИИ-помощники». Эти инструменты были уличены в краже данных из чатов, при этом сам алгоритм взломан не был. В результате действий злоумышленников пострадали более 900 000 пользователей, а конфиденциальная информация была похищена из систем ChatGPT и DeepSeek. Атака осуществлялась путем перехвата данных в рамках рабочего процесса, не затрагивая защитные механизмы самих языковых моделей.

Другой показательный случай продемонстрировали исследователи, атаковавшие ассистента по написанию кода от IBM. Используя инъекции промптов, скрытые в репозиториях кода, они смогли обмануть искусственный интеллект. В итоге ИИ-ассистент выполнил вредоносное программное обеспечение непосредственно на машине разработчика. Это доказывает, что поверхностью атаки становится любая точка интеграции, входные или выходные данные, а не только исходный код самой нейросети.

Традиционные средства защиты, созданные для детерминированного программного обеспечения, оказываются бессильными перед новой угрозой из-за специфики использования ИИ. Например, системы валидации входных данных, которые раньше различали доверенный код и ненадежный ввод, теперь сталкиваются с тем, что для ИИ все является текстом. Вредоносные инструкции в PDF-файле воспринимаются системой так же, как и легитимные команды на естественном языке. Старый подход к мониторингу, отслеживающий массовые загрузки, также дает сбой: когда ИИ читает 1000 записей для создания сводки, это выглядит как нормальный межсервисный трафик, даже если на самом деле происходит экфильтрация данных.

Проблемы возникают и с применением политик безопасности. Статические правила «разрешить/блокировать», привязанные к пользователям или серверам, не работают в контекстно-зависимой среде. Крайне сложно прописать жесткое правило, запрещающее раскрывать данные клиента в выходных данных, так как это зависит от содержания запроса. Кроме того, традиционные проверки безопасности, такие как ежеквартальные аудиты, слишком медлительны для динамично меняющихся рабочих процессов ИИ, где постоянно появляются новые интеграции и источники данных.

В современном ландшафте угроз, где ИИ связывает приложения, например, извлекая конфиденциальные документы из SharePoint для резюмирования в электронной почте или перекрестно проверяя записи во внутренней CRM, защищать необходимо именно рабочий процесс. Решение требует обеспечения полной видимости использования как официальных инструментов, вроде Microsoft 365 Copilot, так и «теневого ИИ» в виде сторонних расширений. Агенты ИИ должны рассматриваться как пользователи: их OAuth-токены необходимо ограничивать минимальными привилегиями, а любые аномалии доступа к новым источникам данных — тщательно отслеживать.

Эффективная стратегия защиты подразумевает внедрение промежуточного слоя безопасности (guardrails), который проверяет выходные данные на наличие чувствительной информации до того, как они покинут защищенный периметр. Также необходимо ограничивать действия систем, например, блокировать отправку внешних писем для внутренних суммаризаторов. Образовательный аспект также критичен: пользователей нужно предупреждать об опасности копирования промптов из неизвестных источников и тщательно проверять сторонние плагины.

На рынке уже появляются специализированные решения для динамической защиты SaaS-платформ, такие как Reco. Этот инструмент действует как слой ограждений в реальном времени, изучая нормальное поведение для выявления аномалий. В функционал Reco включено обнаружение приложений генеративного ИИ (как показано на Рисунке 1 в исходных материалах), что позволяет выявлять подключенные приложения, принудительно применять защитные меры на уровне рабочих процессов и фиксировать рискованное поведение в момент его возникновения.

Источник: The Hacker News

Почему защита самих моделей ИИ становится бессмысленной, если уязвимыми остаются рабочие процессы вокруг них?

Новое на сайте