Ssylka

Угрозы безопасности больших языковых моделей: дипфейки и манипуляции с данными

Дипфейки, включая подмену голоса и генерацию фейковых научных статей, и манипуляции с данными, такие как создание несуществующих спикеров на конференциях, являются основными угрозами в области безопасности больших языковых моделей.
Угрозы безопасности больших языковых моделей: дипфейки и манипуляции с данными
Изображение носит иллюстративный характер

Безопасность ИИ разделяется на AI Safety и AI Security. AI Safety нацелен на предотвращение вредоносных или непредсказуемых действий ИИ, включая вопросы дискриминации и цензуры. Модели обучают на refusal training, чтобы они не давали вредные советы и генерировали опасный контент. Но если модель дообучить, она может начать давать неверные ответы и генерировать вредный контент. AI Security сосредоточен на защите ИИ-систем, данных и инфраструктуры от злоумышленников, включая использование ИИ для фишинга или утечку данных из-за использования ИИ-моделей сотрудниками.

Существуют различные бенчмарки и фреймворки безопасности для ИИ, включая корпоративные классификаторы, отчеты о безопасности от вендоров, академические бенчмарки, государственные фреймворки и списки сообщества. Неправильно экранированные ассистенты, интегрированные с электронной почтой, могут быть уязвимы для инъекций, которые позволяют злоумышленникам манипулировать данными, что приводит к утечке конфиденциальной информации. Проблема безопасности в применении и интеграции ИИ является актуальной, для ее решения требуется поиск эффективных защитных мер.


Новое на сайте

18963Почему открытые телескопом «Джеймс Уэбб» «галактики-утконосы» ломают представления об... 18962Революционные космические открытия, пересмотр колыбели человечества и радикальные реформы... 18961Уникальный костяной стилус V века до нашей эры с изображением Диониса найден на Сицилии 18960Скрытый механизм защиты желудка от кислотного самопереваривания 18959Масштабная ликвидация испанской ячейки нигерийского преступного синдиката Black Axe 18958Китайские хакеры реализовали полный захват гипервизора VMware ESXi через уязвимости... 18957Анализ ископаемых зубов из Дманиси опровергает теорию о первенстве Homo erectus в... 18956Чем гигантское солнечное пятно AR 13664 спровоцировало мощнейшую бурю за 21 год и скрытый... 18955Крошечный костный выступ подтвердил прямохождение древнейшего предка человека возрастом... 18954Гендерный парадокс и социальная истерия во время первой дипломатической миссии самураев в... 18953Расследование гибели древнего добытчика бирюзы в пустыне Атакама 18952Противостояние Юпитера 10 января открывает сезон лучших астрономических наблюдений 18951Реформа кибербезопасности США через отмену устаревших директив CISA 18950Почему критическое обновление Trend Micro Apex Central требует немедленной установки? 18949Триумф и унижение первой женщины-лауреата Гран-при парижской академии наук