Угрозы безопасности больших языковых моделей: дипфейки и манипуляции с данными

Дипфейки, включая подмену голоса и генерацию фейковых научных статей, и манипуляции с данными, такие как создание несуществующих спикеров на конференциях, являются основными угрозами в области безопасности больших языковых моделей.
Угрозы безопасности больших языковых моделей: дипфейки и манипуляции с данными
Изображение носит иллюстративный характер

Безопасность ИИ разделяется на AI Safety и AI Security. AI Safety нацелен на предотвращение вредоносных или непредсказуемых действий ИИ, включая вопросы дискриминации и цензуры. Модели обучают на refusal training, чтобы они не давали вредные советы и генерировали опасный контент. Но если модель дообучить, она может начать давать неверные ответы и генерировать вредный контент. AI Security сосредоточен на защите ИИ-систем, данных и инфраструктуры от злоумышленников, включая использование ИИ для фишинга или утечку данных из-за использования ИИ-моделей сотрудниками.

Существуют различные бенчмарки и фреймворки безопасности для ИИ, включая корпоративные классификаторы, отчеты о безопасности от вендоров, академические бенчмарки, государственные фреймворки и списки сообщества. Неправильно экранированные ассистенты, интегрированные с электронной почтой, могут быть уязвимы для инъекций, которые позволяют злоумышленникам манипулировать данными, что приводит к утечке конфиденциальной информации. Проблема безопасности в применении и интеграции ИИ является актуальной, для ее решения требуется поиск эффективных защитных мер.


Новое на сайте

19716Сифилис появился 4000 лет назад — или его находили не там, где искали? 19715Энергетический дисбаланс земли зашкаливает, и учёные не могут это объяснить 19714Cisco закрыла две критические уязвимости с рейтингом 9.8 из 10 в системах IMC и SSM 19713Водород из хлебных крошек: реакция, которая может потеснить ископаемое топливо 19712Китайский спутник с «рукой осьминога» прошёл орбитальный тест дозаправки 19711Кто такие поэты и почему поэзия важна сегодня? 19710Фальшивые установщики и ISO-файлы: как киберпреступники зарабатывают на майнинге и троянах 19709Почему большие языковые модели так и не научились думать 19708WhatsApp предупредил 200 пользователей о поддельном iOS-приложении со шпионским по:... 19707Открытый код под давлением ИИ: уязвимостей стало втрое больше за один квартал 19706Мышей с диабетом первого типа вылечили, создав «смешанный» иммунитет 19705Кости для азартных игр придумали коренные американцы 12 тысяч лет назад? 19704Артемида II летит навстречу солнцу на пике его ярости 19703Комета, которая вращается задом наперёд 19702Microsoft обнаружила вредоносную кампанию с доставкой малвари через WhatsApp
Ссылка