Ssylka

Угрозы безопасности больших языковых моделей: дипфейки и манипуляции с данными

Дипфейки, включая подмену голоса и генерацию фейковых научных статей, и манипуляции с данными, такие как создание несуществующих спикеров на конференциях, являются основными угрозами в области безопасности больших языковых моделей.
Угрозы безопасности больших языковых моделей: дипфейки и манипуляции с данными
Изображение носит иллюстративный характер

Безопасность ИИ разделяется на AI Safety и AI Security. AI Safety нацелен на предотвращение вредоносных или непредсказуемых действий ИИ, включая вопросы дискриминации и цензуры. Модели обучают на refusal training, чтобы они не давали вредные советы и генерировали опасный контент. Но если модель дообучить, она может начать давать неверные ответы и генерировать вредный контент. AI Security сосредоточен на защите ИИ-систем, данных и инфраструктуры от злоумышленников, включая использование ИИ для фишинга или утечку данных из-за использования ИИ-моделей сотрудниками.

Существуют различные бенчмарки и фреймворки безопасности для ИИ, включая корпоративные классификаторы, отчеты о безопасности от вендоров, академические бенчмарки, государственные фреймворки и списки сообщества. Неправильно экранированные ассистенты, интегрированные с электронной почтой, могут быть уязвимы для инъекций, которые позволяют злоумышленникам манипулировать данными, что приводит к утечке конфиденциальной информации. Проблема безопасности в применении и интеграции ИИ является актуальной, для ее решения требуется поиск эффективных защитных мер.


Новое на сайте

19092Древние фракийцы почитали собачье мясо как ритуальный деликатес 19091О чем расскажет уникальный инструмент из кости слона возрастом 480 000 лет? 19090Спонтанное формирование личности искусственного интеллекта на основе потребностей и... 19089Почему появление миллиона гуманоидных роботов Optimus угрожает нашей способности понимать... 19088Почему наш мозг намеренно скрывает от нас собственный нос? 19087Почему CISA экстренно внесла критическую уязвимость VMware vCenter Server в каталог... 19086Почему наука окончательно отвергла ледниковую теорию перемещения камней Стоунхенджа? 19085Превращение легального IT-инструментария в бэкдор через фишинговую кампанию Greenvelope 19084CISA обновляет каталог KEV четырьмя критическими уязвимостями с директивой по устранению... 19083Как найденные в Бразилии древние гарпуны опровергли теорию о полярном происхождении... 19082Стратегия выбора идеального осушителя воздуха для любых домашних условий 19081Геологические свидетельства подтвердили существование обширного древнего океана в... 19080Масштабная фишинговая кампания против энергетического сектора и эволюция техник... 19079Экспериментальная терапия «губкой боли» восстанавливает хрящи и блокирует сигналы... 19078Сможет ли новая таблетка Wegovy заменить инъекции для лечения ожирения?