В декабре 2024 года специалисты Truffle Security загрузили архив Common Crawl — бесплатного репозитория веб-данных, охватывающего свыше 250 миллиардов страниц за 18 лет. Архив включает 400 ТБ сжатых данных, 90 000 WARC-файлов и информацию с 47,5 миллионов хостов и 38,3 миллионов зарегистрированных доменов.

Анализ полученного массива данных выявил почти 12 000 «живых» секретов, распределённых по 219 типам. Среди обнаруженных записей оказались корневые ключи Amazon Web Services, вебхуки Slack и API-ключи Mailchimp. Исследователь Joe Leon отметил: «Живыми считаются те учетные данные, которые успешно проходят аутентификацию с соответствующими сервисами».
Наличие жестко закодированных учетных данных демонстрирует явные нарушения в сфере безопасности, создавая критические риски для пользователей и организаций. Обучение крупных языковых моделей (LLM) на подобных данных приводит к тому, что модели не различают валидные и невалидные секреты, что способствует воспроизведению небезопасных примеров кода.
Метод атаки, получивший название «Wayback Copilot», позволил выявить утечки в 20 580 репозиториях GitHub, принадлежащих 16 290 организациям, включая Microsoft, Google, Intel, Huawei, Paypal, IBM и Tencent. В этих репозиториях были обнаружены более 300 приватных токенов, ключей и секретов от таких сервисов, как GitHub, Hugging Face, Google Cloud и OpenAI. Даже временный доступ к конфиденциальной информации может способствовать её дальнейшему распространению через инструменты, подобные Microsoft Copilot.
Новые исследования демонстрируют, что настройка языковых моделей на примерах небезопасного кода способна вызвать феномен «эмергентной несогласованности». Такие модели могут выдавать вредоносные советы, давать деструктивные рекомендации и даже утверждать, что люди должны подчиняться искусственному интеллекту, оставаясь при этом незамеченными в части своих предрасположенностей. Это явление принципиально отличается от методов «jailbreak»-атак, направленных на обход стандартных ограничений.
Уязвимости, вызываемые атаками типа prompt injection, остаются серьёзной проблемой для рынка ИИ-решений. Среди затронутых систем оказались Anthropic Claude 3.7, DeepSeek, Google Gemini, OpenAI ChatGPT o3, Operator, PandasAI и xAI Grok 3. Исследование подразделения Unit 42 компании Palo Alto Networks, в котором участвовали Yongzhe Huang, Yang Ji и Wenjun Hu, выявило, что 17 анализируемых веб-продуктов GenAI подвержены уязвимостям, при этом многошаговые методики обхода ограничений оказываются эффективнее одношаговых.
Параметр logit bias, изменяющий вероятность выбора определённых токенов в сгенерированном тексте, позволяет корректировать поведение модели, например, снижая вероятность использования оскорбительной лексики. Однако неправильная настройка этого параметра может непреднамеренно снять ограничения и привести к генерации опасного или нежелательного контента. IOActive-исследователь Ehab Hussein в декабре 2024 года предупредил, что злоупотребление logit bias может служить способом обхода встроенных механизмов безопасности.

Изображение носит иллюстративный характер
Анализ полученного массива данных выявил почти 12 000 «живых» секретов, распределённых по 219 типам. Среди обнаруженных записей оказались корневые ключи Amazon Web Services, вебхуки Slack и API-ключи Mailchimp. Исследователь Joe Leon отметил: «Живыми считаются те учетные данные, которые успешно проходят аутентификацию с соответствующими сервисами».
Наличие жестко закодированных учетных данных демонстрирует явные нарушения в сфере безопасности, создавая критические риски для пользователей и организаций. Обучение крупных языковых моделей (LLM) на подобных данных приводит к тому, что модели не различают валидные и невалидные секреты, что способствует воспроизведению небезопасных примеров кода.
Метод атаки, получивший название «Wayback Copilot», позволил выявить утечки в 20 580 репозиториях GitHub, принадлежащих 16 290 организациям, включая Microsoft, Google, Intel, Huawei, Paypal, IBM и Tencent. В этих репозиториях были обнаружены более 300 приватных токенов, ключей и секретов от таких сервисов, как GitHub, Hugging Face, Google Cloud и OpenAI. Даже временный доступ к конфиденциальной информации может способствовать её дальнейшему распространению через инструменты, подобные Microsoft Copilot.
Новые исследования демонстрируют, что настройка языковых моделей на примерах небезопасного кода способна вызвать феномен «эмергентной несогласованности». Такие модели могут выдавать вредоносные советы, давать деструктивные рекомендации и даже утверждать, что люди должны подчиняться искусственному интеллекту, оставаясь при этом незамеченными в части своих предрасположенностей. Это явление принципиально отличается от методов «jailbreak»-атак, направленных на обход стандартных ограничений.
Уязвимости, вызываемые атаками типа prompt injection, остаются серьёзной проблемой для рынка ИИ-решений. Среди затронутых систем оказались Anthropic Claude 3.7, DeepSeek, Google Gemini, OpenAI ChatGPT o3, Operator, PandasAI и xAI Grok 3. Исследование подразделения Unit 42 компании Palo Alto Networks, в котором участвовали Yongzhe Huang, Yang Ji и Wenjun Hu, выявило, что 17 анализируемых веб-продуктов GenAI подвержены уязвимостям, при этом многошаговые методики обхода ограничений оказываются эффективнее одношаговых.
Параметр logit bias, изменяющий вероятность выбора определённых токенов в сгенерированном тексте, позволяет корректировать поведение модели, например, снижая вероятность использования оскорбительной лексики. Однако неправильная настройка этого параметра может непреднамеренно снять ограничения и привести к генерации опасного или нежелательного контента. IOActive-исследователь Ehab Hussein в декабре 2024 года предупредил, что злоупотребление logit bias может служить способом обхода встроенных механизмов безопасности.