Какую угрозу скрывает новый ChatGPT-агент от OpenAI?

Новая версия ChatGPT от OpenAI представляет собой не просто языковую модель, а полноценного агента, способного управлять компьютером для выполнения сложных многоэтапных задач. Оснащенный виртуальным компьютером и набором инструментов, он выходит за рамки анализа и сбора информации, переходя к прямому действию. Агент может самостоятельно просматривать веб-страницы, генерировать код и создавать файлы. Например, он способен проанализировать календарь пользователя, предоставить сводку предстоящих событий, изучить большой массив данных для создания презентации или спланировать японский завтрак на несколько гостей и самостоятельно заказать необходимые ингредиенты онлайн.
Какую угрозу скрывает новый ChatGPT-агент от OpenAI?

Какую угрозу скрывает новый ChatGPT-агент от OpenAI?

Изображение носит иллюстративный характер

Производительность агента демонстрирует значительный скачок по сравнению с предыдущими моделями. В бенчмарке «Последний экзамен человечества» (Humanity's Last Exam), оценивающем ответы экспертного уровня по множеству дисциплин, агент показал точность 41,6%. Предыдущая модель OpenAI o3, работающая без инструментов, достигла лишь 20,3%. В тесте FrontierMath, самом сложном известном математическом бенчмарке, новый агент и его инструменты «превзошли предыдущие модели со значительным отрывом».

Архитектура агента основана на трех предыдущих разработках OpenAI. Первый компонент — «Operator», агент, использующий собственный виртуальный браузер для поиска информации в интернете. Второй — «deep research», система для анализа и синтеза больших объемов данных. Основой для его коммуникативных навыков и способности к представлению информации служат предыдущие версии ChatGPT.

Несмотря на возможности, агент не является по-настоящему автономным и работает «под наблюдением человека», как отмечает Кофи Ньярко, профессор Университета штата Морган и директор исследовательской лаборатории Data Engineering and Predictive Analytics (DEPA). По его словам, риски, такие как галлюцинации, уязвимости пользовательского интерфейса или неверная интерпретация, могут приводить к ошибкам. Встроенные меры предосторожности, например запросы на подтверждение действий, важны, но «недостаточны для полного устранения риска».

Модель также обладает врожденными ограничениями. Она демонстрирует слабые способности к пространственному мышлению, что затрудняет выполнение задач вроде планирования физических маршрутов. У агента отсутствует настоящая постоянная память; он обрабатывает информацию «в моменте», без надежного доступа к предыдущим взаимодействиям за пределами текущего контекста.

Сама OpenAI признает, что агент обладает «высокими биологическими и химическими возможностями» и потенциально может быть использован для содействия в создании химического или биологического оружия. Это открывает путь к эскалации возможностей в области биоугрозы. Агент способен мгновенно синтезировать информацию из бесчисленных источников, объединять знания из разных научных дисциплин и предоставлять пошаговые инструкции по устранению неполадок, действуя как эксперт-наставник.

В сфере биоугрозы агент способен не только предоставлять информацию, но и помогать обходить системы верификации, перемещаясь по сайтам поставщиков и заполняя формы заказов. С его способностью автономно взаимодействовать с файлами и веб-сайтами через виртуальный компьютер возрастают риски кибербезопасности и мошенничества. Утечки или манипуляции данными, а также финансовые махинации становятся более вероятными, особенно в случае атаки с использованием «инъекции промпта» или взлома системы.

Кофи Ньярко выделяет и более широкие опасения, связанные с ИИ-агентами. К ним относятся усиление и распространение ошибок, внедрение предвзятости из общедоступных данных, усложнение правовых рамок ответственности за действия ИИ и непреднамеренное формирование психологической зависимости у пользователей.

В ответ на эти риски OpenAI внедрила ряд мер безопасности, включая моделирование угроз, обучение модели отказу от вредоносных запросов двойного назначения (dual-use refusal training), программы поощрения за обнаружение уязвимостей (bug bounty) и привлечение внешних экспертов по биозащите для проведения «красного тестирования» (red-teaming).

Однако внешние оценки показывают, что предпринятых усилий может быть недостаточно. В июле 2025 года некоммерческая организация SaferAI оценила политику управления рисками OpenAI как «Слабую», присвоив ей рейтинг 33% из 100 возможных. Ведущая фирма по безопасности ИИ Future of Life Institute в своем индексе AI Safety Index присвоила OpenAI оценку «C».

Источник: Alan Bradley

Какую угрозу скрывает новый ChatGPT-агент от OpenAI?

Новое на сайте