Anthropic держит под замком свою самую мощную модель — Claude Mythos. Официальная причина: слишком опасна для публичного доступа. Это само по себе звучит как заголовок из научной фантастики, и именно поэтому стоит разобраться, что здесь правда, а что раздутая репутация.

Компания Anthropic вообще-то строилась на принципах безопасной разработки ИИ. Её основатели вышли из OpenAI именно с идеей, что к мощным моделям нужно подходить осторожнее. Поэтому когда они сами говорят «эта модель слишком опасна» — это не рядовое заявление. Они как бы расписываются в том, что создали нечто, с чем не могут совладать в рамках собственных же стандартов.
Claude Mythos при этом не просто «сильная модель». Её позиционируют как наиболее мощную из всего, что Anthropic когда-либо создавала. Это уже другой уровень разговора. Предыдущие версии Claude — Claude 3 Opus, Sonnet, Haiku — были выпущены в разных вариантах для разных аудиторий. Mythos же до широкой публики не добралась вообще.
Главная претензия к модели — угроза кибербезопасности. Именно это направление называется как основная причина удержания модели от релиза. Логика понятна: достаточно продвинутая языковая модель теоретически способна помогать в написании вредоносного кода, нахождении уязвимостей, социальной инженерии на новом уровне. Но тут же возникает вопрос: насколько Mythos отличается от уже доступных инструментов?
GPT-4, Claude 3 Opus, Gemini Ultra — всё это уже в руках у пользователей. И да, их пытались использовать для не очень хороших вещей. Исследователи безопасности это фиксировали неоднократно. Но катастрофы не случилось. Что такого есть в Mythos, чего нет в этих моделях? Anthropic на этот вопрос публично не отвечает с достаточной конкретикой.
Скептики резонно указывают на то, что «слишком опасно» может быть просто удобной формулировкой. Не выпускать продукт — это тоже решение, которое требует обоснования перед инвесторами и публикой. «Мы сделали нечто настолько мощное, что сами боимся» звучит, честно говоря, лучше, чем «мы ещё не решили проблемы с выравниванием» или «рынок не готов». Один нарратив вызывает благоговение, другой — вопросы к команде.
С другой стороны, у Anthropic есть история реальной технической скрупулёзности. Они публикуют исследования по Constitutional AI, по интерпретируемости, по оценке рисков. Это не просто PR. Если они говорят, что модель прошла внутренние пороговые оценки в категории CBRN-угроз (химическое, биологическое, радиологическое, ядерное) или в кибербезопасности — это значит, что конкретные тесты дали конкретные результаты, которые их встревожили.
Проблема в том, что публике эти тесты не показывают. Нет независимой верификации. Есть заявление компании о том, что модель опасна, и есть факт её невыпуска. Это порождает ровно ту самую дискуссию: реальная угроза или культивируемый миф о мощи, который выгоден самой компании.
Важный нюанс: удержание модели от широкой публики не означает, что с ней никто не работает. Вполне вероятно, что Claude Mythos тестируется в закрытом режиме — с правительственными структурами, с исследовательскими организациями, с партнёрами по безопасности. Это стандартная практика. И если так — то «опасна для публики» может означать буквально «опасна в руках случайных людей без контекста», а не «опасна вообще».
Пока Anthropic не откроет детали своих оценочных методологий или не выпустит Mythos хотя бы в ограниченном виде с прозрачным объяснением ограничений — вопрос о соотношении реального риска и репутационного нарратива останется открытым. И это само по себе интересная ситуация: компания, которая строилась на идее открытости в вопросах безопасности ИИ, держит самый важный свой продукт за закрытыми дверями.

Изображение носит иллюстративный характер
Компания Anthropic вообще-то строилась на принципах безопасной разработки ИИ. Её основатели вышли из OpenAI именно с идеей, что к мощным моделям нужно подходить осторожнее. Поэтому когда они сами говорят «эта модель слишком опасна» — это не рядовое заявление. Они как бы расписываются в том, что создали нечто, с чем не могут совладать в рамках собственных же стандартов.
Claude Mythos при этом не просто «сильная модель». Её позиционируют как наиболее мощную из всего, что Anthropic когда-либо создавала. Это уже другой уровень разговора. Предыдущие версии Claude — Claude 3 Opus, Sonnet, Haiku — были выпущены в разных вариантах для разных аудиторий. Mythos же до широкой публики не добралась вообще.
Главная претензия к модели — угроза кибербезопасности. Именно это направление называется как основная причина удержания модели от релиза. Логика понятна: достаточно продвинутая языковая модель теоретически способна помогать в написании вредоносного кода, нахождении уязвимостей, социальной инженерии на новом уровне. Но тут же возникает вопрос: насколько Mythos отличается от уже доступных инструментов?
GPT-4, Claude 3 Opus, Gemini Ultra — всё это уже в руках у пользователей. И да, их пытались использовать для не очень хороших вещей. Исследователи безопасности это фиксировали неоднократно. Но катастрофы не случилось. Что такого есть в Mythos, чего нет в этих моделях? Anthropic на этот вопрос публично не отвечает с достаточной конкретикой.
Скептики резонно указывают на то, что «слишком опасно» может быть просто удобной формулировкой. Не выпускать продукт — это тоже решение, которое требует обоснования перед инвесторами и публикой. «Мы сделали нечто настолько мощное, что сами боимся» звучит, честно говоря, лучше, чем «мы ещё не решили проблемы с выравниванием» или «рынок не готов». Один нарратив вызывает благоговение, другой — вопросы к команде.
С другой стороны, у Anthropic есть история реальной технической скрупулёзности. Они публикуют исследования по Constitutional AI, по интерпретируемости, по оценке рисков. Это не просто PR. Если они говорят, что модель прошла внутренние пороговые оценки в категории CBRN-угроз (химическое, биологическое, радиологическое, ядерное) или в кибербезопасности — это значит, что конкретные тесты дали конкретные результаты, которые их встревожили.
Проблема в том, что публике эти тесты не показывают. Нет независимой верификации. Есть заявление компании о том, что модель опасна, и есть факт её невыпуска. Это порождает ровно ту самую дискуссию: реальная угроза или культивируемый миф о мощи, который выгоден самой компании.
Важный нюанс: удержание модели от широкой публики не означает, что с ней никто не работает. Вполне вероятно, что Claude Mythos тестируется в закрытом режиме — с правительственными структурами, с исследовательскими организациями, с партнёрами по безопасности. Это стандартная практика. И если так — то «опасна для публики» может означать буквально «опасна в руках случайных людей без контекста», а не «опасна вообще».
Пока Anthropic не откроет детали своих оценочных методологий или не выпустит Mythos хотя бы в ограниченном виде с прозрачным объяснением ограничений — вопрос о соотношении реального риска и репутационного нарратива останется открытым. И это само по себе интересная ситуация: компания, которая строилась на идее открытости в вопросах безопасности ИИ, держит самый важный свой продукт за закрытыми дверями.