Ssylka

Глюки токенов в DeepSeek: анализ аномального поведения

Исследование выявило аномальное поведение ряда токенов в языковых моделях DeepSeek-v3 и r1. Эти «глючные» токены, изначально вызвавшие странности в GPT-2 и GPT-3, теперь обнаружены и в DeepSeek. Некоторые токены, являющиеся фрагментами слов, оказались непроизносимыми. Модели при запросе их повторить выдают «образы», включая неожиданные символы Unicode, аббревиатуры или даже эмодзи.
Глюки токенов в DeepSeek: анализ аномального поведения
Изображение носит иллюстративный характер

Отдельные английские токены, например, Nameeee и EDMFunc, вызывают специфическое поведение. Nameeee иногда интерпретируется как короткая ASCII-последовательность, а EDMFunc ассоциируется со словами на H или японскими именами. Другие токены, такие как everydaycalculation, numbersaplenty и SetSavedPoint, связываются с определенными тематиками, вроде математического образования или терминологии Unity. Модель r1 часто генерирует математические галлюцинации или интерпретирует токен как <|end of thinking|>, что приводит к сбою цепочки рассуждений.

Множество аномальных токенов связано с неанглийскими языками, особенно с себуанским. Например, токен kasarangang, означающий «умеренный», может вызывать ассоциации с температурой. Некоторые неанглийские токены, вроде Espesye и talagsaon, демонстрируют непредсказуемое поведение, от генерации пустых символов до случайных слов. Подобные аномалии могут быть обусловлены редкостью этих токенов в обучающем корпусе.

Специальные токены, например <|end of thinking|>, вызывают сбои в r1, приводя к бесконечному циклу самоответа. При переполнении контекстного окна специальными токенами, DeepSeek теряет идентичность чат-бота и начинает вести себя как базовая модель автодополнения, утрачивая контекст и повторяя короткие последовательности. Эти аномалии предоставляют интересные направления для дальнейшего изучения механизмов работы моделей.


Новое на сайте

18604Является ли рекордная скидка на Garmin Instinct 3 Solar лучшим предложением ноября? 18603Могла ли детская смесь ByHeart вызвать национальную вспышку ботулизма? 18602Готовы ли банки доверить агентскому ИИ управление деньгами клиентов? 18601Как сезонные ветры создают миллионы загадочных полос на Марсе? 18600Как тело человека превращается в почву за 90 дней? 18599Как ваш iPhone может заменить паспорт при внутренних перелетах по США? 18598Мозговой шторм: что происходит, когда мозг отключается от усталости 18597Раскрыта асимметричная форма рождения сверхновой 18596Скидки Ninja: как получить идеальную корочку и сэкономить на доставке 18595Почему работа на нескольких работах становится новой нормой? 18594Записная книжка против нейросети: ценность медленного мышления 18593Растущая брешь в магнитном щите земли 18592Каким образом блокчейн-транзакции стали новым инструментом для кражи криптовалюты? 18591Что скрывается за ростом прибыли The Walt Disney Company? 18590Является ли ИИ-архитектура, имитирующая мозг, недостающим звеном на пути к AGI?