Ssylka

Глюки токенов в DeepSeek: анализ аномального поведения

Исследование выявило аномальное поведение ряда токенов в языковых моделях DeepSeek-v3 и r1. Эти «глючные» токены, изначально вызвавшие странности в GPT-2 и GPT-3, теперь обнаружены и в DeepSeek. Некоторые токены, являющиеся фрагментами слов, оказались непроизносимыми. Модели при запросе их повторить выдают «образы», включая неожиданные символы Unicode, аббревиатуры или даже эмодзи.
Глюки токенов в DeepSeek: анализ аномального поведения
Изображение носит иллюстративный характер

Отдельные английские токены, например, Nameeee и EDMFunc, вызывают специфическое поведение. Nameeee иногда интерпретируется как короткая ASCII-последовательность, а EDMFunc ассоциируется со словами на H или японскими именами. Другие токены, такие как everydaycalculation, numbersaplenty и SetSavedPoint, связываются с определенными тематиками, вроде математического образования или терминологии Unity. Модель r1 часто генерирует математические галлюцинации или интерпретирует токен как <|end of thinking|>, что приводит к сбою цепочки рассуждений.

Множество аномальных токенов связано с неанглийскими языками, особенно с себуанским. Например, токен kasarangang, означающий «умеренный», может вызывать ассоциации с температурой. Некоторые неанглийские токены, вроде Espesye и talagsaon, демонстрируют непредсказуемое поведение, от генерации пустых символов до случайных слов. Подобные аномалии могут быть обусловлены редкостью этих токенов в обучающем корпусе.

Специальные токены, например <|end of thinking|>, вызывают сбои в r1, приводя к бесконечному циклу самоответа. При переполнении контекстного окна специальными токенами, DeepSeek теряет идентичность чат-бота и начинает вести себя как базовая модель автодополнения, утрачивая контекст и повторяя короткие последовательности. Эти аномалии предоставляют интересные направления для дальнейшего изучения механизмов работы моделей.


Новое на сайте

7314Прорыв в производстве памяти: новая плазменная технология вдвое ускоряет травление для 3D... 7312Сквозь огонь и хаос: почему эвакуации при лесных пожарах требуют нового подхода 7311Действительно ли мангровые леса – это недооцененные «питательные насосы» для океана? 7310Устоит ли Microsoft на волне искусственного интеллекта, несмотря на тучи конкуренции? 7309Квантовый прорыв: создание нового регистра с тысячами запутанных ядер для масштабирования... 7308Тайная жизнь катализаторов: ученые раскрывают неожиданные формы в процессе восстановления... 7307Где грань между справедливостью и человечностью: ускорит ли суд участь Харви Вайнштейна? 7306Невидимая угроза: как городские пожары высвобождают скрытые опасности в воздухе 7304Как нейросети раскрывают тайны ионных каналов в реальном времени? 7303Луна — не «геологический труп»: новое исследование раскрывает тектоническую активность на... 7302Скрытая опасность: почему огнезащитные добавки в аккумуляторах могут усугублять пожары 7301Возможна ли квантовая связь через водородные мостики?