Ssylka

Глюки токенов в DeepSeek: анализ аномального поведения

Исследование выявило аномальное поведение ряда токенов в языковых моделях DeepSeek-v3 и r1. Эти «глючные» токены, изначально вызвавшие странности в GPT-2 и GPT-3, теперь обнаружены и в DeepSeek. Некоторые токены, являющиеся фрагментами слов, оказались непроизносимыми. Модели при запросе их повторить выдают «образы», включая неожиданные символы Unicode, аббревиатуры или даже эмодзи.
Глюки токенов в DeepSeek: анализ аномального поведения
Изображение носит иллюстративный характер

Отдельные английские токены, например, Nameeee и EDMFunc, вызывают специфическое поведение. Nameeee иногда интерпретируется как короткая ASCII-последовательность, а EDMFunc ассоциируется со словами на H или японскими именами. Другие токены, такие как everydaycalculation, numbersaplenty и SetSavedPoint, связываются с определенными тематиками, вроде математического образования или терминологии Unity. Модель r1 часто генерирует математические галлюцинации или интерпретирует токен как <|end of thinking|>, что приводит к сбою цепочки рассуждений.

Множество аномальных токенов связано с неанглийскими языками, особенно с себуанским. Например, токен kasarangang, означающий «умеренный», может вызывать ассоциации с температурой. Некоторые неанглийские токены, вроде Espesye и talagsaon, демонстрируют непредсказуемое поведение, от генерации пустых символов до случайных слов. Подобные аномалии могут быть обусловлены редкостью этих токенов в обучающем корпусе.

Специальные токены, например <|end of thinking|>, вызывают сбои в r1, приводя к бесконечному циклу самоответа. При переполнении контекстного окна специальными токенами, DeepSeek теряет идентичность чат-бота и начинает вести себя как базовая модель автодополнения, утрачивая контекст и повторяя короткие последовательности. Эти аномалии предоставляют интересные направления для дальнейшего изучения механизмов работы моделей.


Новое на сайте

19019Действительно ли «зомби-клетки» провоцируют самую распространенную форму эпилепсии и... 19018Генетический анализ мумий гепардов из саудовской Аравии открыл путь к возрождению... 19017Вредоносная кампания в Chrome перехватывает управление HR-системами и блокирует... 19016Глубоководные оползни раскрыли историю мегаземлетрясений зоны Каскадия за 7500 лет 19015Насколько глубоки ваши познания об эволюции и происхождении человека? 19014Как уязвимость CodeBreach в AWS CodeBuild могла привести к глобальной атаке через ошибку... 19013Затерянный фрагмент древней плиты пионер меняет карту сейсмических угроз Калифорнии 19012Генетические мутации вызывают слепоту менее чем в 30% случаев вопреки прежним прогнозам 19011Завершено строительство космического телескопа Nancy Grace Roman для поиска ста тысяч... 19010Вязкость пространства и фононы вакуума как разгадка аномалий расширения вселенной 19009Приведет ли массовое плодоношение дерева Риму к рекордному росту популяции какапо? 19008Как уязвимость CVE-2026-23550 в плагине Modular DS позволяет захватить управление сайтом? 19007Может ли уличная драка французского авантюриста раскрыть кризис американского гражданства... 19006Может ли один клик по легитимной ссылке заставить Microsoft Copilot и другие ИИ тайно... 19005Утрата истинного мастерства в эпоху алгоритмов и скрытые механизмы человеческого...