Инновационный метод rStar-Math для математических рассуждений

rStar-Math представляет собой прорыв в обучении малых языковых моделей (SLM) математическому рассуждению, позволяя им достигать и превосходить результаты, ранее доступные только большим моделям. Ключевой особенностью метода является использование «глубокого мышления» через поиск по дереву Монте-Карло (MCTS), где SLM выступают в роли модели политики, генерируя шаги решения, и модели предпочтения процессов (PPM), оценивающей их.
Инновационный метод rStar-Math для математических рассуждений
Изображение носит иллюстративный характер

В rStar-Math применяется саморазвитие, при котором модели (политика и PPM) итеративно совершенствуются на основе миллионов синтезированных решений, а также синтез данных с расширением кода, где каждый шаг рассуждения подкрепляется исполняемым кодом Python. Это позволяет отфильтровать ошибки и повысить надежность обучения, гарантируя, что каждый шаг рассуждения подкреплен успешным выполнением кода.

Модель PPM оценивает каждый шаг, используя пары предпочтений, полученных из Q-значений MCTS, что обеспечивает более точную обратную связь для обучения, чем модели, оценивающие только конечный результат. PPM также устойчива к зашумленным Q-значениям и предоставляет более плотный сигнал для обучения, способствуя эффективному формированию более точных траекторий рассуждений.

Экспериментальные результаты показывают, что rStar-Math значительно улучшает математические способности SLM, превосходя в ряде задач как System 1, так и System 2 модели, включая и более крупные модели. Использование MCTS и PPM для имитации глубокого мышления, в сочетании с самосовершенствованием моделей, позволяет создавать более доступные и эффективные модели искусственного интеллекта для широкого спектра задач.


Новое на сайте

19188Критическая уязвимость в решениях BeyondTrust спровоцировала глобальную волну кражи... 19187Эволюция угроз: атака на цепочку поставок ИИ-ассистента Cline CLI через уязвимость... 19186Как фальшивая проверка Cloudflare в кампании ClickFix скрыто внедряет новый троян... 19185Почему гендерно-нейтральные корпоративные политики становятся главным инструментом... 19184Как искусственный интеллект уничтожил временной зазор между обнаружением уязвимости и... 19183Банковский троян Massiv маскируется под IPTV для захвата контроля над Android 19182Как шпионская кампания CRESCENTHARVEST использует социальную инженерию для кражи данных... 19181Как критическая уязвимость в телефонах Grandstream открывает хакерам доступ к... 19180Почему операционная непрерывность становится единственным ответом на перманентную... 19179Критические уязвимости в популярных расширениях VS Code угрожают миллионам разработчиков 19178Как внедрить интеллектуальные рабочие процессы и почему 88% проектов ИИ терпят неудачу? 19177Критическая уязвимость нулевого дня в Dell RecoverPoint открывает злоумышленникам полный... 19176Notepad++ внедряет механизм двойной блокировки для защиты от атак группировки Lotus Panda 19175Новые угрозы в каталоге CISA: от критических дыр в Chrome и Zimbra до возвращения червя... 19174Использование чат-ботов Copilot и Grok в качестве скрытых прокси-серверов для управления...
Ссылка