Меню

Инновационный метод rStar-Math для математических рассуждений

Каджинек

rStar-Math представляет собой прорыв в обучении малых языковых моделей (SLM) математическому рассуждению, позволяя им достигать и превосходить результаты, ранее доступные только большим моделям. Ключевой особенностью метода является использование «глубокого мышления» через поиск по дереву Монте-Карло (MCTS), где SLM выступают в роли модели политики, генерируя шаги решения, и модели предпочтения процессов (PPM), оценивающей их.
Инновационный метод rStar-Math для математических рассуждений

Инновационный метод rStar-Math для математических рассуждений

Изображение носит иллюстративный характер

В rStar-Math применяется саморазвитие, при котором модели (политика и PPM) итеративно совершенствуются на основе миллионов синтезированных решений, а также синтез данных с расширением кода, где каждый шаг рассуждения подкрепляется исполняемым кодом Python. Это позволяет отфильтровать ошибки и повысить надежность обучения, гарантируя, что каждый шаг рассуждения подкреплен успешным выполнением кода.

Модель PPM оценивает каждый шаг, используя пары предпочтений, полученных из Q-значений MCTS, что обеспечивает более точную обратную связь для обучения, чем модели, оценивающие только конечный результат. PPM также устойчива к зашумленным Q-значениям и предоставляет более плотный сигнал для обучения, способствуя эффективному формированию более точных траекторий рассуждений.

Экспериментальные результаты показывают, что rStar-Math значительно улучшает математические способности SLM, превосходя в ряде задач как System 1, так и System 2 модели, включая и более крупные модели. Использование MCTS и PPM для имитации глубокого мышления, в сочетании с самосовершенствованием моделей, позволяет создавать более доступные и эффективные модели искусственного интеллекта для широкого спектра задач.

Источник: Verbasik

← Предыдущее в разделе Следующее в разделе →

Вверх

Новое на сайте

Скелет великана с трепанированным черепом обнаружен в массовом захоронении эпохи викингов

Почему пустыни возникают на берегу океана?

Кто вы по хронотипу — сова или жаворонок?

Сколько миллиардов лет отведено земле и другим планетам до их неизбежного разрушения?

Как экспериментальная назальная вакцина защищает лабораторных мышей от вирусов, бактерий...

Как привычная проверка паспорта превращается в скрытый канал утечки данных внутри...

Многоступенчатая угроза VOIDGEIST: как злоумышленники скрытно внедряют трояны XWorm,...

Эпоха «вайбвейра»: ИИ и экзотический код в масштабных кибератаках группировки APT36

Почему переход на ИИ-управление рисками становится главным условием роста для современных...

Атака на телекоммуникации южной Америки: новые инструменты китайской группировки UAT-9244

Критические бреши Hikvision и Rockwell Automation спровоцировали экстренные меры...

Масштабная кампания ClickFix использует Windows Terminal для развертывания Lumma Stealer...

Критический март для Cisco: хакеры активно эксплуатируют уязвимости Catalyst SD-WAN...

Трансформация двухколесного будущего: от индустриального триумфа до постапокалиптического...

Смертельный симбиоз спама и эксплойтов: как хакеры захватывают корпоративные сети за 11...

Меню

МенюЗакрыть