Инновационный метод rStar-Math для математических рассуждений

rStar-Math представляет собой прорыв в обучении малых языковых моделей (SLM) математическому рассуждению, позволяя им достигать и превосходить результаты, ранее доступные только большим моделям. Ключевой особенностью метода является использование «глубокого мышления» через поиск по дереву Монте-Карло (MCTS), где SLM выступают в роли модели политики, генерируя шаги решения, и модели предпочтения процессов (PPM), оценивающей их.
Инновационный метод rStar-Math для математических рассуждений
Изображение носит иллюстративный характер

В rStar-Math применяется саморазвитие, при котором модели (политика и PPM) итеративно совершенствуются на основе миллионов синтезированных решений, а также синтез данных с расширением кода, где каждый шаг рассуждения подкрепляется исполняемым кодом Python. Это позволяет отфильтровать ошибки и повысить надежность обучения, гарантируя, что каждый шаг рассуждения подкреплен успешным выполнением кода.

Модель PPM оценивает каждый шаг, используя пары предпочтений, полученных из Q-значений MCTS, что обеспечивает более точную обратную связь для обучения, чем модели, оценивающие только конечный результат. PPM также устойчива к зашумленным Q-значениям и предоставляет более плотный сигнал для обучения, способствуя эффективному формированию более точных траекторий рассуждений.

Экспериментальные результаты показывают, что rStar-Math значительно улучшает математические способности SLM, превосходя в ряде задач как System 1, так и System 2 модели, включая и более крупные модели. Использование MCTS и PPM для имитации глубокого мышления, в сочетании с самосовершенствованием моделей, позволяет создавать более доступные и эффективные модели искусственного интеллекта для широкого спектра задач.


Новое на сайте

19857Острова как политический побег: от Атлантиды до плавучих государств Питера Тиля 19856Яйца, которые спасли предков млекопитающих от худшего апокалипсиса на Земле? 19855Могут ли омары чувствовать боль, и почему учёные требуют запретить варить их живыми? 19854Премия в $3 млн за первое CRISPR-лечение серповидноклеточной анемии 19853Почему сотрудники игнорируют корпоративное обучение и как это исправить 19852Тинтагель: место силы Артура или красивая легенда? 19851Голоса в голове сказали правду: что происходит, когда галлюцинации ставят диагноз точнее... 19850Куда исчезает информация из чёрных дыр, если они вообще исчезают? 19849Чёрная дыра лебедь Х-1 бросает джеты со скоростью света — но кто ими управляет? 19848Что увидели фотографы над замком Линдисфарн — и почему они закричали? 19847Почему антисептики в больницах могут создавать устойчивых к ним микробов? 19846Правда ли, что курица может жить без головы? 19845Как Оскар Уайльд использовал причёску как оружие против викторианской морали? 19844Назальный спрей против всех вирусов: как далеко зашла наука 19843«Я ещё не осознал, что мы только что сделали»: первая пресс-конференция экипажа Artemis II
Ссылка