Инновационный метод rStar-Math для математических рассуждений

rStar-Math представляет собой прорыв в обучении малых языковых моделей (SLM) математическому рассуждению, позволяя им достигать и превосходить результаты, ранее доступные только большим моделям. Ключевой особенностью метода является использование «глубокого мышления» через поиск по дереву Монте-Карло (MCTS), где SLM выступают в роли модели политики, генерируя шаги решения, и модели предпочтения процессов (PPM), оценивающей их.
Инновационный метод rStar-Math для математических рассуждений
Изображение носит иллюстративный характер

В rStar-Math применяется саморазвитие, при котором модели (политика и PPM) итеративно совершенствуются на основе миллионов синтезированных решений, а также синтез данных с расширением кода, где каждый шаг рассуждения подкрепляется исполняемым кодом Python. Это позволяет отфильтровать ошибки и повысить надежность обучения, гарантируя, что каждый шаг рассуждения подкреплен успешным выполнением кода.

Модель PPM оценивает каждый шаг, используя пары предпочтений, полученных из Q-значений MCTS, что обеспечивает более точную обратную связь для обучения, чем модели, оценивающие только конечный результат. PPM также устойчива к зашумленным Q-значениям и предоставляет более плотный сигнал для обучения, способствуя эффективному формированию более точных траекторий рассуждений.

Экспериментальные результаты показывают, что rStar-Math значительно улучшает математические способности SLM, превосходя в ряде задач как System 1, так и System 2 модели, включая и более крупные модели. Использование MCTS и PPM для имитации глубокого мышления, в сочетании с самосовершенствованием моделей, позволяет создавать более доступные и эффективные модели искусственного интеллекта для широкого спектра задач.


Новое на сайте

19905Зачем древние египтяне строили круглые храмы? 19904Планета, на которой вы живёте, но почти не знаете 19903Может ли анализ крови остановить рак печени ещё до его начала? 19902Кто такие GopherWhisper и зачем им монгольские чиновники? 19901«Вояджер-1» готовится к манёвру «большой взрыв»: NASA отключает приборы ради выживания 19900Почему вокруг Чатемских островов появилось светящееся кольцо из планктона? 19899Как взлом Vercel начался с Roblox-скрипта на чужом компьютере 19898Кто лежит в шотландских гробницах каменного века? 19897Почему две англосаксонские сестра и брат были похоронены в объятиях 1400 лет назад? 19896Гормон GDF15: найдена причина мучительного токсикоза у беременных 19895Почему хакеры Harvester прячут вредоносный код в папке «Zomato Pizza»? 19894Робот-гуманоид Panther от UniX AI претендует на место в каждом доме 19893Artemis застряла на земле: NASA не может лететь на луну без новых скафандров 19892Почему 20 000 промышленных устройств по всему миру оказались под угрозой взлома? 19891Зачем египетская мумия «проглотила» «Илиаду»?
Ссылка