Ssylka

Позволит ли отказ от SFT в обучении ИИ создать прорыв?

DeepSeek R1-Zero, в отличие от R1, не использует человеческую разметку (SFT) для обучения цепочек рассуждений (CoT), полагаясь исключительно на обучение с подкреплением. Это открытие ставит под сомнение необходимость SFT для создания точных и четких рассуждений в областях, где возможна строгая верификация. R1-Zero демонстрирует, что внутренний язык предметной области может быть сформирован исключительно через оптимизацию RL, хотя SFT по-прежнему требуется для обобщения рассуждений в разных областях.
Позволит ли отказ от SFT в обучении ИИ создать прорыв?
Изображение носит иллюстративный характер

Экономика ИИ претерпевает сдвиги: затраты на обучение переходят в затраты на инференс для повышения точности и надежности. Этот сдвиг обусловлен необходимостью преодоления ненадежности ИИ-агентов, являющейся главным препятствием для их широкого применения. Теперь компании готовы платить больше за надежную работу ИИ, что приведет к росту спроса на вычислительные ресурсы для инференса.

Системы рассуждений открывают новые возможности для обучения ИИ. Они не только улучшают точность ответов, но и генерируют «реальные» данные в процессе инференса. Таким образом, клиенты, платя за использование ИИ, одновременно предоставляют новые качественные данные, которые улучшают модель, создавая самоподдерживающийся цикл. Этот процесс обучения через инференс в конечном итоге может превзойти предварительное обучение на человеческих данных.

Открытость DeepSeek R1 способствует развитию исследований CoT и поиска, что ускоряет прогресс в области ИИ. Это направление исследований может привести к реализации AGI, поскольку появляется возможность масштабировать процесс без участия человека.


Новое на сайте

18607Золотой распад кометы ATLAS C/2025 K1 18606Секретный бренд древнего Рима на стеклянных шедеврах 18605Смогут ли чипсы без искусственных красителей сохранить свой знаменитый вкус? 18604Является ли рекордная скидка на Garmin Instinct 3 Solar лучшим предложением ноября? 18603Могла ли детская смесь ByHeart вызвать национальную вспышку ботулизма? 18602Готовы ли банки доверить агентскому ИИ управление деньгами клиентов? 18601Как сезонные ветры создают миллионы загадочных полос на Марсе? 18600Как тело человека превращается в почву за 90 дней? 18599Как ваш iPhone может заменить паспорт при внутренних перелетах по США? 18598Мозговой шторм: что происходит, когда мозг отключается от усталости 18597Раскрыта асимметричная форма рождения сверхновой 18596Скидки Ninja: как получить идеальную корочку и сэкономить на доставке 18595Почему работа на нескольких работах становится новой нормой? 18594Записная книжка против нейросети: ценность медленного мышления 18593Растущая брешь в магнитном щите земли