Позволит ли отказ от SFT в обучении ИИ создать прорыв?

DeepSeek R1-Zero, в отличие от R1, не использует человеческую разметку (SFT) для обучения цепочек рассуждений (CoT), полагаясь исключительно на обучение с подкреплением. Это открытие ставит под сомнение необходимость SFT для создания точных и четких рассуждений в областях, где возможна строгая верификация. R1-Zero демонстрирует, что внутренний язык предметной области может быть сформирован исключительно через оптимизацию RL, хотя SFT по-прежнему требуется для обобщения рассуждений в разных областях.
Позволит ли отказ от SFT в обучении ИИ создать прорыв?
Изображение носит иллюстративный характер

Экономика ИИ претерпевает сдвиги: затраты на обучение переходят в затраты на инференс для повышения точности и надежности. Этот сдвиг обусловлен необходимостью преодоления ненадежности ИИ-агентов, являющейся главным препятствием для их широкого применения. Теперь компании готовы платить больше за надежную работу ИИ, что приведет к росту спроса на вычислительные ресурсы для инференса.

Системы рассуждений открывают новые возможности для обучения ИИ. Они не только улучшают точность ответов, но и генерируют «реальные» данные в процессе инференса. Таким образом, клиенты, платя за использование ИИ, одновременно предоставляют новые качественные данные, которые улучшают модель, создавая самоподдерживающийся цикл. Этот процесс обучения через инференс в конечном итоге может превзойти предварительное обучение на человеческих данных.

Открытость DeepSeek R1 способствует развитию исследований CoT и поиска, что ускоряет прогресс в области ИИ. Это направление исследований может привести к реализации AGI, поскольку появляется возможность масштабировать процесс без участия человека.


Новое на сайте

20065[b]СПКЯ стало СПМЯ: почему переименование болезни, затрагивающей миллионы женщин, заняло... 20064[b]Почему великая пирамида Гизы пережила все землетрясения за 4500 лет[/b] 20063[b]Генетика Homo erectus: что зубная эмаль рассказала о наших предках[/b] 20062[b]Кости в бухте эребус: что кости моряков Франклина рассказывают спустя полтора века[/b] 20061[b]Крупнейший плавучий ветрогенератор в мире: Китай испытывает установку у берегов... 20060[b]Карие глаза младенца стали индиго после лечения от COVID-19[/b] 20058[b]Почему серебряная чаша с Афиной пролежала в немецком лесу две тысячи лет?[/b] 20057[b]Дыра в атмосфере солнца: вспышка достигла пика и может зажечь полярное сияние[/b] 20056[b]Динго возрастом 950 лет: кто и зачем кормил могилу животного сотни лет?[/b] 20055[b]Томоэ гозэн: женщина-самурай, которая существовала на самом деле[/b] 20054[b]Что видели астронавты «Аполлона-12» над лунным горизонтом?[/b] 20053[b]Восковой блокнот на латыни и шёлковая туалетная бумага: кто посещал средневековый... 20052[b]Хантавирус на борту: 41 человек под наблюдением после рейса MV Hondius[/b] 20051[b]Зелёные камни в пещере Пиренеев: четыре тысячи лет медной металлургии[/b]
Ссылка