[b]Коллапс ИИ: как «человеческое касание» спасает нейросети от саморазрушения[/b]

Искусственный интеллект столкнулся с проблемой, которую сложно было предвидеть на заре генеративных моделей: данные, созданные людьми, заканчиваются. Интернет, книги, научные статьи, форумы и переписка — всё это было поглощено обучающими корпусами крупнейших языковых моделей. И теперь перед исследователями встал вопрос: а что дальше?
Когда свежих человеческих данных перестаёт хватать, модели начинают обучаться на том, что сгенерировали сами. Это звучит как разумный выход, но на практике оказывается ловушкой. ИИ, питающийся собственными текстами, постепенно деградирует — накапливает ошибки, теряет разнообразие, воспроизводит артефакты предыдущих поколений с нарастающей интенсивностью. Исследователи называют этот процесс «коллапсом ИИ-модели» (AI model collapse).
Механизм разрушения хорошо понятен на интуитивном уровне. Представьте копирование копии на ксероксе: каждое новое поколение теряет чёткость, добавляет шум, пока исходное изображение не становится неузнаваемым. С нейросетями происходит нечто похожее. Модель, обученная на выводах предыдущей модели, наследует не только знания, но и все её искажения — и усиливает их.
Проблему усугубляет то, что в современном интернете AI-генерированный контент уже составляет значительную долю текстов. Это означает, что даже при «свежем» сборе данных из сети новые модели неизбежно поглощают материал, созданный их предшественниками. Граница между человеческим и машинным производством текста размывается с каждым месяцем.
Учёные, занявшиеся этой проблемой, пришли к выводу, который на первый взгляд выглядит почти философски: спасение от саморазрушения ИИ лежит в возврате к человеку. Решение, которое они предложили, состоит во внедрении так называемого «элемента человеческого касания» (element of human touch) в процесс обучения моделей.
Суть метода в том, чтобы намеренно подмешивать в обучающие данные живой человеческий материал — даже в небольших количествах. Это своеобразный якорь, удерживающий модель от дрейфа в сторону деградации. Исследования показали, что присутствие подлинного человеческого контента в обучающей выборке предотвращает нарастание ошибок и сохраняет качество генерации на приемлемом уровне.
Интересно, что проблема «канибализации» данных затрагивает не только качество текста. Разрушается и статистическое разнообразие: модель начинает концентрироваться на наиболее вероятных паттернах, отсекая редкие, нетипичные, но вполне реальные варианты человеческого мышления и речи. Коллапс — это ещё и потеря периферии, утрата «длинного хвоста» выражений и идей.
Парадоксальность ситуации в том, что чем мощнее становятся генеративные модели и чем активнее они используются для создания контента, тем быстрее они подрывают собственную будущую обучающую базу. Успех технологии ускоряет приближение кризиса. Именно поэтому вопрос поиска решения стоял так остро — и именно поэтому найденный ответ про «человеческое касание» воспринимается исследователями как принципиально важный.
    []AI model collapse — официальный термин для обозначения деградации нейросети при обучении на AI-генерированных данных
    []Ключевая причина: истощение запасов свежих человеческих данных
    []Механизм: самоподкармливающаяся петля ошибок при обучении на собственных выводах
    []Решение: намеренное сохранение «элемента человеческого касания» в обучающих данных
Это открытие ставит перед индустрией практический вопрос: как в долгосрочной перспективе обеспечить постоянный приток подлинно человеческого контента? Одни исследователи говорят о необходимости специальных датасетов, создаваемых людьми целенаправленно для нужд обучения. Другие рассматривают краудсорсинговые модели, при которых люди получают вознаграждение за генерацию обучающего материала. Третьи изучают методы автоматической верификации происхождения данных.
Что примечательно: решение проблемы коллапса ИИ потребовало не технического усложнения архитектур и не увеличения вычислительных мощностей, а, напротив, возвращения к первоисточнику — к живому человеческому тексту с его непредсказуемостью, ошибками и разнообразием. Это само по себе говорит кое-что важное о том, чего пока не умеют воспроизводить даже самые мощные генеративные системы.


Новое на сайте

Ссылка