Является ли творчество искусственного интеллекта предсказуемым недостатком?

Модели генерации изображений, такие как DALL·E, Imagen и Stable Diffusion, построены на основе диффузионной технологии, которая теоретически должна создавать идеальные копии изображений из обучающей выборки. Однако на практике они создают новые, семантически осмысленные произведения. Исследователь искусственного интеллекта и физик Джулио Бироли из Высшей нормальной школы в Париже называет это парадоксом: «Если бы они работали идеально, они должны были бы просто запоминать... Но они этого не делают — они действительно способны создавать новые образцы».
Является ли творчество искусственного интеллекта предсказуемым недостатком?
Изображение носит иллюстративный характер

В основе диффузионных моделей лежит процесс, называемый шумоподавлением (denoising). Модель берет изображение, преобразует его в цифровой шум — набор случайных пикселей, — а затем пытается восстановить исходник. Долгое время оставалось загадкой, как пересборка уничтоженного изображения может привести к созданию совершенно нового произведения искусства. Новое исследование утверждает, что источником этой креативности являются именно технические несовершенства в процессе восстановления.

Эта работа, которая будет представлена на Международной конференции по машинному обучению в 2025 году, была проведена Мэйсоном Камбом, аспирантом в области прикладной физики в Стэнфордском университете, и его соавтором Сурьей Гангули, физиком из того же университета. Их центральный тезис заключается в том, что креативность диффузионных моделей — это детерминированный процесс и неизбежное следствие их архитектуры, а не какая-то загадочная эмерджентная способность.

Источником новизны служат два ключевых компромисса в архитектуре моделей, ранее считавшиеся их ограничениями. Первый — это локальность: модели обрабатывают изображение не целиком, а по небольшим группам пикселей («патчам»), не имея представления об общей итоговой картине. Второй — трансляционная эквивариантность, строгое правило, гарантирующее, что если входное изображение сдвинуто, то и результат на выходе будет сдвинут аналогичным образом. Это помогает создавать согласованные структуры.

Мэйсон Камб, начавший свою аспирантуру в 2022 году, когда OpenAI выпустила ChatGPT, заметил сходство между ошибками ИИ (например, лишними пальцами на руках у людей) и сбоями в биологических системах. Это напомнило ему о морфогенезе — процессе самосборки живых систем, таких как развитие органов у эмбриона. Этот процесс объясняется «узорами Тьюринга», названными в честь математика Алана Тьюринга. Они описывают, как клетки организуются на локальном уровне, реагируя только на сигналы соседних клеток, без центрального плана. Ошибки ИИ, по словам Камба, «пахли сбоем, который можно было бы ожидать от системы, работающей по принципу,,снизу вверх"».

Чтобы проверить свою гипотезу, Камб и Гангули создали чисто математическую модель — машину эквивариантной локальной оценки (ELS machine). Эта система не является обученным ИИ, а представляет собой набор уравнений, оптимизированных исключительно под принципы локальности и эквивариантности. Затем они взяли изображения, преобразованные в шум, и обработали их как с помощью машины ELS, так и с помощью мощных обученных диффузионных моделей, включая архитектуры ResNets и UNets.

Результаты оказались поразительными. Выходные данные машины ELS совпали с результатами, сгенерированными обученными моделями искусственного интеллекта, со средней точностью в 90%. Это доказывает, что именно локальность и эквивариантность являются ключевыми механизмами, управляющими «творческим» результатом. Феномен лишних пальцев является прямым следствием концентрации модели на локальных участках без глобального контекста.

Это исследование демистифицирует творчество ИИ, переводя его из области магии в плоскость предсказуемой математики. Бенджамин Хувер, исследователь машинного обучения в Технологическом институте Джорджии и IBM Research, отмечает, что это может указывать на сходство между творчеством ИИ и человека. И люди, и машины создают новое, собирая его из строительных блоков того, что они уже видели. Креативность в таком случае может быть процессом «заполнения пробелов» в неполных знаниях.

Тем не менее, данное объяснение имеет четкие границы. Оно применимо исключительно к диффузионным моделям, используемым для генерации изображений. Другие системы, такие как большие языковые модели вроде ChatGPT, не используют принципы локальности и эквивариантности в своей работе. Как заключает Джулио Бироли, «я думаю, что это очень важная часть истории, [но] это не вся история».


Новое на сайте

19164Уязвимые обучающие приложения открывают доступ к облакам Fortune 500 для криптомайнинга 19163Почему ботнет SSHStalker успешно атакует Linux уязвимостями десятилетней давности? 19162Microsoft устранила шесть уязвимостей нулевого дня и анонсировала радикальные изменения в... 19161Эскалация цифровой угрозы: как IT-специалисты КНДР используют реальные личности для... 19160Скрытые потребности клиентов и преимущество наблюдения над опросами 19159Академическое фиаско Дороти Паркер в Лос-Анджелесе 19158Китайский шпионский фреймворк DKnife захватывает роутеры с 2019 года 19157Каким образом корейские детские хоры 1950-х годов превратили геополитику в музыку и... 19156Научная революция цвета в женской моде викторианской эпохи 19155Как новый сканер Microsoft обнаруживает «спящих агентов» в открытых моделях ИИ? 19154Как новая кампания DEADVAX использует файлы VHD для скрытой доставки трояна AsyncRAT? 19153Как новые китайские киберкампании взламывают госструктуры Юго-Восточной Азии? 19152Культ священного манго и закат эпохи хунвейбинов в маоистском Китае 19151Готовы ли вы к эре коэффициента адаптивности, когда IQ и EQ больше не гарантируют успех? 19150Иранская группировка RedKitten применяет сгенерированный нейросетями код для кибершпионажа
Ссылка