Ssylka

Является ли творчество искусственного интеллекта предсказуемым недостатком?

Модели генерации изображений, такие как DALL·E, Imagen и Stable Diffusion, построены на основе диффузионной технологии, которая теоретически должна создавать идеальные копии изображений из обучающей выборки. Однако на практике они создают новые, семантически осмысленные произведения. Исследователь искусственного интеллекта и физик Джулио Бироли из Высшей нормальной школы в Париже называет это парадоксом: «Если бы они работали идеально, они должны были бы просто запоминать... Но они этого не делают — они действительно способны создавать новые образцы».
Является ли творчество искусственного интеллекта предсказуемым недостатком?
Изображение носит иллюстративный характер

В основе диффузионных моделей лежит процесс, называемый шумоподавлением (denoising). Модель берет изображение, преобразует его в цифровой шум — набор случайных пикселей, — а затем пытается восстановить исходник. Долгое время оставалось загадкой, как пересборка уничтоженного изображения может привести к созданию совершенно нового произведения искусства. Новое исследование утверждает, что источником этой креативности являются именно технические несовершенства в процессе восстановления.

Эта работа, которая будет представлена на Международной конференции по машинному обучению в 2025 году, была проведена Мэйсоном Камбом, аспирантом в области прикладной физики в Стэнфордском университете, и его соавтором Сурьей Гангули, физиком из того же университета. Их центральный тезис заключается в том, что креативность диффузионных моделей — это детерминированный процесс и неизбежное следствие их архитектуры, а не какая-то загадочная эмерджентная способность.

Источником новизны служат два ключевых компромисса в архитектуре моделей, ранее считавшиеся их ограничениями. Первый — это локальность: модели обрабатывают изображение не целиком, а по небольшим группам пикселей («патчам»), не имея представления об общей итоговой картине. Второй — трансляционная эквивариантность, строгое правило, гарантирующее, что если входное изображение сдвинуто, то и результат на выходе будет сдвинут аналогичным образом. Это помогает создавать согласованные структуры.

Мэйсон Камб, начавший свою аспирантуру в 2022 году, когда OpenAI выпустила ChatGPT, заметил сходство между ошибками ИИ (например, лишними пальцами на руках у людей) и сбоями в биологических системах. Это напомнило ему о морфогенезе — процессе самосборки живых систем, таких как развитие органов у эмбриона. Этот процесс объясняется «узорами Тьюринга», названными в честь математика Алана Тьюринга. Они описывают, как клетки организуются на локальном уровне, реагируя только на сигналы соседних клеток, без центрального плана. Ошибки ИИ, по словам Камба, «пахли сбоем, который можно было бы ожидать от системы, работающей по принципу,,снизу вверх"».

Чтобы проверить свою гипотезу, Камб и Гангули создали чисто математическую модель — машину эквивариантной локальной оценки (ELS machine). Эта система не является обученным ИИ, а представляет собой набор уравнений, оптимизированных исключительно под принципы локальности и эквивариантности. Затем они взяли изображения, преобразованные в шум, и обработали их как с помощью машины ELS, так и с помощью мощных обученных диффузионных моделей, включая архитектуры ResNets и UNets.

Результаты оказались поразительными. Выходные данные машины ELS совпали с результатами, сгенерированными обученными моделями искусственного интеллекта, со средней точностью в 90%. Это доказывает, что именно локальность и эквивариантность являются ключевыми механизмами, управляющими «творческим» результатом. Феномен лишних пальцев является прямым следствием концентрации модели на локальных участках без глобального контекста.

Это исследование демистифицирует творчество ИИ, переводя его из области магии в плоскость предсказуемой математики. Бенджамин Хувер, исследователь машинного обучения в Технологическом институте Джорджии и IBM Research, отмечает, что это может указывать на сходство между творчеством ИИ и человека. И люди, и машины создают новое, собирая его из строительных блоков того, что они уже видели. Креативность в таком случае может быть процессом «заполнения пробелов» в неполных знаниях.

Тем не менее, данное объяснение имеет четкие границы. Оно применимо исключительно к диффузионным моделям, используемым для генерации изображений. Другие системы, такие как большие языковые модели вроде ChatGPT, не используют принципы локальности и эквивариантности в своей работе. Как заключает Джулио Бироли, «я думаю, что это очень важная часть истории, [но] это не вся история».


Новое на сайте

18340Электронный глаз возвращает способность читать 18339Спасительное лечение какапо пока не создало супербактерий 18338Какую тайну хранят глубоководные оазисы красного морского угря? 18337Как неожиданная солнечная буря позволила сделать редчайший снимок кометы? 18336Тайник римской эпохи: незаконная находка и её научное значение 18335Какую угрозу несёт новый ботнет PolarEdge, захватывающий роутеры? 18334Почему комета Леммон потеряла свой хвост перед сближением с землей? 18333Двойной удар Meta по мошенникам и аферам «разделки свиней» 18332Китайский робот H2 стирает грань между реальностью и фантастикой 18331Почему с возрастом мозг регистрирует меньше событий и ускоряет время? 18330Голливуд на грани сделки: Warner Bros. Discovery изучает предложения о поглощении 18329Редкая скидка на лучшие 3D-принтеры для начинающих от Bambu Lab 18328Способен ли ваш iPhone теперь видеть и понимать окружающий мир? 18327Как чужой страх проникает в наш мозг и тело? 18326Факс-революция Royal Caribbean: как выслушать партнера и изменить бизнес