Является ли творчество искусственного интеллекта предсказуемым недостатком?

Модели генерации изображений, такие как DALL·E, Imagen и Stable Diffusion, построены на основе диффузионной технологии, которая теоретически должна создавать идеальные копии изображений из обучающей выборки. Однако на практике они создают новые, семантически осмысленные произведения. Исследователь искусственного интеллекта и физик Джулио Бироли из Высшей нормальной школы в Париже называет это парадоксом: «Если бы они работали идеально, они должны были бы просто запоминать... Но они этого не делают — они действительно способны создавать новые образцы».
Является ли творчество искусственного интеллекта предсказуемым недостатком?
Изображение носит иллюстративный характер

В основе диффузионных моделей лежит процесс, называемый шумоподавлением (denoising). Модель берет изображение, преобразует его в цифровой шум — набор случайных пикселей, — а затем пытается восстановить исходник. Долгое время оставалось загадкой, как пересборка уничтоженного изображения может привести к созданию совершенно нового произведения искусства. Новое исследование утверждает, что источником этой креативности являются именно технические несовершенства в процессе восстановления.

Эта работа, которая будет представлена на Международной конференции по машинному обучению в 2025 году, была проведена Мэйсоном Камбом, аспирантом в области прикладной физики в Стэнфордском университете, и его соавтором Сурьей Гангули, физиком из того же университета. Их центральный тезис заключается в том, что креативность диффузионных моделей — это детерминированный процесс и неизбежное следствие их архитектуры, а не какая-то загадочная эмерджентная способность.

Источником новизны служат два ключевых компромисса в архитектуре моделей, ранее считавшиеся их ограничениями. Первый — это локальность: модели обрабатывают изображение не целиком, а по небольшим группам пикселей («патчам»), не имея представления об общей итоговой картине. Второй — трансляционная эквивариантность, строгое правило, гарантирующее, что если входное изображение сдвинуто, то и результат на выходе будет сдвинут аналогичным образом. Это помогает создавать согласованные структуры.

Мэйсон Камб, начавший свою аспирантуру в 2022 году, когда OpenAI выпустила ChatGPT, заметил сходство между ошибками ИИ (например, лишними пальцами на руках у людей) и сбоями в биологических системах. Это напомнило ему о морфогенезе — процессе самосборки живых систем, таких как развитие органов у эмбриона. Этот процесс объясняется «узорами Тьюринга», названными в честь математика Алана Тьюринга. Они описывают, как клетки организуются на локальном уровне, реагируя только на сигналы соседних клеток, без центрального плана. Ошибки ИИ, по словам Камба, «пахли сбоем, который можно было бы ожидать от системы, работающей по принципу,,снизу вверх"».

Чтобы проверить свою гипотезу, Камб и Гангули создали чисто математическую модель — машину эквивариантной локальной оценки (ELS machine). Эта система не является обученным ИИ, а представляет собой набор уравнений, оптимизированных исключительно под принципы локальности и эквивариантности. Затем они взяли изображения, преобразованные в шум, и обработали их как с помощью машины ELS, так и с помощью мощных обученных диффузионных моделей, включая архитектуры ResNets и UNets.

Результаты оказались поразительными. Выходные данные машины ELS совпали с результатами, сгенерированными обученными моделями искусственного интеллекта, со средней точностью в 90%. Это доказывает, что именно локальность и эквивариантность являются ключевыми механизмами, управляющими «творческим» результатом. Феномен лишних пальцев является прямым следствием концентрации модели на локальных участках без глобального контекста.

Это исследование демистифицирует творчество ИИ, переводя его из области магии в плоскость предсказуемой математики. Бенджамин Хувер, исследователь машинного обучения в Технологическом институте Джорджии и IBM Research, отмечает, что это может указывать на сходство между творчеством ИИ и человека. И люди, и машины создают новое, собирая его из строительных блоков того, что они уже видели. Креативность в таком случае может быть процессом «заполнения пробелов» в неполных знаниях.

Тем не менее, данное объяснение имеет четкие границы. Оно применимо исключительно к диффузионным моделям, используемым для генерации изображений. Другие системы, такие как большие языковые модели вроде ChatGPT, не используют принципы локальности и эквивариантности в своей работе. Как заключает Джулио Бироли, «я думаю, что это очень важная часть истории, [но] это не вся история».


Новое на сайте

20065[b]СПКЯ стало СПМЯ: почему переименование болезни, затрагивающей миллионы женщин, заняло... 20064[b]Почему великая пирамида Гизы пережила все землетрясения за 4500 лет[/b] 20063[b]Генетика Homo erectus: что зубная эмаль рассказала о наших предках[/b] 20062[b]Кости в бухте эребус: что кости моряков Франклина рассказывают спустя полтора века[/b] 20061[b]Крупнейший плавучий ветрогенератор в мире: Китай испытывает установку у берегов... 20060[b]Карие глаза младенца стали индиго после лечения от COVID-19[/b] 20058[b]Почему серебряная чаша с Афиной пролежала в немецком лесу две тысячи лет?[/b] 20057[b]Дыра в атмосфере солнца: вспышка достигла пика и может зажечь полярное сияние[/b] 20056[b]Динго возрастом 950 лет: кто и зачем кормил могилу животного сотни лет?[/b] 20055[b]Томоэ гозэн: женщина-самурай, которая существовала на самом деле[/b] 20054[b]Что видели астронавты «Аполлона-12» над лунным горизонтом?[/b] 20053[b]Восковой блокнот на латыни и шёлковая туалетная бумага: кто посещал средневековый... 20052[b]Хантавирус на борту: 41 человек под наблюдением после рейса MV Hondius[/b] 20051[b]Зелёные камни в пещере Пиренеев: четыре тысячи лет медной металлургии[/b]
Ссылка