Ssylka

Является ли творчество искусственного интеллекта предсказуемым недостатком?

Модели генерации изображений, такие как DALL·E, Imagen и Stable Diffusion, построены на основе диффузионной технологии, которая теоретически должна создавать идеальные копии изображений из обучающей выборки. Однако на практике они создают новые, семантически осмысленные произведения. Исследователь искусственного интеллекта и физик Джулио Бироли из Высшей нормальной школы в Париже называет это парадоксом: «Если бы они работали идеально, они должны были бы просто запоминать... Но они этого не делают — они действительно способны создавать новые образцы».
Является ли творчество искусственного интеллекта предсказуемым недостатком?
Изображение носит иллюстративный характер

В основе диффузионных моделей лежит процесс, называемый шумоподавлением (denoising). Модель берет изображение, преобразует его в цифровой шум — набор случайных пикселей, — а затем пытается восстановить исходник. Долгое время оставалось загадкой, как пересборка уничтоженного изображения может привести к созданию совершенно нового произведения искусства. Новое исследование утверждает, что источником этой креативности являются именно технические несовершенства в процессе восстановления.

Эта работа, которая будет представлена на Международной конференции по машинному обучению в 2025 году, была проведена Мэйсоном Камбом, аспирантом в области прикладной физики в Стэнфордском университете, и его соавтором Сурьей Гангули, физиком из того же университета. Их центральный тезис заключается в том, что креативность диффузионных моделей — это детерминированный процесс и неизбежное следствие их архитектуры, а не какая-то загадочная эмерджентная способность.

Источником новизны служат два ключевых компромисса в архитектуре моделей, ранее считавшиеся их ограничениями. Первый — это локальность: модели обрабатывают изображение не целиком, а по небольшим группам пикселей («патчам»), не имея представления об общей итоговой картине. Второй — трансляционная эквивариантность, строгое правило, гарантирующее, что если входное изображение сдвинуто, то и результат на выходе будет сдвинут аналогичным образом. Это помогает создавать согласованные структуры.

Мэйсон Камб, начавший свою аспирантуру в 2022 году, когда OpenAI выпустила ChatGPT, заметил сходство между ошибками ИИ (например, лишними пальцами на руках у людей) и сбоями в биологических системах. Это напомнило ему о морфогенезе — процессе самосборки живых систем, таких как развитие органов у эмбриона. Этот процесс объясняется «узорами Тьюринга», названными в честь математика Алана Тьюринга. Они описывают, как клетки организуются на локальном уровне, реагируя только на сигналы соседних клеток, без центрального плана. Ошибки ИИ, по словам Камба, «пахли сбоем, который можно было бы ожидать от системы, работающей по принципу,,снизу вверх"».

Чтобы проверить свою гипотезу, Камб и Гангули создали чисто математическую модель — машину эквивариантной локальной оценки (ELS machine). Эта система не является обученным ИИ, а представляет собой набор уравнений, оптимизированных исключительно под принципы локальности и эквивариантности. Затем они взяли изображения, преобразованные в шум, и обработали их как с помощью машины ELS, так и с помощью мощных обученных диффузионных моделей, включая архитектуры ResNets и UNets.

Результаты оказались поразительными. Выходные данные машины ELS совпали с результатами, сгенерированными обученными моделями искусственного интеллекта, со средней точностью в 90%. Это доказывает, что именно локальность и эквивариантность являются ключевыми механизмами, управляющими «творческим» результатом. Феномен лишних пальцев является прямым следствием концентрации модели на локальных участках без глобального контекста.

Это исследование демистифицирует творчество ИИ, переводя его из области магии в плоскость предсказуемой математики. Бенджамин Хувер, исследователь машинного обучения в Технологическом институте Джорджии и IBM Research, отмечает, что это может указывать на сходство между творчеством ИИ и человека. И люди, и машины создают новое, собирая его из строительных блоков того, что они уже видели. Креативность в таком случае может быть процессом «заполнения пробелов» в неполных знаниях.

Тем не менее, данное объяснение имеет четкие границы. Оно применимо исключительно к диффузионным моделям, используемым для генерации изображений. Другие системы, такие как большие языковые модели вроде ChatGPT, не используют принципы локальности и эквивариантности в своей работе. Как заключает Джулио Бироли, «я думаю, что это очень важная часть истории, [но] это не вся история».


Новое на сайте

18883Четыреста колец в туманности эмбрион раскрыли тридцатилетнюю тайну звездной эволюции 18882Телескоп Джеймс Уэбб раскрыл тайны сверхэффективной звездной фабрики стрелец B2 18881Математический анализ истинного количества сквозных отверстий в человеческом теле 18880Почему даже элитные суперраспознаватели проваливают тесты на выявление дипфейков без... 18879Шесть легендарных древних городов и столиц империй, местоположение которых до сих пор... 18878Обзор самых необычных медицинских диагнозов и клинических случаев 2025 года 18877Критическая уязвимость CVE-2025-14847 в MongoDB открывает удаленный доступ к памяти... 18876Научное обоснование классификации солнца как желтого карлика класса G2V 18875Как безграничная преданность горным гориллам привела Дайан Фосси к жестокой гибели? 18874Новый родственник спинозавра из Таиланда меняет представления об эволюции хищников Азии 18873Как новая электрохимическая технология позволяет удвоить добычу водорода и снизить... 18872Могут ли ледяные гиганты Уран и Нептун на самом деле оказаться каменными? 18871Внедрение вредоносного кода в расширение Trust Wallet привело к хищению 7 миллионов... 18870Проверка клинического мышления на основе редких медицинских случаев 2025 года 18869Реконструкция черепа возрастом 1,5 миллиона лет меняет представление об эволюции Homo...