Ssylka

Является ли творчество искусственного интеллекта предсказуемым недостатком?

Модели генерации изображений, такие как DALL·E, Imagen и Stable Diffusion, построены на основе диффузионной технологии, которая теоретически должна создавать идеальные копии изображений из обучающей выборки. Однако на практике они создают новые, семантически осмысленные произведения. Исследователь искусственного интеллекта и физик Джулио Бироли из Высшей нормальной школы в Париже называет это парадоксом: «Если бы они работали идеально, они должны были бы просто запоминать... Но они этого не делают — они действительно способны создавать новые образцы».
Является ли творчество искусственного интеллекта предсказуемым недостатком?
Изображение носит иллюстративный характер

В основе диффузионных моделей лежит процесс, называемый шумоподавлением (denoising). Модель берет изображение, преобразует его в цифровой шум — набор случайных пикселей, — а затем пытается восстановить исходник. Долгое время оставалось загадкой, как пересборка уничтоженного изображения может привести к созданию совершенно нового произведения искусства. Новое исследование утверждает, что источником этой креативности являются именно технические несовершенства в процессе восстановления.

Эта работа, которая будет представлена на Международной конференции по машинному обучению в 2025 году, была проведена Мэйсоном Камбом, аспирантом в области прикладной физики в Стэнфордском университете, и его соавтором Сурьей Гангули, физиком из того же университета. Их центральный тезис заключается в том, что креативность диффузионных моделей — это детерминированный процесс и неизбежное следствие их архитектуры, а не какая-то загадочная эмерджентная способность.

Источником новизны служат два ключевых компромисса в архитектуре моделей, ранее считавшиеся их ограничениями. Первый — это локальность: модели обрабатывают изображение не целиком, а по небольшим группам пикселей («патчам»), не имея представления об общей итоговой картине. Второй — трансляционная эквивариантность, строгое правило, гарантирующее, что если входное изображение сдвинуто, то и результат на выходе будет сдвинут аналогичным образом. Это помогает создавать согласованные структуры.

Мэйсон Камб, начавший свою аспирантуру в 2022 году, когда OpenAI выпустила ChatGPT, заметил сходство между ошибками ИИ (например, лишними пальцами на руках у людей) и сбоями в биологических системах. Это напомнило ему о морфогенезе — процессе самосборки живых систем, таких как развитие органов у эмбриона. Этот процесс объясняется «узорами Тьюринга», названными в честь математика Алана Тьюринга. Они описывают, как клетки организуются на локальном уровне, реагируя только на сигналы соседних клеток, без центрального плана. Ошибки ИИ, по словам Камба, «пахли сбоем, который можно было бы ожидать от системы, работающей по принципу,,снизу вверх"».

Чтобы проверить свою гипотезу, Камб и Гангули создали чисто математическую модель — машину эквивариантной локальной оценки (ELS machine). Эта система не является обученным ИИ, а представляет собой набор уравнений, оптимизированных исключительно под принципы локальности и эквивариантности. Затем они взяли изображения, преобразованные в шум, и обработали их как с помощью машины ELS, так и с помощью мощных обученных диффузионных моделей, включая архитектуры ResNets и UNets.

Результаты оказались поразительными. Выходные данные машины ELS совпали с результатами, сгенерированными обученными моделями искусственного интеллекта, со средней точностью в 90%. Это доказывает, что именно локальность и эквивариантность являются ключевыми механизмами, управляющими «творческим» результатом. Феномен лишних пальцев является прямым следствием концентрации модели на локальных участках без глобального контекста.

Это исследование демистифицирует творчество ИИ, переводя его из области магии в плоскость предсказуемой математики. Бенджамин Хувер, исследователь машинного обучения в Технологическом институте Джорджии и IBM Research, отмечает, что это может указывать на сходство между творчеством ИИ и человека. И люди, и машины создают новое, собирая его из строительных блоков того, что они уже видели. Креативность в таком случае может быть процессом «заполнения пробелов» в неполных знаниях.

Тем не менее, данное объяснение имеет четкие границы. Оно применимо исключительно к диффузионным моделям, используемым для генерации изображений. Другие системы, такие как большие языковые модели вроде ChatGPT, не используют принципы локальности и эквивариантности в своей работе. Как заключает Джулио Бироли, «я думаю, что это очень важная часть истории, [но] это не вся история».


Новое на сайте

18585Портативный звук JBL по рекордно низкой цене 18584Воин-крокодил триаса: находка в Бразилии связала континенты 18583Опиум как повседневность древнего Египта 18582Двойной удар по лекарственно-устойчивой малярии 18581Почему взрыв массивной звезды асимметричен в первые мгновения? 18580Почему самые удобные для поиска жизни звезды оказались наиболее враждебными? 18579Смертоносные вспышки красных карликов угрожают обитаемым мирам 18578Почему самый активный подводный вулкан тихого океана заставил ученых пересмотреть дату... 18577Вспышка на солнце сорвала запуск ракеты New Glenn к Марсу 18576Как фишинг-платформа Lighthouse заработала миллиард долларов и почему Google подала на... 18575Почему космический мусор стал реальной угрозой для пилотируемых миссий? 18574Зеленый свидетель: как мох помогает раскрывать преступления 18573Инфраструктурная гонка ИИ: Anthropic инвестирует $50 миллиардов для Claude 18572Кровь активных мышей омолодила мозг ленивых сородичей 18571Как легализация ставок превратила азарт в повседневную угрозу?