Может ли нейросеть генерировать картинки за 4 шага прямо на вашем смартфоне?

Генерация изображений с помощью искусственного интеллекта до сих пор оставалась привилегией мощных облачных серверов. Модели вроде Stable Diffusion, DALL-E и Midjourney требуют десятков шагов для создания одной картинки, и каждый такой шаг — это вычислительная нагрузка, с которой обычный ноутбук справляется с трудом, а телефон не справляется вовсе. Но новая модель SD3.5-Flash (полное название — Stable Diffusion 3.5 Flash) ломает эту схему радикально.
Может ли нейросеть генерировать картинки за 4 шага прямо на вашем смартфоне?

Может ли нейросеть генерировать картинки за 4 шага прямо на вашем смартфоне?

Изображение носит иллюстративный характер

Главная цифра, которую стоит запомнить: 4 шага. Именно столько нужно SD3.5-Flash для генерации изображения. Для сравнения — лучшие на сегодня модели используют порядка 40 шагов и больше. Разница в десять раз. И это не теоретическая выкладка, а работающий результат: образцы сгенерированных изображений уже существуют и доступны для оценки.
Почему количество шагов так критично? Каждый шаг в процессе генерации — это прогон нейросети через миллионы параметров. Чем больше шагов, тем больше времени и энергии тратится. На облачном сервере с кучей видеокарт это терпимо. На смартфоне с батареей на 5000 мАч и мобильным чипом — нет. Сокращение числа шагов в десять раз меняет саму экономику процесса.
SD3.5-Flash создавалась именно с прицелом на потребительские устройства. Смартфоны и ноутбуки — вот целевые платформы. Не дата-центры, не рабочие станции с несколькими GPU, а те устройства, которые лежат у вас в кармане или стоят на столе. Это принципиальный сдвиг: генерация изображений переезжает с серверов к пользователю.
Локальный запуск означает несколько вещей одновременно. Во-первых, не нужно платить за облачные вычисления. Во-вторых, не нужно отправлять запрос на удалённый сервер и ждать очереди. В-третьих, данные остаются на вашем устройстве — никакой промпт никуда не уходит.
Скептик спросит: а не страдает ли качество? Если модель делает в десять раз меньше шагов, логично предположить, что картинки будут хуже. Однако демонстрационные примеры SD3.5-Flash показывают, что модель способна выдавать визуально убедительные результаты. Конечно, прямое сравнение на сложных сценах с топовыми моделями при полном количестве шагов — это другой разговор. Но для большинства практических задач четырёх шагов, судя по всему, хватает.
Стоит понимать контекст. Индустрия генеративного ИИ последние два года занималась наращиванием мощности: больше параметров, больше данных для обучения, больше вычислений. SD3.5-Flash движется в противоположную сторону — к компактности и эффективности. И это, пожалуй, более трудная инженерная задача, чем просто увеличить модель.
Для обычного пользователя перспектива выглядит так: в обозримом будущем генерация картинок по текстовому описанию может стать стандартной функцией телефона, как сейчас — фотофильтры. Без подписок, без интернета, без задержек. Четыре шага, пара секунд, готовое изображение на экране.

Может ли нейросеть генерировать картинки за 4 шага прямо на вашем смартфоне?

Новое на сайте