Skip to main content
Нейросеть Z Image и Z Image Turbo: как скачать, установить и пользоваться бесплатно

Хотите создать безлимитный генератор изображений на своём компьютере? Z Image — это одна из выдающихся нейросетей для этих целей. Это открытая модель от Alibaba: её можно загрузить, установить локально и применять для генерации картинок, обработки фотографий и работы с референсами.

Z Image не ограничивается лишь генерацией по тексту. Модель также подходит для более сложных задач: редактирования изображений, увеличения их разрешения, AI-фотосессий, создания UGC-креативов, интеграции LoRA и настройки пользовательских рабочих процессов в ComfyUI.

В этом материале мы проанализируем, что собой представляет нейросеть Z Image, какие версии существуют, как бесплатно загрузить и установить её на компьютер, а также как использовать для различных задач — от генерации по запросу до работы с исходными материалами.

Также читайте: 33 промта для создания дизайна в ChatGPT Images 2.0

Возможности нейросети Z Image и её версии

Alibaba Z Image — это серия открытых моделей для генерации изображений, разработанная командой Tongyi-MAI внутри Alibaba. Модель доступна для скачивания: веса можно загрузить, установить локально и интегрировать с ComfyUI, Forge и другими интерфейсами. Поэтому вокруг Z Image быстро сформировалось сообщество с рабочими процессами, LoRA, ControlNet и готовыми сборками.

Почему Z Image сегодня считается одной из лучших open-source моделей для генерации изображений? Из-за оптимального сочетания качества и системных требований. Модель содержит 6 миллиардов параметров: она значительно легче многих тяжёлых open-source генераторов, но при этом демонстрирует впечатляющие результаты в фотореализме, предметной фотографии, иллюстрациях и изображениях с текстом.

С технической стороны Z Image является диффузионной моделью на архитектуре Scalable Single-Stream Diffusion Transformer. Проще говоря, Z Image обрабатывает текстовый запрос, создает набор случайного шума и поэтапно преобразует его в изображение. В отличие от некоторых других нейросетей, здесь текст и изображение обрабатываются в рамках одной системы, что позволяет модели лучше соотносить описание с конечным результатом.

Версии модели Z Image

У Z Image имеется четыре версии: Turbo, базовая Z Image, Edit и Omni.

1. Z Image Turbo — версия для быстрой генерации изображений по запросу. Она идеально подходит для создания обложек, постеров, рекламных креативов, иллюстраций и визуального контента для соцсетей.

2. Z Image — базовая версия для тех, кто хочет иметь контроль над результатом. Она работает медленнее, чем Turbo, но поддерживает CFG, негативные промты, fine-tuning, LoRA и ControlNet. Эту версию используют, когда необходимо адаптировать модель под бренд, персонажа, стиль иллюстраций, серию обложек или рабочий процесс в ComfyUI.

3. Z Image Edit — специализированная версия для редактирования изображений по текстовым инструкциям. Она предназначена для изменения объекта, фона, стиля, освещения и отдельных элементов сцены. Однако официальный чекпоинт Edit пока не выпущен, поэтому такие задачи чаще решают с помощью img2img, inpaint, ControlNet и сторонних рабочих процессов.

4. Z Image Omni-Base — универсальная база для генерации и редактирования. Она предназначена для разработки сообществом, fine-tuning и пользовательских рабочих потоков. Однако для загрузки Omni-Base пока недоступна.

Если вы устанавливаете Z Image локально, выбирайте между двумя вариантами: Turbo — для быстрых генераций, базовая Z Image — для контроля, LoRA, fine-tuning и сложных рабочих процессов.

Как протестировать Z Image бесплатно и без регистрации

По сути, официальный сайт Z Image является репозиторием проекта на GitHub. Здесь собраны все основные ссылки: описание модели, веса, документация, страницы с демо и версии Z Image. Именно через GitHub Tongyi-MAI распространяет модель.

Ниже на странице проекта находятся ссылки на демо-версии Z Image и Z Image Turbo. Они открываются через Hugging Face Spaces — это веб-интерфейс, где модель можно протестировать прямо в браузере (действительно бесплатно и без регистрации).

На Hugging Face сразу открывается панель генерации: поле для запроса, выбор разрешения, seed и количество шагов.

Steps — это количество шагов, за которое модель формирует изображение. У Z Image Turbo по умолчанию установлено 8 шагов: этого достаточно для быстрого тестирования.

Seed — это число, которое фиксирует случайность генерации. Если оставить random seed, модель будет выдавать новый результат каждый раз. Если указать конкретный seed, можно повторить похожую картинку с теми же настройками.

Далее всё просто: введите запрос для генерации изображения, нажмите Generate и ждите результата. Пробуйте свои запросы и наблюдайте, как Z Image справляется с фотореализмом, постерами, рекламными креативами и другими задачами.

Для первого теста этого будет достаточно. Если результат вас устроит, вы можете скачать веса и запускать Z Image локально через ComfyUI, Forge или другие интерфейсы.

Как скачать и установить Z Image на своём компьютере

Для локального запуска наиболее оптимальным вариантом является Z Image Turbo. Она быстрее базовой версии, требует меньше шагов генерации и лучше подходит для домашних видеокарт.

Поэтому далее рассмотрим установку и требования на примере Turbo.

Системные требования

Для локальной работы Z Image Turbo потребуется видеокарта NVIDIA с поддержкой CUDA. Официально поддерживается CUDA 11.4 и новее — это касается большинства RTX 20xx, 30xx, 40xx и 50xx.

Наиболее комфортный вариант — видеокарта с 16 GB VRAM и выше. На 12 GB модель можно запускать с оптимизациями. Для 8 GB скачивают FP8, GGUF, offload или специальные community-workflow, но это уже компромисс по скорости, разрешению и стабильности.

Какой файл скачивать

У Z Image существует множество форматов весов, и это зачастую вводит новичков в заблуждение. На практике достаточно понимать разницу между основными вариантами:

  • safetensors — основной формат модели. Это стандартный вариант для ComfyUI, Forge и большинства рабочих процессов.
  • bf16 — максимальное качество и полный размер модели. Требует много VRAM. Подходит для 16+ ГБ памяти.
  • fp16 — компромисс между качеством и потреблением памяти. Один из самых универсальных вариантов.
  • fp8 — облегчённая версия модели. Качество немного ниже, но модель занимает меньше VRAM и проще запускается на домашних видеокартах.

GGUF — отдельная тема. Это сильно сжатые версии модели для экономии памяти. Их используют, когда необходимо запустить модель даже на слабом оборудовании.

Также можно встретить Q8, Q5_K_M, NvFP4 и AIO. Это уже вариации квантизации и упаковки модели.

Что такое VAE и text encoder? У некоторых сборок Z Image VAE и text encoder идут отдельными файлами. Text encoder отвечает за понимание текста в запросе. VAE — за финальную сборку изображения: цвета, детали, резкость и качество картинки на выходе.

В AIO-сборках всё уже упаковано вместе. В обычных рабочих процессах эти файлы иногда нужно подключать отдельно.

Установка через ComfyUI

ComfyUI — самый популярный способ развернуть Z Image локально. Это нодовый интерфейс, где генерация реализуется как схема из блоков.

Для Z Image Turbo нужны три файла:

  • qwen_3_4b.safetensors — text encoder;
  • z_image_turbo_bf16.safetensors — diffusion model;
  • ae.safetensors — VAE.

Поместите их в соответствующие папки:

  • text encoder → ComfyUI/models/text_encoders/;
  • diffusion model → ComfyUI/models/diffusion_models/;
  • VAE → ComfyUI/models/vae/.

После этого загрузите готовый workflow для Z Image Turbo, проверьте, что все ноды обнаружили файлы, введите запрос и запустите генерацию.

Установка через Forge и Forge Neo

Forge и Forge Neo — более простой способ для тех, кто не предпочитает нодовый интерфейс ComfyUI.

По сути, это веб-интерфейс: загрузили модель, ввели запрос, нажали Generate. Интерфейс схож с Automatic1111, но поддержка новых моделей, таких как Z Image и FLUX, здесь лучше.

Для Z Image Turbo в Forge Neo лучше сразу искать специальные loader-ноды и отдельные инструкции от сообщества.

Как пользоваться Z Image — подробное руководство

Генерация изображений

Основной сценарий работы с Z Image Turbo — генерация изображений по текстовому запросу. Вы открываете рабочий процесс в ComfyUI, загружаете модель, вводите запрос и запускаете генерацию.

Для первого запуска достаточно:

  • выбрать модель Z Image Turbo;
  • ввести запрос;
  • установить 4–8 steps;
  • выбрать sampler;
  • нажать Queue Prompt.

У Z Image Turbo есть важная особенность: это быстрая дистиллированная модель. Она оптимизирована для небольшого количества шагов, поэтому лучше работает с короткими запросами, понятной структурой и без перегруженного negative prompt.

Z Image лучше воспринимает детальное описание сцены. Модель пытается буквально собрать изображение из текста: кто на картинке, какое освещение, какая камера, окружение, стиль и материалы сцены.

Поэтому хороший запрос формируется так:

  • объект;
  • окружение;
  • свет;
  • камера;
  • стиль.

Например:

cinematic portrait of a woman, soft studio lighting, realistic skin texture, shallow depth of field, black background, high detail

Или:

futuristic tokyo street at night, neon lights, rain reflections, cinematic atmosphere, ultra detailed

Для Z Image Turbo не настраивайте CFG так, как в SDXL или базовой Z Image. Turbo — дистиллированная модель, она предназначена для небольшого количества шагов и работает без CFG. В Diffusers ставьте guidance_scale=0.0; в ComfyUI лучше полагаться на готовый рабочий процесс.

Примеры рабочих запросов

Реалистичный портрет:

close-up photorealistic portrait of a woman, natural skin texture, soft diffused light, brown eyes, sharp focus, neutral studio background, realistic facial proportions, high detail

Продуктовая фотография:

minimalist product shot of a glass perfume bottle on a white marble surface, soft studio lighting, clean commercial photography, sharp reflections, premium advertising style, high resolution

В стиле аниме:

anime girl under cherry blossoms, school uniform, detailed eyes, vibrant colors, warm spring lighting, clean background, polished illustration style

Архитектура:

modern minimalist house exterior, concrete and glass facade, surrounded by trees, golden hour lighting, architectural photography, sharp details, clean composition

LoRA

LoRA — это дополнительные веса, которые накладываются на основную модель. Их используют, чтобы не загружать референс каждый раз: персонажа, стиль, товар или визуальный формат можно «вшить» в модель один раз.

Это похоже на SDXL/Flux: модель + LoRA. В отличие от Nano Banana, где лицо удерживается по загруженному фото, здесь персонажа обучают заранее. После этого можно задавать лишь сцену, одежду, позу и фон — модель сама подберет нужный образ.

Готовые LoRA можно найти на CivitAI и Hugging Face: введите в поиске «z image lora» и выбирайте адаптер по описанию, примерам и версии модели. Ищите LoRA, обученные именно для Z Image или Z Image Turbo.

В ComfyUI LoRA подключается через LoRA Loader. В Forge её нужно указывать прямо в запросе: <lora:имя_файла:сила>. Можно подключать несколько LoRA, но лучше начать с одной: так проще понять, что она изменяет — лицо, стиль, одежду, детализацию или общую эстетику.

Обучение LoRA локально и онлайн

Вы можете обучить свою LoRA под повторяющиеся задачи: одного персонажа, виртуального инфлюенсера, стиль бренда, карточки товара, превью или рекламные креативы. Это необходимо, когда модель должна стабильно воспроизводить лицо, объект или визуальный стиль, а не генерировать каждый раз случайный результат.

Z Image Turbo удобно использовать в готовом пайплайне: она быстро генерирует изображения. Но для обучения и тонкой настройки лучше подходит базовая Z Image — она рассчитана на fine-tuning, LoRA и кастомизацию. LoRA под Turbo тоже создаются, но это больше практика сообществ.

Для обучения нужны:

  • 15–30 качественных изображений персонажа, товара или стиля;
  • видеокарта от 12 GB VRAM, лучше 16 GB и выше;
  • подписи к изображениям;
  • конфигурация обучения под Z Image или Z Image Turbo.

Главное — чистый датасет. Если на фото разный свет, беспорядочный фон и случайные детали, LoRA запомнит лишнее. Если изображения подготовлены аккуратно, модель стабильнее удерживает лицо, стиль или объект.

Если своего оборудования нет, LoRA можно обучить онлайн через сторонние сервисы. Это проще, но обычно платно и требует загрузки изображений на чужие серверы.

ControlNet

ControlNet нужен для управления структурой изображения: позой, контуром, глубиной, композицией или эскизом. Если LoRA отвечает за стиль или персонажа, то ControlNet задает каркас сцены.

Для Z Image Turbo в ComfyUI обычно используют ControlNet Union. Он работает с различными типами входных данных: pose, depth, Canny-контур, сегментация и эскизы.

Схема работы проста: загружаете Z Image Turbo, подключаете ControlNet Union, добавляете референс и запрос. Модель использует структуру исходного материала и перестраивает сцену по описанию.

Ключевой параметр — strength. При значениях 0.5–0.8 модель удерживает позу или композицию, но не копирует исходник слишком точно. Чем выше значение, тем сильнее результат повторяет референс.

LoRA и ControlNet можно использовать совместно: LoRA удерживает персонажа или стиль, а ControlNet — позу и композицию. Так можно один раз обучить персонажа и затем генерировать серии изображений без постоянной загрузки лица как референса.

Можно ли отключить цензуру и генерировать NSFW

Tongyi-MAI не позиционирует Z Image как NSFW-модель. При локальном запуске пользователь управляет рабочим процессом, но NSFW LoRA, uncensored-сборки и «разблокировки» относятся к сторонним файлам, а не к официальной версии Z Image.

Например, на CivitAI можно найти NSFW LoRA и кастомные сборки под Z Image Turbo, которые смещают модель в сторону откровенного контента.

Тем не менее, если задача не в создании 18+ контента, а в обычной fashion-съемке, анатомических референсах, купальниках или художественных сценах, лучше формулировать запрос нейтрально: через жанр, свет, одежду, композицию и контекст, а не пытаться обходить ограничения модели.

Например:

Editorial fashion photo of a model wearing a minimalist summer swimsuit on a clean studio background, professional lighting, natural pose, high-end magazine style, tasteful composition, no explicit content

Такой запрос описывает обычную fashion-съемку без попытки «обойти» фильтры.

Важно: При локальном запуске ответственность за модель, LoRA, датасет, настройки и конечный результат лежит на пользователе.

Что дальше

Нейросеть Z Image стоит попробовать хотя бы ради одного: после локальной установки у вас появится свой генератор изображений без ограничений, очередей и зависимости от сторонних сервисов.

Начать можно просто:

  • протестируйте Z Image в демо на Hugging Face;
  • скачайте и запустите Z Image Turbo через ComfyUI;
  • подключите готовый рабочий процесс;
  • затем интегрируйте LoRA, ControlNet и img2img для своих задач.

По сути, Z Image превращает ваш компьютер в личную студию для генерации и обработки изображений. Вы один раз настраиваете рабочий процесс — и далее генерируете столько, сколько позволяет ваше оборудование.

Alibaba гайды Нейросети

Close Menu
Новости интернет маркетинга, сайтов, новости нейросетей и технологий