
Команда Tongyi Lab (отделение Alibaba) представила Z-Image — модель ИИ для создания изображений, обладающую 6 миллиардами параметров. Разработчики утверждают, что по качеству она сопоставима с крупными коммерческими нейросетями, однако остаётся открытой.
Модели уже доступны: их можно использовать на видеокартах с памятью менее 16 ГБ, что позволяет запускать их даже на домашнем компьютере. Дополнительную информацию можно найти в материале Postium.
Также читайте: 25 нейросетей для генерации изображений
Нейросеть Z-Image — что это и как работает
Z-Image основана на архитектуре Single-Stream Diffusion Transformer (DiT). В отличие от традиционных методов, где текст и визуальная информация обрабатываются отдельно, здесь процесс происходит в едином потоке.
Модель сочетает текстовые условия и «зашумлённые» латенты (сжатые представления изображения) в одном потоке данных. Это даёт возможность нейросети лучше осознавать связь между словами в запросе и пикселями на изображении, что повышает точность генерации при меньших вычислительных затратах.
Во внутреннем рейтинге Elo Z-Image демонстрирует результаты, сопоставимые с закрытыми системами, становясь лидером среди открытых моделей.

Главным отличием Z-Image от большинства open-source решений является наличие «интеллекта» и знаний о реальном мире. Модель включает модуль Prompt Enhancer, который формирует цепочку рассуждений перед созданием изображения. Нейросеть не просто ищет визуальные соответствия, но и применяет логику.

Кроме того, в модель встроены глубокие знания о мировой культуре и предметах. Она корректно воссоздаёт известные достопримечательности, конкретных персонажей и реальные объекты, не искажая их детали, в отличие от многих других открытых моделей.

Линейка состоит из трёх моделей — каждая предназначена для своей задачи. Доступные версии:
- Z-Image-Turbo — для пользователей. Это самая быстрая версия, которая требует всего 8 шагов вычислений для получения готового изображения. Она функционирует на потребительских GPU и производит фотореалистичные картинки.
- Z-Image-Base — для разработчиков. Базовая «чистая» модель без ускорений. Создана для дообучения, кастомных стилей, экспериментов и разработки собственных моделей на её основе.
- Z-Image-Edit — для дизайнеров. Версия для редактирования готовых изображений. Она функционирует как ИИ-фотошоп: можно загрузить картинку и запросить изменение определённого элемента, сохранив стиль и композицию.
Как пользоваться Z-Image бесплатно
Протестировать Z-Image легче всего прямо в браузере — на официальной странице в Hugging Face, где генерация производится без установки и настройки.

Для локального запуска достаточно загрузить веса интересующей версии и открыть их в любом стандартном инструменте, поддерживающем open-source модели: Diffusers, WebUI или ComfyUI.
Модель запускается аналогично обычным diffusion-моделям, работает на видеокартах до 16 ГБ и генерирует изображение по текстовому запросу без дополнительных параметров.
Почему это важно? Рынок генерации изображений за последние месяцы значительно изменился. Flux представил открытую ветку FLUX.1 и запустил Pro-версии, которые считаются образцом фотореализма, но доступны только в облаке. Google выпустил Nano Banana: базовая версия позволяет бесплатную генерацию и простое редактирование, тогда как Nano Banana Pro — это продвинутый инструмент, но с зависимостью от сервисов Gemini.
На этом фоне Z-Image выступает как ИИ-генератор, который одновременно открыт, компактен, работает локально и способен предоставить качество, близкое к флагманским решениям.
Итог: Пользователи получили бесплатный аналог лучших нейросетей, который «размышляет» перед созданием изображений и может быть запущен на обычном домашнем компьютере.


