Skip to main content
Что умеет нейросеть HunyuanImage 3.0

Tencent официально представила HunyuanImage 3.0 — крупнейшую на сегодняшний день открытую модель для генерации изображений из текстовых описаний. Она обладает 80 млрд параметров, при этом во время инференса используется около 13 млрд.

Команда утверждает, что качество результатов сопоставимо с ведущими закрытыми моделями. Postium подготовил детальный обзор новой ИИ-модели, предназначенной для создания изображений.

Читайте также: 25 нейросетей для генерации изображений

Что умеет нейросеть HunyuanImage 3.0

HunyuanImage 3.0 разработана на основе MoE-архитектуры (Mixture of Experts) и объединяет языковую и визуальную модели в единую систему. В отличие от традиционных диффузионных генераторов (DiT), здесь применяется «трансфузионный» метод — плотная интеграция Diffusion и LLM-тренировок.

Это позволяет не только создавать изображения, но и эффективно работать с длинными промтами для их генерации, учитывая «мировые знания» и аккуратно интегрируя текст в изображения.

Что это означает на практике:

  • Поддержка длинных запросов до 1000+ слов.
  • Генерация читаемого текста на изображениях (постеры, комиксы, инфографика).
  • Работа со сложными стилями — от эмодзи и комиксов до образовательных иллюстраций.
  • Улучшенная скорость отклика: процесс занимает минуты, а не часы.

Как обучалась модель? Tencent заявляет о крупнейшем мультимодальном датасете в своей линейке: 5 млрд пар «текст–картинка», видеокадры и смешанные данные «текст + изображение», 6 трлн токенов текстовых коллекций.

Основой для модели послужил Hunyuan-A13B, мультимодальный LLM. Такой гибридный тренинг делает HunyuanImage 3.0 универсальной: она может совмещать задачи понимания текста и генерации изображений в одном шаге.

Статья в тему: Промты для обработки фото в ChatGPT

Как использовать HunyuanImage 3.0

1. Через официальный сайт. Перейдите на hunyuan.tencent.com/image и нажмите «Авторизоваться» в правом верхнем углу. Интерфейс пока доступен только на китайском, поэтому будет удобнее включить автоматический перевод в браузере.

Как пользоваться HunyuanImage 3.0

Авторизация по e-mail: введите свой адрес электронной почты, нажмите «Получить код» и используйте его в качестве пароля (обычного пароля здесь нет).

Как войти на сайт HunyuanImage

После входа выберите вкладку «Визуальная генерация» — это второй пункт меню справа.

Визуальная генерация

Откроется окно генерации. По умолчанию выбрана модель 3.0, но можно проверить настройки.

Как выбрать модель HunyuanImage 3.0

Введите промт (описание изображения) и получите результат за несколько минут. Сгенерированное изображение можно скачать или запросить повторную генерацию.

Как создавать изображения с помощью нейросети HunyuanImage 3.0

2. Через Hugging Face. Модель доступна в каталоге Hugging Face. Можно запустить через transformers или протестировать демо в браузере.

3. Локальный запуск. Код и веса (≈170 ГБ) опубликованы на GitHub. Для работы потребуется минимум 3–4 GPU по 80 ГБ. Имеется оптимизация FlashAttention и FlashInfer для повышения скорости.

Вероятно, модель вскоре станет доступна у партнеров.

В начале сентября Tencent выпустила HunyuanImage 2.1 (17B) — диффузионную модель с рефайнером, которая стала лидером в открытых бенчмарках T2I.

Параллельно компания развивает Hunyuan-LLM и HunyuanVideo. С релизом 3.0 Tencent делает акцент на единую архитектуру, которая объединяет текстовые и визуальные задачи в одном фреймворке. В планах добавить функции image-to-image, редактирование изображений и многошаговые диалоги с моделью.

Ранее Wan 2.5 добавила генерацию видео по аудиосигналу.

Нейросети

Close Menu
Новости интернет маркетинга, сайтов, новости нейросетей и технологий