
Компания Qwen представила новую мультимодальную модель Qwen-Image — мощное решение, основанное на 20-миллиардной архитектуре MMDiT, разработанное для генерации изображений с высокой точностью текстов, редактирования картинок и поддержки различных языков.
Это не просто генератор изображений — это многофункциональный инструмент, способный обрабатывать сложные запросы с текстовыми элементами, объединяя художественную выразительность и техническую точность.
Читайте также: 5 нейросетей для генерации картинок с надписями
Чем может похвастаться нейросеть Qwen-Image?
1. Картинки с надписями
Qwen-Image способна “рисовать” текст на изображениях не только с высокой точностью, но и с учётом контекста, структуры, языка и даже стиля каллиграфии. Модель поддерживает как алфавитные языки (например, английский), так и иероглифические (китайский), может отображать длинные фразы, абзацы, рукописные надписи и сложные макеты.
Пример с китайским текстом:

На изображении изображена аниме-сцена в стиле Миядзаки, оживлённая улица, персонаж с табличкой «阿里云», магазины с вывесками «云存储», «云计算», «云模型». Все надписи хорошо различимы, их глубина, освещение и перспектива соблюдены безупречно.
Пример с английским текстом:

В витрине книжного магазина — постер с фразой «New Arrivals This Week», рядом подписи к книгам и афиша мероприятия. Модель корректно передала даже мелкие надписи на обложках книг, включая заголовки: The Silent Patient, The Night Circus и другие.
2. Точное редактирование изображений
Модель одинаково успешно выполняет как генерацию с нуля, так и редактирование. Qwen-Image предоставляет возможность:
- добавлять или удалять объекты,
- менять стили,
- редактировать подписи,
- изменять позы персонажей.
Все это возможно благодаря усовершенствованной мультитаск-обучающей парадигме, в которой текст и визуальный контекст обрабатываются одновременно.
3. Высокие результаты в тестах
Qwen-Image была протестирована на ряде бенчмарков:
- GenEval, DPG, OneIG-Bench — генерация изображений,
- GEdit, ImgEdit, GSO — редактирование,
- LongText-Bench, ChineseWord, TextCraft — работа с текстом.
На всех тестах модель продемонстрировала выдающиеся результаты, особенно в рендеринге китайского текста — это редкость даже для лучших ИИ-систем.
Как использовать Qwen-Image для создания картинок с надписями на русском языке
Модель доступна в чат-боте Qwen Chat — просто выберите «Image Generation» и введите запрос. О том, как правильно это делать, мы писали в статье — промты для генерации изображений (не забудьте ознакомиться!).

С надписями на русском языке пока справляется плохо:

Сложные сцены на китайском:

Модель изобразила интерьер с висящими каллиграфическими свитками — включая правую, левую часть и горизонтальную надпись. Все символы читаемы, стиль выдержан, даже центральное изображение башни 岳阳楼 — выглядит реалистично.
Инфографика на английском:

Изображение в формате инфографики с заголовком «Habits for Emotional Wellbeing» — включает 6 иконок, текстовые модули, декоративные рамки и чёткую структуру. Модель успешно справляется не только с короткими подписями, но и с абзацами, сохраняя симметрию, пропорции и визуальный ритм.
Мелкий текст:

На изображении — мужчина у окна с бумажным листом в руке. Лист занимает менее 10% кадра, но на нём написано четверостишие — и Qwen-Image смогла точно сгенерировать рукописный текст с полностью сохранённым содержанием.
Билингва:

На стекле за героиней надпись: «Meet Qwen-Image – a powerful image foundation model capable of complex text rendering and precise image editing. 欢迎了解Qwen-Image…». Модель легко переключается между языками и стилями в одном кадре.
Постер:

«Imagination Unleashed» — кинопостер в футуристическом стиле с центральным компьютером, из которого вырываются цвета, образы и динамика. Все текстовые элементы, включая титры и слоганы, оформлены как в настоящем постере.
Презентации:

Модель способна создать полноценную бизнес-презентацию. Пример — китайская слайд-страница с логотипом Alibaba, четырьмя иллюстрациями в едином стиле и текстовыми блоками «梅傲», «兰幽», «竹清», «菊淡». Всё — с фирменной графикой, цветами, шрифтами и чёткой композицией.
Qwen-Image адаптивна к различным запросам, включая реализм и фотореализм, импрессионизм, аниме и гейм-дизайн, минимализм и инфографику. Это делает её универсальным инструментом для дизайнеров, художников, маркетологов, стартапов и креаторов.
Qwen-Image — это шаг к демократизации визуального творчества. Она снижает барьер для входа, упрощает создание контента и открывает возможности для инновационных форматов — от образования до маркетинга. И в отличие от многих других моделей, она действительно умеет работать с текстом.
Ранее Gemini научилась генерировать комиксы и книжки с озвучкой.


