Skip to main content
Нейросеть Qwen-Image — как пользовать и создавать картинки с надписями на русском языке

Компания Qwen представила новую мультимодальную модель Qwen-Image — мощное решение, основанное на 20-миллиардной архитектуре MMDiT, разработанное для генерации изображений с высокой точностью текстов, редактирования картинок и поддержки различных языков.

Это не просто генератор изображений — это многофункциональный инструмент, способный обрабатывать сложные запросы с текстовыми элементами, объединяя художественную выразительность и техническую точность.

Читайте также: 5 нейросетей для генерации картинок с надписями

Чем может похвастаться нейросеть Qwen-Image?

1. Картинки с надписями

Qwen-Image способна “рисовать” текст на изображениях не только с высокой точностью, но и с учётом контекста, структуры, языка и даже стиля каллиграфии. Модель поддерживает как алфавитные языки (например, английский), так и иероглифические (китайский), может отображать длинные фразы, абзацы, рукописные надписи и сложные макеты.

Пример с китайским текстом:

Что умеет нейросеть Qwen-Image

На изображении изображена аниме-сцена в стиле Миядзаки, оживлённая улица, персонаж с табличкой «阿里云», магазины с вывесками «云存储», «云计算», «云模型». Все надписи хорошо различимы, их глубина, освещение и перспектива соблюдены безупречно.

Пример с английским текстом:

Пример с английским текстом

В витрине книжного магазина — постер с фразой «New Arrivals This Week», рядом подписи к книгам и афиша мероприятия. Модель корректно передала даже мелкие надписи на обложках книг, включая заголовки: The Silent Patient, The Night Circus и другие.

2. Точное редактирование изображений

Модель одинаково успешно выполняет как генерацию с нуля, так и редактирование. Qwen-Image предоставляет возможность:

  • добавлять или удалять объекты,
  • менять стили,
  • редактировать подписи,
  • изменять позы персонажей.

Все это возможно благодаря усовершенствованной мультитаск-обучающей парадигме, в которой текст и визуальный контекст обрабатываются одновременно.

3. Высокие результаты в тестах

Qwen-Image была протестирована на ряде бенчмарков:

  • GenEval, DPG, OneIG-Bench — генерация изображений,
  • GEdit, ImgEdit, GSO — редактирование,
  • LongText-Bench, ChineseWord, TextCraft — работа с текстом.

На всех тестах модель продемонстрировала выдающиеся результаты, особенно в рендеринге китайского текста — это редкость даже для лучших ИИ-систем.

Как использовать Qwen-Image для создания картинок с надписями на русском языке

Модель доступна в чат-боте Qwen Chat — просто выберите «Image Generation» и введите запрос. О том, как правильно это делать, мы писали в статье — промты для генерации изображений (не забудьте ознакомиться!).

Промт для генерации картинки

С надписями на русском языке пока справляется плохо:

С надписями на русском языке пока справляется плохо:

Сложные сцены на китайском:

Сложные сцены на китайском

Модель изобразила интерьер с висящими каллиграфическими свитками — включая правую, левую часть и горизонтальную надпись. Все символы читаемы, стиль выдержан, даже центральное изображение башни 岳阳楼 — выглядит реалистично.

Инфографика на английском:

Инфографика на английском

Изображение в формате инфографики с заголовком «Habits for Emotional Wellbeing» — включает 6 иконок, текстовые модули, декоративные рамки и чёткую структуру. Модель успешно справляется не только с короткими подписями, но и с абзацами, сохраняя симметрию, пропорции и визуальный ритм.

Мелкий текст:

Мелкий текст

На изображении — мужчина у окна с бумажным листом в руке. Лист занимает менее 10% кадра, но на нём написано четверостишие — и Qwen-Image смогла точно сгенерировать рукописный текст с полностью сохранённым содержанием.

Билингва:

Билингва

На стекле за героиней надпись: «Meet Qwen-Image – a powerful image foundation model capable of complex text rendering and precise image editing. 欢迎了解Qwen-Image…». Модель легко переключается между языками и стилями в одном кадре.

Постер:

Постер

«Imagination Unleashed» — кинопостер в футуристическом стиле с центральным компьютером, из которого вырываются цвета, образы и динамика. Все текстовые элементы, включая титры и слоганы, оформлены как в настоящем постере.

Презентации:

Презентации

Модель способна создать полноценную бизнес-презентацию. Пример — китайская слайд-страница с логотипом Alibaba, четырьмя иллюстрациями в едином стиле и текстовыми блоками «梅傲», «兰幽», «竹清», «菊淡». Всё — с фирменной графикой, цветами, шрифтами и чёткой композицией.

Qwen-Image адаптивна к различным запросам, включая реализм и фотореализм, импрессионизм, аниме и гейм-дизайн, минимализм и инфографику. Это делает её универсальным инструментом для дизайнеров, художников, маркетологов, стартапов и креаторов.

Qwen-Image — это шаг к демократизации визуального творчества. Она снижает барьер для входа, упрощает создание контента и открывает возможности для инновационных форматов — от образования до маркетинга. И в отличие от многих других моделей, она действительно умеет работать с текстом.

Ранее Gemini научилась генерировать комиксы и книжки с озвучкой.

Qwen Нейросети

Close Menu
Новости интернет маркетинга, сайтов, новости нейросетей и технологий