Skip to main content
«Сбер» научил Kandinsky Image делать надписи на русском языке 

«Сбер» обновил модель Kandinsky Image, добавив поддержку генерации надписей на русском языке. Теперь нейросеть может вписывать кириллический текст непосредственно в изображение — на вывесках, этикетках, одежде или предметах. Раньше модель корректно обрабатывала только английские слова.

По данным компании, Kandinsky дообучили на 10 млн изображений с русским текстом в разных форматах — печатном, рукописном, вышитом, гравированном и других. Это позволило улучшить распознавание форм букв и адаптировать их к различным текстурам и ракурсам.

Функция уже доступна в Telegram-ботах Kandinsky и GigaChat, а также в веб-версии GigaChat, релиз на сайте Kandinsky.ai ожидается в ближайшее время.

Теперь пользователи могут создавать изображения с подписями вроде «Москва ночью», «С днём рождения!» или «Кофейня на углу» прямо в генерации, без последующего редактирования в графических редакторах. Лучше всего модель работает с короткими словами и простыми фразами. «Сбер» отмечает, что Kandinsky способна учитывать материал букв — например, «металлические», «неоновые» или «вышитые» — и естественно интегрировать текст в окружение.

Тестируем. Вот результат генерации по запросу: [нарисуй кофейню с вывеской «Кофе с тобой»]

Кофе с тобой

Комиксный стиль. Проверяем отрисовку комикса со словами. Запрос: [Комикс в современном стиле.Офисный работник сидит за ноутбуком, удивлённо смотрит на экран.Над его головой белое облачко речи с фразой:«О, ГигаЧат научился писать на русском!»].

Комиксный стиль

Обложка журнала. Проверяем размер текста и позиционирование на креативе. Запрос [Стильная девушка на глянцевой обложке журнала. Заголовок сверху большими буквами: «МОДА». Дополнительный текст мелко: «Тренды 2025»].

Обложка журнала

Текст прописью. Проверяем, как справляется с длинным рукописным текстом. Запрос: [учитель пишет на доске текст белым мелом прописью: «Сегодня мы будем изучать русский язык и его особенности.»]

Текст прописью

Твёрдый знак. Смотрим, сможет ли нейронка сгенерить надписи, где есть «Ъ». Запрос: [Витрина старинной булочной, на деревянной или стеклянной вывеске дореволюционным шрифтом написаны три слова: «ХЛЕБЪ», «СЫРЪ», «ПИРОГЪ»].

Надписи с твёрдым знаком

Материал букв. Проверяем как рисует буквы из указанного материала. Запрос: [слово «СТАЛЬ» объёмными буквами из настоящей стали на тёмном фоне].

Материал букв

В целом результат можно оценить на «пять с минусом». Нейронка уверенно справляется с печатными кириллическими шрифтами, особенно на коротких словах («ХЛЕБ», «СТАЛЬ»). Материалы — сталь, дерево, неон — выглядят убедительно и выразительно, визуал в целом читаемый.

Но проблемы остаются: прописной (рукописный) текст заменяет печатным, твёрдый знак «Ъ» не улавливает или заменяет на «Ь». В длинных фразах появляются ошибки и искажения. Тестировали в веб-версии GigaChat.

Kandinsky — собственная генеративная модель «Сбера», созданная на архитектуре diffusion и обученная на российских датасетах. В мае 2024 года вышла версия Kandinsky 3.1, которая повысила качество композиции и детализацию.

Осенью в GigaChat появилась возможность генерировать видеофрагменты и 3D-сцены. Новый апдейт с поддержкой кириллицы продолжает курс компании на локализацию и развитие отечественных AI-инструментов.

GigaChat Нейросети Сбер

Close Menu
Новости интернет маркетинга, сайтов, новости нейросетей и технологий