Исследователи из Yandex Research и НИУ ВШЭ предложили новый метод, который уменьшает вычислительные затраты и ускоряет процесс генерации изображений в диффузионных моделях без ущерба для качества. Разработанный подход, названный Scale-wise Distillation of Diffusion Models (SwD), позволяет получать результаты в диапазоне 0,3-0,4 секунды, сообщили IT Speaker в «Яндексе».

Обычно генерация требует множества шагов с высокоразрешающими вычислениями, хотя на начальных этапах формируется лишь общая структура. SwD решает эту задачу двумя способами: процесс генерации начинается с низкого разрешения и постепенно уточняется, а также применяется дистилляция обученных моделей (FLUX и Stable Diffusion 3.5), где более простая модель-студент сокращает количество шагов с десятков до 4-6.
Для обучения используется новая функция потерь – Maximum Mean Discrepancy (MMD), которая сравнивает внутренние представления изображения между моделью-учителем и моделью-студентом. В отличие от традиционных методов, это не требует дополнительных моделей, что упрощает и ускоряет процесс обучения. В экспериментальных тестах время одной итерации обучения уменьшилось в 7 раз.
SwD сокращает время генерации с нескольких секунд до 0,3-0,4 секунды, сохраняя при этом визуальное качество, что позволяет использовать диффузионные модели быстрее и дешевле, делая их более доступными для практического применения.
Ранее разработчики компании ByteDance представили новую open-source модель для генерации изображений с 14 млрд параметров, получившую название BitDance. По показателям производительности она превзошла всех конкурентов, включая Z-Image-Turbo, Z-Image, Seedream 3.0 и GPT Image, Flux.
ИИ Claude начал запрашивать паспорт у пользователей

