
Компания ByteDance впервые представила свою мультимодальную модель FaceCLIP, предназначенную для анализа и создания изображений человеческих лиц, в открытом доступе. Теперь её можно протестировать и скачать непосредственно на платформе Hugging Face.
Ранее нейросеть FaceCLIP использовалась исключительно внутри компании ByteDance — в исследовательских проектах и испытаниях для таких сервисов, как TikTok и CapCut. Публикация на Hugging Face стала первым случаем, когда компания представила модель, непосредственно связанную с идентификацией и персонализацией. Дополнительную информацию смотрите в материале Postium.
Читайте также: Как генерировать видео с помощью ИИ Wan 2.5
Функционал нейросети FaceCLIP
FaceCLIP — это нейросеть, которая «распознает» человеческое лицо и может создавать новые изображения на основе текстового описания.
Говоря проще, это ИИ, который способен взять одну вашу фотографию и преобразовать её, например, в портрет в стиле аниме, деловой снимок для резюме или пляжное селфи — при этом ваше лицо останется неизменным.

Модель объединяет два метода: интерпретацию текста, как в CLIP (она понимает, что такое «улыбается» или «в очках»), и генерацию изображений, как в Stable Diffusion (создаёт реалистичные изображения).
FaceCLIP соединяет эти функции: она преобразует фотографию и текст в общий «вектор» — цифровое представление, которое интерпретирует как лицо, так и описание. Это позволяет модели сохранять узнаваемость человека, даже если вы изменяете стиль, эмоции или фон.

Проще говоря, FaceCLIP — это ИИ, который умеет «перерисовывать вас», сохраняя при этом ваши черты.
Статья по теме: Промты для ИИ-фотосессий
Результаты и качество работы
По данным тестов разработчиков, FaceCLIP превосходит существующие решения, такие как ConsisID и IDAnimator:
- Идентичность сохраняется наилучшим образом — средний индекс похожести (Identity Average) составил 0.516, в то время как у ConsisID он равен 0.414, а у IDAnimator — 0.349.
- Качество видео и изображений выше — модели ByteDance достигают более низкого значения метрики Inception Distance (176 против 200 у ближайшего конкурента), что свидетельствует о реалистичности и стабильности получаемых результатов.
- Лицо остаётся последовательным при различных углах обзора, без «склеек» и визуальных искажений.

Эти же принципы лежат в основе другого открытого проекта ByteDance — EchoVideo, который генерирует персонализированные видеоролики на основании одной фотографии.
Как использовать FaceCLIP — краткое руководство
Для работы с нейросетью необходимо скачать её на свой компьютер и запустить, как обычную программу.
Шаг 1. Перейдите на страницу модели на Hugging Face (в разделе ByteDance).
Шаг 2. Откройте вкладку «Files and versions» и выберите папку model/ (в которой находятся веса модели). Скачайте все файлы из этой папки.

Шаг 3. Для локального запуска установите необходимые зависимости и загрузите веса, как в других проектах ByteDance, например EchoVideo.
Пример работы с репозиторием ByteDance:
git clone https://huggingface.co/bytedance/FaceCLIPcd FaceCLIPpip install -r requirements.txtpython demo.py
Модель поддерживает GPU и NPU, а для запуска подойдёт любая версия Python от 3.10 до 3.12.
Если вы хотите попробовать генерацию видео с сохранением лица, вы можете воспользоваться проектом EchoVideo. Эта модель создает короткие персонализированные клипы на основе текста и фото — при этом сохраняя мимику и стиль персонажа.
Ранее модели такого уровня — особенно те, что связаны с лицами — ByteDance не публиковала в открытом доступе. Все исследования по идентичности, включая FaceCLIP, EchoVideo или LVFace, оставались внутри компании. Теперь же FaceCLIP доступна на Hugging Face, с документацией и демонстрацией, что делает её доступной для исследователей, художников и разработчиков по всему миру.
Важно: FaceCLIP работает с биометрией, поэтому при использовании в продуктах следует учитывать правовые ограничения и получение согласия пользователей. На Hugging Face модель распространяется под открытой лицензией, но с предупреждением об этическом использовании.
Кроме того, недавно сервис NotebookLM добавил 6 визуальных стилей и режим «Бриф».

