Skip to main content
Что умеет нейросеть FaceCLIP

Компания ByteDance впервые представила свою мультимодальную модель FaceCLIP, предназначенную для анализа и создания изображений человеческих лиц, в открытом доступе. Теперь её можно протестировать и скачать непосредственно на платформе Hugging Face.

Ранее нейросеть FaceCLIP использовалась исключительно внутри компании ByteDance — в исследовательских проектах и испытаниях для таких сервисов, как TikTok и CapCut. Публикация на Hugging Face стала первым случаем, когда компания представила модель, непосредственно связанную с идентификацией и персонализацией. Дополнительную информацию смотрите в материале Postium.

Читайте также: Как генерировать видео с помощью ИИ Wan 2.5

Функционал нейросети FaceCLIP

FaceCLIP — это нейросеть, которая «распознает» человеческое лицо и может создавать новые изображения на основе текстового описания.

Говоря проще, это ИИ, который способен взять одну вашу фотографию и преобразовать её, например, в портрет в стиле аниме, деловой снимок для резюме или пляжное селфи — при этом ваше лицо останется неизменным.

Что умеет нейросеть FaceCLIP

Модель объединяет два метода: интерпретацию текста, как в CLIP (она понимает, что такое «улыбается» или «в очках»), и генерацию изображений, как в Stable Diffusion (создаёт реалистичные изображения).

FaceCLIP соединяет эти функции: она преобразует фотографию и текст в общий «вектор» — цифровое представление, которое интерпретирует как лицо, так и описание. Это позволяет модели сохранять узнаваемость человека, даже если вы изменяете стиль, эмоции или фон.

Как генерировать лица с помощью нейросети

Проще говоря, FaceCLIP — это ИИ, который умеет «перерисовывать вас», сохраняя при этом ваши черты.

Статья по теме: Промты для ИИ-фотосессий

Результаты и качество работы

По данным тестов разработчиков, FaceCLIP превосходит существующие решения, такие как ConsisID и IDAnimator:

  • Идентичность сохраняется наилучшим образом — средний индекс похожести (Identity Average) составил 0.516, в то время как у ConsisID он равен 0.414, а у IDAnimator — 0.349.
  • Качество видео и изображений выше — модели ByteDance достигают более низкого значения метрики Inception Distance (176 против 200 у ближайшего конкурента), что свидетельствует о реалистичности и стабильности получаемых результатов.
  • Лицо остаётся последовательным при различных углах обзора, без «склеек» и визуальных искажений.

Тест и промты для FaceCLIP

Эти же принципы лежат в основе другого открытого проекта ByteDance — EchoVideo, который генерирует персонализированные видеоролики на основании одной фотографии.

Как использовать FaceCLIP — краткое руководство

Для работы с нейросетью необходимо скачать её на свой компьютер и запустить, как обычную программу.

Шаг 1. Перейдите на страницу модели на Hugging Face (в разделе ByteDance).

Шаг 2. Откройте вкладку «Files and versions» и выберите папку model/ (в которой находятся веса модели). Скачайте все файлы из этой папки.

Как запустить FaceCLIP на своём компьютере

Шаг 3. Для локального запуска установите необходимые зависимости и загрузите веса, как в других проектах ByteDance, например EchoVideo.

Пример работы с репозиторием ByteDance:

git clone https://huggingface.co/bytedance/FaceCLIPcd FaceCLIPpip install -r requirements.txtpython demo.py

Модель поддерживает GPU и NPU, а для запуска подойдёт любая версия Python от 3.10 до 3.12.

Если вы хотите попробовать генерацию видео с сохранением лица, вы можете воспользоваться проектом EchoVideo. Эта модель создает короткие персонализированные клипы на основе текста и фото — при этом сохраняя мимику и стиль персонажа.

Ранее модели такого уровня — особенно те, что связаны с лицами — ByteDance не публиковала в открытом доступе. Все исследования по идентичности, включая FaceCLIP, EchoVideo или LVFace, оставались внутри компании. Теперь же FaceCLIP доступна на Hugging Face, с документацией и демонстрацией, что делает её доступной для исследователей, художников и разработчиков по всему миру.

Важно: FaceCLIP работает с биометрией, поэтому при использовании в продуктах следует учитывать правовые ограничения и получение согласия пользователей. На Hugging Face модель распространяется под открытой лицензией, но с предупреждением об этическом использовании.

Кроме того, недавно сервис NotebookLM добавил 6 визуальных стилей и режим «Бриф».

ByteDance Нейросети

Close Menu
Новости интернет маркетинга, сайтов, новости нейросетей и технологий