
Google анонсировала Gemini Embedding 2 — новую модель, основанную на архитектуре Gemini. Это не генеративная нейросеть и не чат-бот. Основная задача — преобразование данных различных форматов в числовые представления, чтобы системы могли находить и сопоставлять информацию по смыслу.
Модель обрабатывает текст, изображения, видео, аудио и документы. Она конвертирует все эти данные в единое embedding-пространство — коллекцию числовых векторов, где близость объектов указывает на схожесть их значений.
Gemini Embedding 2 уже доступна в формате Public Preview через Gemini API и Vertex AI. Подробности можно найти в материале Postium.
Читайте также: Как использовать нейросеть Gemini AI
Gemini Embedding 2 — возможности и принцип работы
Embedding-модели применяются для семантического поиска и анализа данных. Они не генерируют ответы, а преобразуют информацию в числовые векторы. Эти векторы можно сопоставлять: если данные схожи по смыслу, их embeddings будут находиться рядом.
Gemini Embedding 2 осуществляет это одновременно для нескольких типов контента. Текст, изображения, аудио, видео и PDF-документы переводятся в одно пространство значений.

Это позволяет напрямую сопоставлять различные форматы. Например, можно искать изображения по текстовому запросу или находить фрагменты видео по их описанию.
Модель поддерживает более 100 языков и может обрабатывать смешанные входные данные. В одном запросе возможно передать несколько типов контента — к примеру, текст совместно с изображением.
Технические ограничения модели:
- текст — до 8192 входных токенов
- изображения — до 6 файлов PNG или JPEG в одном запросе
- видео — до 120 секунд в формате MP4 или MOV
- аудио — принимается непосредственно, без обязательной транскрибации
- документы — PDF до 6 страниц
Модель применяет технику Matryoshka Representation Learning. Она позволяет уменьшать размер embedding-вектора без полной переработки представления. Базовый размер составляет 3072 измерения, но его можно уменьшить. Google рекомендует использовать 3072, 1536 или 768 измерений в зависимости от требований к качеству и объему хранения.
Как воспользоваться
Gemini Embedding 2 доступна через модель gemini-embedding-2-preview в Gemini API и Vertex AI.
Разработчик отправляет в API данные — например текст, изображение или аудио. Модель возвращает embedding-вектор. Эти векторы обычно хранятся в векторных базах данных и используются для поиска, кластеризации или систем Retrieval-Augmented Generation (RAG).
Модель уже интегрирована с рядом инструментов для AI-разработки, включая LangChain, LlamaIndex, Haystack, Weaviate, Qdrant, ChromaDB и Vector Search.
Почему это важно? Во многих системах данные хранятся в различных форматах — текст, изображения, видео или аудио. Для их обработки часто привлекаются разные модели и сложные пайплайны: изображения индексируются отдельно, аудио сначала конвертируется в текст, а потом анализируется.
Gemini Embedding 2 объединяет эти задачи в одной модели. Она может индексировать и сопоставлять данные разных типов напрямую, что упрощает архитектуру систем поиска и анализа.
Компания Sparkonomy применяет модель для индексации видеоконтента и сообщает о снижении задержки до 70% благодаря отказу от отдельных этапов обработки.
Embedding-модели используются в семантическом поиске, рекомендациях, анализе данных и системах RAG. Они позволяют сравнивать информацию по смыслу, а не по точному совпадению слов.
Ранее Google предлагала embedding-модели преимущественно для текста. Gemini Embedding 2 расширяет эту концепцию: embeddings становятся мультимодальными, и модель может одновременно работать с визуальными, аудио- и текстовыми данными.
В заключение: Gemini Embedding 2 — модель, которая преобразует текст, изображения, видео, аудио и документы в единое пространство значений, чтобы системы могли искать и сопоставлять различные типы данных.


