Google представила Gemini Embedding 2 — нейросеть для поиска и сопоставления текста, изображений, видео и аудио

Google анонсировала Gemini Embedding 2 — новую модель, основанную на архитектуре Gemini. Это не генеративная нейросеть и не чат-бот. Основная задача — преобразование данных различных форматов в числовые представления, чтобы системы могли находить и сопоставлять информацию по смыслу.

Модель обрабатывает текст, изображения, видео, аудио и документы. Она конвертирует все эти данные в единое embedding-пространство — коллекцию числовых векторов, где близость объектов указывает на схожесть их значений.

Gemini Embedding 2 уже доступна в формате Public Preview через Gemini API и Vertex AI. Подробности можно найти в материале Postium.

Читайте также: Как использовать нейросеть Gemini AI

Gemini Embedding 2 — возможности и принцип работы

Embedding-модели применяются для семантического поиска и анализа данных. Они не генерируют ответы, а преобразуют информацию в числовые векторы. Эти векторы можно сопоставлять: если данные схожи по смыслу, их embeddings будут находиться рядом.

Gemini Embedding 2 осуществляет это одновременно для нескольких типов контента. Текст, изображения, аудио, видео и PDF-документы переводятся в одно пространство значений.

Это позволяет напрямую сопоставлять различные форматы. Например, можно искать изображения по текстовому запросу или находить фрагменты видео по их описанию.

Модель поддерживает более 100 языков и может обрабатывать смешанные входные данные. В одном запросе возможно передать несколько типов контента — к примеру, текст совместно с изображением.

Технические ограничения модели:

текст — до 8192 входных токенов
изображения — до 6 файлов PNG или JPEG в одном запросе
видео — до 120 секунд в формате MP4 или MOV
аудио — принимается непосредственно, без обязательной транскрибации
документы — PDF до 6 страниц

Модель применяет технику Matryoshka Representation Learning. Она позволяет уменьшать размер embedding-вектора без полной переработки представления. Базовый размер составляет 3072 измерения, но его можно уменьшить. Google рекомендует использовать 3072, 1536 или 768 измерений в зависимости от требований к качеству и объему хранения.

Как воспользоваться

Gemini Embedding 2 доступна через модель gemini-embedding-2-preview в Gemini API и Vertex AI.

Разработчик отправляет в API данные — например текст, изображение или аудио. Модель возвращает embedding-вектор. Эти векторы обычно хранятся в векторных базах данных и используются для поиска, кластеризации или систем Retrieval-Augmented Generation (RAG).

Модель уже интегрирована с рядом инструментов для AI-разработки, включая LangChain, LlamaIndex, Haystack, Weaviate, Qdrant, ChromaDB и Vector Search.

Почему это важно? Во многих системах данные хранятся в различных форматах — текст, изображения, видео или аудио. Для их обработки часто привлекаются разные модели и сложные пайплайны: изображения индексируются отдельно, аудио сначала конвертируется в текст, а потом анализируется.

Gemini Embedding 2 объединяет эти задачи в одной модели. Она может индексировать и сопоставлять данные разных типов напрямую, что упрощает архитектуру систем поиска и анализа.

Компания Sparkonomy применяет модель для индексации видеоконтента и сообщает о снижении задержки до 70% благодаря отказу от отдельных этапов обработки.

Embedding-модели используются в семантическом поиске, рекомендациях, анализе данных и системах RAG. Они позволяют сравнивать информацию по смыслу, а не по точному совпадению слов.

Ранее Google предлагала embedding-модели преимущественно для текста. Gemini Embedding 2 расширяет эту концепцию: embeddings становятся мультимодальными, и модель может одновременно работать с визуальными, аудио- и текстовыми данными.

В заключение: Gemini Embedding 2 — модель, которая преобразует текст, изображения, видео, аудио и документы в единое пространство значений, чтобы системы могли искать и сопоставлять различные типы данных.

Тэги Gemini Google Нейросети

Google представила Gemini Embedding 2 — нейросеть для поиска и сопоставления текста, изображений, видео и аудио

Gemini Embedding 2 — возможности и принцип работы

Как воспользоваться

Популярные новости

Вышла нейросеть Seedance 2.5 — модель генерирует ролики до 30 секунд

Intel и Fortinet создали чип для борьбы с хакерами

MiniMax H3 — новая ИИ-модель для генерации видео с открытыми весами

Маркировка вызовов сократила число холодных обзвонов и спам-звонков

Умное кольцо из США позволит отслеживать уровень глюкозы и многих других веществ в крови

Последние новости

Вышла нейросеть Seedance 2.5 — модель генерирует ролики до 30 секунд

Intel и Fortinet создали чип для борьбы с хакерами

MiniMax H3 — новая ИИ-модель для генерации видео с открытыми весами

Маркировка вызовов сократила число холодных обзвонов и спам-звонков

Умное кольцо из США позволит отслеживать уровень глюкозы и многих других веществ в крови

НазадTeam Yandex запустила киберспортивную команду по MLBB

Далее«Контур» вошел в Экспертный совет Минцифры по электронной подписи

Google представила Gemini Embedding 2 — нейросеть для поиска и сопоставления текста, изображений, видео и аудио

Gemini Embedding 2 — возможности и принцип работы

Как воспользоваться

Популярные новости

Последние новости

НазадTeam Yandex запустила киберспортивную команду по MLBB

Далее«Контур» вошел в Экспертный совет Минцифры по электронной подписи

Лучшее от AllWeb.ru

Higgsfield AI запускает Ads — функцию для создания рекламных видео

Google откажется от входа в аккаунт по SMS

Apple удалила приложение Tea с отзывами на мужчин