
Google представила EmbeddingGemma — компактную модель с 308 миллионами параметров, которая может храниться в памяти смартфона и функционировать офлайн. Она уже доступна в открытом доступе с коммерческой лицензией.
Модель требует менее 200 МБ оперативной памяти и обрабатывает текст с задержкой всего 15 миллисекунд. При этом она демонстрирует наилучшие результаты среди открытых моделей с количеством параметров до 500 миллионов в бенчмарке MTEB.
Читайте также: 6 лучших ИИ-чат-ботов
Возможности EmbeddingGemma
EmbeddingGemma обучена на более чем 100 языках, включая русский, и способна работать в различных размерностях. Она идеально подходит для интеграции в локальные RAG-системы и мобильные приложения.
- Обрабатывает до 2048 токенов контекста — этого достаточно для обработки больших абзацев и длинных запросов.
- Применяет новую схему представления (MRL), что позволяет выбирать размер эмбеддингов: от 768 до 128. Это упрощает использование на устройствах с ограниченной памятью.
- Совместима с такими инструментами, как sentence-transformers, llama.cpp, MLX, LiteLLM, LangChain, LlamaIndex, Weaviate, Ollama, Cloudflare и другими популярными решениями. Ее можно легко интегрировать в локальные или серверные RAG-системы.
Результаты открытых моделей до 500 миллионов параметров в бенчмарке MTEB:

Модель является частью семейства Gemma, которое Google развивает с 2024 года. Ранее компания выпускала генеративные модели (Gemma 1, 2 и 3), но EmbeddingGemma — первая, которая сосредоточена не на генерации, а на понимании текстов и поиске информации (Text Embeddings). Она подходит для задач семантического поиска, кластеризации, категоризации и RAG (retrieval-augmented generation).
Как скачать и установить EmbeddingGemma? Нейросеть уже доступна для загрузки на Hugging Face, Kaggle и в Vertex AI. Также опубликована подробная документация с примерами интеграции.
Ранее Google представил нейросеть Nano Banana.

