Искусственные интеллектуальные поисковики ошибаются в двух из трёх случаев.
Сбер представил GigaChat 2.0
Сбер анонсировал новую версию GigaChat 2.0 — усовершенствованную модель искусственного интеллекта, которая, по утверждениям разработчиков, является одной из лучших в мире в области обработки естественного языка на русском языке.
Все три варианта GigaChat 2.0 — MAX, Pro и Lite — были модернизированы. Пользователи могут продолжать использовать модели первого поколения или опробовать обновлённые версии перед их окончательным переходом. Все версии доступны через облачный API и могут быть развернуты локально в инфраструктуре компании.
GigaChat 2.0 улучшил свои способности в математике, естественных и гуманитарных науках, а также в программировании. На основе этой модели можно создавать автономные AI-агенты, способные решать сложные задачи.
По словам разработчиков, GigaChat 2.0 лучше удерживает контекст разговоров и анализирует больше текста. Если предыдущая версия могла обрабатывать около 48 страниц текста, новая версия справляется уже с 200 страницами. По предварительным данным, модель отвечает на вопросы на 25% эффективнее, соблюдая заданные форматы и условия.
Согласно независимому бенчмарку MERA для русского языка, GigaChat 2 MAX занимает лидирующую позицию среди моделей искусственного интеллекта. На основе бенчмарков формата MMLU как на русском, так и на английском языках, версия 2.0 сопоставима с зарубежными аналогами. В сравнении с DeepSeek-V3, Qwen2.5 (версия Qwen-2.5-75b), GPT4o и LLaMA 70B, GigaChat 2 MAX показывает лучшие результаты на фактические вопросы на русском языке и демонстрирует глубокое понимание точных наук.
Искусственные интеллектуальные поисковики ошибаются в двух из трёх случаев
Поисковые системы и чат-боты, использующие искусственный интеллект, зачастую предоставляют неверные ответы на запросы пользователей. К такому выводу пришли эксперты из Columbia Journalism Review.
В ходе исследования были проанализированы результаты работы нейросетей в различных поисковых системах и чат-ботах, таких как ChatGPT Search от OpenAI, Perplexity, Deepseek Search, Microsoft Copilot, Grok и Gemini от Google.
Результаты показали, что в целом нейросети выдавали ошибочные ответы более чем на две трети запросов. При этом процент ошибок варьировался в зависимости от платформы. Например, Perplexity ошибалась в 37% случаев, тогда как у Grok этот показатель был значительно выше — 94% ответов на запросы оказались неверными.
Кроме того, эксперты обнаружили, что генеративные поисковые инструменты создавали ссылки и цитировали материалы, копируя их с других сайтов. Это свидетельствует о том, что нейросети часто ссылаются не на первоисточники, а на сайты, которые дублируют чужой контент.