Эксперты Allen Institute представили платформу SciArena, предназначенную для оценки эффективности ИИ-моделей для исследователей. Использовать сервис могут только те ученые, у которых имеется как минимум две опубликованные работы, и перед началом тестирования моделей они проходят тщательное обучение.

Как функционирует эта платформа: исследователь формулирует вопрос, на который система затем подбирает научные статьи из базы данных Semantic Scholar и передает информацию двум случайно выбранным моделям. Основываясь на найденных статьях и своих знаниях, модели составляют детализированные ответы на вопросы – ученый видит оба варианта ответа рядом и выбирает лучший.
На данный момент в общем рейтинге SciArena первое место занимает ИИ-модель ChatGPT o3 с оценкой в 1172 балла. Второе место заняла Claude Opus 4 (1080). Третью позицию занимает Gemini 2.5 Pro (1063). На четвертом и пятом местах расположились DeepSeek R1-0528 (1062) и ChatGPT o4-mini (1054).
Также стоит отметить, что ChatGPT o3 удерживает первое место во всех четырех наиболее востребованных категориях запросов – инженерных науках, здравоохранении, естественных науках, а также гуманитарных и социальных науках.
Важно подчеркнуть, что оценка платформы SciArena создана в первую очередь для профессиональных исследователей, а не для обычных пользователей, интересующихся наукой. Например, на практике модель самостоятельно ищет информацию и может ссылаться на ненадежные источники. SciArena это полностью исключает.
В то же время существует мнение, что из-за высокой популярности ChatGPT и других нейросетей интернет уже переполнен ненужной информацией и цифровым мусором. Эксперты полагают, что это затормаживает развитие будущих моделей искусственного интеллекта.
ChatGPT может привести к психическим расстройствам


