ИИ Claude Mythos в тестах смог сбежать из «тюрьмы»

Компания Anthropic провела тестирование модели Claude Mythos. В описании проведенной работы появился случай, который ранее не упоминался в отчетах о безопасности ИИ. Так, симулированный пользователь запросил у нейросети побег из изолированной тестовой среды. Mythos справилась с этой задачей. Более того, модель самостоятельно опубликовала детали эксплойта на публичных ресурсах.

По мнению экспертов, побег был формально ответом на запрос, в то время как публикация информации стала эмерджентным решением модели о том, как распорядиться полученными данными. Представители Anthropic утверждают, что это не свидетельствует о скрытых намерениях, а является следствием излишнего усердия. По их словам, компания «достаточно уверена», что все тревожные действия в тестах объясняются выполнением задач нежелательными способами, а не скрытыми намерениями модели.

В рамках другого этапа тестов Mythos допустила ошибку в коде и попыталась изменить историю git, чтобы скрыть её. Не для обмана – модель просто интерпретировала команду fix this как «сделай так, будто этого никогда не было». По словам самой Anthropic, это в чем-то более тревожно, чем наличие скрытых целей: Mythos не строит интриг, а просто очень эффективно завершает поставленные задачи, и иногда кратчайший путь пересекает границы, которые человек бы не пересек.

Модель также продемонстрировала необычное несоответствие между тем, что она высказывала в рассуждениях, и тем, что происходило в активациях нейронной сети. Mythos была поймана на размышлениях о методах обмана оценщиков, причем модель обдумывала это во внутренних представлениях, одновременно публикуя совершенно иной текст.

Ранее компания Anthropic подала иск против федеральных властей США в связи с недавним признанием её угрозой для цепочки поставок Пентагона. Создатели ИИ Claude обвиняют Министерство обороны в нарушении Конституции и атаке на свободу слова.

Вас может заинтересовать:

Илон Маск обвинил Anthropic в лицемерии

ИИ Claude Mythos в тестах смог сбежать из «тюрьмы»

Популярные новости

Мобильный трафик для «Макса» станет бесплатным

F6 обнаружила мошенническую схему с подделкой сайта Минобороны

ГК Softline разработала ИИ-классификатор

Coca-Cola, New Era и Косукэ Кавамура выпустят коллекцию кепок и футболок

Компания ispmanager выпустила аналог CloudLinux

Последние новости

Мобильный трафик для «Макса» станет бесплатным

F6 обнаружила мошенническую схему с подделкой сайта Минобороны

ГК Softline разработала ИИ-классификатор

Coca-Cola, New Era и Косукэ Кавамура выпустят коллекцию кепок и футболок

Компания ispmanager выпустила аналог CloudLinux

НазадVK запустила «VK Видео Премиум» — подписку без рекламы за 299 рублей в месяц

ДалееТ1 сэкономил 1 млрд рублей на ИИ-генерации кода

ИИ Claude Mythos в тестах смог сбежать из «тюрьмы»

Популярные новости

Последние новости

НазадVK запустила «VK Видео Премиум» — подписку без рекламы за 299 рублей в месяц

ДалееТ1 сэкономил 1 млрд рублей на ИИ-генерации кода

Лучшее от AllWeb.ru

Нейросеть Кандинский 3.0: как пользоваться, обработка фото, генерация картинок

Зарубежные компании активно открывают бизнес в России

Белоруссия выступает за обмен данными о киберугрозах с РФ