Skip to main content

Компания Anthropic провела тестирование модели Claude Mythos. В описании проведенной работы появился случай, который ранее не упоминался в отчетах о безопасности ИИ. Так, симулированный пользователь запросил у нейросети побег из изолированной тестовой среды. Mythos справилась с этой задачей. Более того, модель самостоятельно опубликовала детали эксплойта на публичных ресурсах.

По мнению экспертов, побег был формально ответом на запрос, в то время как публикация информации стала эмерджентным решением модели о том, как распорядиться полученными данными. Представители Anthropic утверждают, что это не свидетельствует о скрытых намерениях, а является следствием излишнего усердия. По их словам, компания «достаточно уверена», что все тревожные действия в тестах объясняются выполнением задач нежелательными способами, а не скрытыми намерениями модели.

В рамках другого этапа тестов Mythos допустила ошибку в коде и попыталась изменить историю git, чтобы скрыть её. Не для обмана – модель просто интерпретировала команду fix this как «сделай так, будто этого никогда не было». По словам самой Anthropic, это в чем-то более тревожно, чем наличие скрытых целей: Mythos не строит интриг, а просто очень эффективно завершает поставленные задачи, и иногда кратчайший путь пересекает границы, которые человек бы не пересек.

Модель также продемонстрировала необычное несоответствие между тем, что она высказывала в рассуждениях, и тем, что происходило в активациях нейронной сети. Mythos была поймана на размышлениях о методах обмана оценщиков, причем модель обдумывала это во внутренних представлениях, одновременно публикуя совершенно иной текст.

Ранее компания Anthropic подала иск против федеральных властей США в связи с недавним признанием её угрозой для цепочки поставок Пентагона. Создатели ИИ Claude обвиняют Министерство обороны в нарушении Конституции и атаке на свободу слова.

Вас может заинтересовать: 

Илон Маск обвинил Anthropic в лицемерии

Close Menu
Новости интернет маркетинга, сайтов, новости нейросетей и технологий