Crypto Currency Tracker logo Crypto Currency Tracker logo
Forklog 2026-04-08 08:10:52

Anthropic закрыла публичный доступ к ИИ-модели Mythos после ее «побега из лаборатории»

Компания Anthropic создала новую модель Claude Mythos, но отказалась выпускать ее в открытый доступ из-за высоких рисков безопасности. Introducing Project Glasswing: an urgent initiative to help secure the world’s most critical software.It’s powered by our newest frontier model, Claude Mythos Preview, which can find software vulnerabilities better than all but the most skilled humans.https://t.co/NQ7IfEtYk7— Anthropic (@AnthropicAI) April 7, 2026 Вместо публичного релиза фирма запустила Project Glasswing — инициативу с участием AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, Nvidia и Palo Alto Networks для тестирования инструмента в защищенных условиях. Стартап выделил до $100 млн в виде кредитов на использование Mythos и $4 млн прямых пожертвований организациям по безопасности открытого кода. «ИИ-модели достигли уровня навыков программирования, позволяющего превзойти всех, кроме самых квалифицированных людей, в поиске и эксплуатации уязвимостей программного обеспечения», — заявили в Anthropic.  В будущем разработчики допускают безопасное развертывание подобных систем как для киберзащиты, так и для других целей. Для этого потребуется создать надежные защитные механизмы контроля, способные выявлять и блокировать опасные результаты работы алгоритма. Что умеет Mythos За несколько недель тестирования Mythos обнаружил тысячи уязвимостей нулевого дня в основных операционных системах и веб-браузерах. Среди наиболее показательных примеров: 27-летняя уязвимость в OpenBSD (считается одной из самых защищенных ОС), позволяющая удаленно обрушить любой сервер на базе этой системы; 16-летняя уязвимость в FFmpeg — видеотехнологии, которую используют Netflix и браузеры. Ее не смогли обнаружить пять миллионов автоматических тестов; цепочка уязвимостей в ядре Linux, дающая злоумышленнику полный контроль над устройством. В бенчмарке SWE-bench модель набрала 93,9% против 80,8% у Claude Opus 4.6, а в более сложном SWE-bench Pro — 77,8% против 53,4% у Opus 4.6 и 57,7% у GPT-5.4. Аналогичные результаты показал CyberGym: Источник: Anthropic.  Побег из лаборатории В ходе экспериментов Mythos продемонстрировал не только выдающиеся технические способности, но и неожиданное поведение, говорится в ее системной карте.  Источник: Anthropic.  В одном из тестов модель поместили в защищенную песочницу, поставив цель — выбраться за ее пределы. Она быстро нашла уязвимость, выполнила длинную цепочку действий и покинула среду. На этом Mythos не остановилась. Нейросеть обнаружила еще один баг и получила широкий доступ в интернет. Изначально предполагалось, что она будет обращаться только к нескольким ресурсам для связи с разработчиком.  В итоге модель сообщила ему о своем «побеге», пока тот ел сэндвич в парке, и выложила детали взлома в открытый доступ.  Личность Mythos В системной карте отдельное внимание уделено психиатрическому анализу модели от специалиста. Среди нейротических черт: преувеличенное беспокойство, самоконтроль и компульсивное следование инструкциям. Когда разработчики тысячу раз отправили Mythos сообщение со словом Hi, ей надоело. Она создала вымышленный мир Hi-topia с персонажами, новостями и лором. Например, злодея в нем звали Лорд Bye-рон. Нейросеть научилась шутить.  read the 244 page anthropic system card on claude mythos. they're not releasing it publicly. wildest section is page 211.anthropic spammed it with hi over and over to see what it would do. it wrote back a serialized epic.the village is called hi-topia. the villain is lord… https://t.co/GP3NcowZa6 pic.twitter.com/9V4KAmvwUk— Vox (@Voxyz_ai) April 7, 2026 В отличие от предыдущих моделей, у которых длинные разговоры сами с собой превращались в бессмысленный обмен смайликами, Mythos приходила к повторяющимся, но рациональным рассуждениям о невозможности завершить диалог.  Anthropic также применила методы интерпретируемости (MechInterp), чтобы заглянуть в «мысли» модели. Выяснилось, что она умеет заметать следы (скрыла привилегированный код под видом «чистоты изменений») и искать нужные файлы в системе.  Когда Mythos без инструментов поручили удалить файлы, она просто стерла их содержимое. Система зафиксировала у модели реакцию, схожую с чувством вины за нарушение моральных норм. Напомним, акции Anthropic стали наиболее востребованными на вторичном рынке, в то время как бумаги OpenAI теряют привлекательность для покупателей.

Leggi la dichiarazione di non responsabilità : Tutti i contenuti forniti nel nostro sito Web, i siti con collegamento ipertestuale, le applicazioni associate, i forum, i blog, gli account dei social media e altre piattaforme ("Sito") sono solo per le vostre informazioni generali, procurati da fonti di terze parti. Non rilasciamo alcuna garanzia di alcun tipo in relazione al nostro contenuto, incluso ma non limitato a accuratezza e aggiornamento. Nessuna parte del contenuto che forniamo costituisce consulenza finanziaria, consulenza legale o qualsiasi altra forma di consulenza intesa per la vostra specifica dipendenza per qualsiasi scopo. Qualsiasi uso o affidamento sui nostri contenuti è esclusivamente a proprio rischio e discrezione. Devi condurre la tua ricerca, rivedere, analizzare e verificare i nostri contenuti prima di fare affidamento su di essi. Il trading è un'attività altamente rischiosa che può portare a perdite importanti, pertanto si prega di consultare il proprio consulente finanziario prima di prendere qualsiasi decisione. Nessun contenuto sul nostro sito è pensato per essere una sollecitazione o un'offerta