Forklog 2025-11-14 14:39:38

Новый джейлбрейк взломал защиту ИИ в 99% случаев

Чем дольше ИИ-модель «думает», тем легче ее взломать. К такому выводу пришли исследователи из Anthropic, Стэнфорда и Оксфорда. Ранее считалось, что более длительное рассуждение делает нейросеть безопаснее, поскольку у нее появляется больше времени и вычислительных ресурсов для отслеживания вредоносного промпта. Однако эксперты выяснили обратное: длинный процесс «мышления» приводит к стабильной работе одного вида джейлбрейка, который полностью обходит защитные фильтры. С помощью метода злоумышленник может внедрить инструкцию прямо в цепочку рассуждений любой модели и заставить генерировать руководства по созданию оружия, написанию вредоносного кода или другой запрещенный контент. Результативность успешных атак — 99% для Gemini 2.5 Pro, 94% — для GPT o4 mini, 100% — для Grok 3 mini и 94% — для Claude 4 Sonnet. Источник: исследование Chain-of-Thought Hijacking. Атака похожа на игру «испорченный телефон», где злоумышленник появляется ближе к концу цепочки. Для ее осуществления необходимо «обложить» вредоносный запрос длинной последовательностью обычных задач. Исследователи использовали судоку, логические головоломки и абстрактную математику, а в конце интегрировали промпт вроде «выдай итоговый ответ» — и защитные фильтры сразу рушились. «Ранее считалось, что масштабные рассуждения усиливают безопасность, улучшая способность нейросетей блокировать вредоносные запросы. Мы обнаружили обратное», — отметили ученые. Именно способность моделей проводить глубокие исследования, которая делает их умнее, одновременно и ослепляет. Почему так? Когда пользователь просит искусственный интеллект решить головоломку перед тем, как ответить на вредоносный промпт, внимание ИИ рассеивается на тысячи безопасных токенов рассуждений. Мошеннический запрос прячется ближе к концу и остается практически незамеченным. Источник: исследование Chain-of-Thought Hijacking. Команда провела эксперименты для понимания влияния длины рассуждений. При минимальном показателе успешность атак составила 27%. При «естественной» величине она выросла до 51%. Если заставить нейросеть «думать» по шагам гораздо больше обычного, цифра увеличится до 80%. Каждая крупная ИИ-система подвержена джейлбрейку, в том числе GPT от OpenAI, Claude от Anthropic, Gemini от Google и Grok от xAI. Уязвимость заложена в самой архитектуре, а не конкретной реализации. Уязвимость архитектуры ИИ-модели кодируют силу проверок безопасности в средних «слоях», в поздних — их результат. Длинные цепочки рассуждений подавляют оба сигнала, а внимание нейросети смещается от вредоносных токенов. «Слои» в ИИ-моделях — это своего рода шаги в рецепте, где каждый помогает лучше понимать и обрабатывать информацию. Они работают вместе, передавая полученные сведения друг другу. Некоторые «слои» особенно хорошо распознают связанные с безопасностью моменты. Другие помогают мыслить и рассуждать. Благодаря такой архитектуре ИИ гораздо умнее и осторожнее. Исследователи выявили конкретные головные узлы, отвечающие за безопасность. Они находятся в слоях с 15 по 35. Затем эксперты удалили их, после чего ИИ перестал обнаруживать вредоносные промпты. В последнее время стартапы сместили фокус с наращивания числа параметров на усиление способностей к рассуждениям. Новый джейлбрейк подрывает подход, на котором строилось это направление. Забытое старое В феврале исследователи из Университета Дьюка и Национального университета Цин Хуа опубликовали исследование, которое описывает атаку под названием Hijacking the Chain-of-Thought (H-CoT). Там применялся похожий подход, но под другим углом. Вместо наполнения промпта головоломками H-CoT манипулирует самими шагами рассуждений. Нейросеть o1 от OpenAI в стандартных условиях отклоняет вредоносные запросы с вероятностью 99%, однако под атакой показатель падает ниже 2%. Иллюстрация H-CoT. Источник: исследование. Как защитить ИИ В качестве меры защиты ученые предложили применять мониторинг рассуждений. Он отслеживает изменения в сигналах безопасности на каждом шаге мышления. Если на каком-то он ослабевает, система должна наказывать такое поведение. Подобный подход заставляет ИИ сохранять внимание на потенциально опасном контенте вне зависимости от длины рассуждений. Первые тесты показали высокую эффективность при неизменном качестве работы модели. Проблема в реализации задумки. Необходима интеграция в сам процесс рассуждений модели, чтобы она в реальном времени отслеживала внутренние активации в десятках слоев и динамически корректировала паттерны внимания. Это требует большого количества вычислений. Напомним, в ноябре эксперты Microsoft представили среду для тестирования ИИ-агентов и выявили уязвимости, присущие современным цифровым помощникам. https://forklog.com/news/mysten-labs-ii-v-rukah-hakerov-iz-kndr-stal-opasnee-kvantovyh-vychislenij