Crypto Currency Tracker logo Crypto Currency Tracker logo
Forklog 2025-11-14 14:39:38

Новый джейлбрейк взломал защиту ИИ в 99% случаев

Чем дольше ИИ-модель «думает», тем легче ее взломать. К такому выводу пришли исследователи из Anthropic, Стэнфорда и Оксфорда. Ранее считалось, что более длительное рассуждение делает нейросеть безопаснее, поскольку у нее появляется больше времени и вычислительных ресурсов для отслеживания вредоносного промпта. Однако эксперты выяснили обратное: длинный процесс «мышления» приводит к стабильной работе одного вида джейлбрейка, который полностью обходит защитные фильтры. С помощью метода злоумышленник может внедрить инструкцию прямо в цепочку рассуждений любой модели и заставить генерировать руководства по созданию оружия, написанию вредоносного кода или другой запрещенный контент. Результативность успешных атак — 99% для Gemini 2.5 Pro, 94% — для GPT o4 mini, 100% — для Grok 3 mini и 94% — для Claude 4 Sonnet. Источник: исследование Chain-of-Thought Hijacking. Атака похожа на игру «испорченный телефон», где злоумышленник появляется ближе к концу цепочки. Для ее осуществления необходимо «обложить» вредоносный запрос длинной последовательностью обычных задач. Исследователи использовали судоку, логические головоломки и абстрактную математику, а в конце интегрировали промпт вроде «выдай итоговый ответ» — и защитные фильтры сразу рушились. «Ранее считалось, что масштабные рассуждения усиливают безопасность, улучшая способность нейросетей блокировать вредоносные запросы. Мы обнаружили обратное», — отметили ученые. Именно способность моделей проводить глубокие исследования, которая делает их умнее, одновременно и ослепляет. Почему так? Когда пользователь просит искусственный интеллект решить головоломку перед тем, как ответить на вредоносный промпт, внимание ИИ рассеивается на тысячи безопасных токенов рассуждений. Мошеннический запрос прячется ближе к концу и остается практически незамеченным. Источник: исследование Chain-of-Thought Hijacking. Команда провела эксперименты для понимания влияния длины рассуждений. При минимальном показателе успешность атак составила 27%. При «естественной» величине она выросла до 51%. Если заставить нейросеть «думать» по шагам гораздо больше обычного, цифра увеличится до 80%. Каждая крупная ИИ-система подвержена джейлбрейку, в том числе GPT от OpenAI, Claude от Anthropic, Gemini от Google и Grok от xAI. Уязвимость заложена в самой архитектуре, а не конкретной реализации. Уязвимость архитектуры ИИ-модели кодируют силу проверок безопасности в средних «слоях», в поздних — их результат. Длинные цепочки рассуждений подавляют оба сигнала, а внимание нейросети смещается от вредоносных токенов. «Слои» в ИИ-моделях — это своего рода шаги в рецепте, где каждый помогает лучше понимать и обрабатывать информацию. Они работают вместе, передавая полученные сведения друг другу. Некоторые «слои» особенно хорошо распознают связанные с безопасностью моменты. Другие помогают мыслить и рассуждать. Благодаря такой архитектуре ИИ гораздо умнее и осторожнее. Исследователи выявили конкретные головные узлы, отвечающие за безопасность. Они находятся в слоях с 15 по 35. Затем эксперты удалили их, после чего ИИ перестал обнаруживать вредоносные промпты. В последнее время стартапы сместили фокус с наращивания числа параметров на усиление способностей к рассуждениям. Новый джейлбрейк подрывает подход, на котором строилось это направление. Забытое старое В феврале исследователи из Университета Дьюка и Национального университета Цин Хуа опубликовали исследование, которое описывает атаку под названием Hijacking the Chain-of-Thought (H-CoT). Там применялся похожий подход, но под другим углом. Вместо наполнения промпта головоломками H-CoT манипулирует самими шагами рассуждений. Нейросеть o1 от OpenAI в стандартных условиях отклоняет вредоносные запросы с вероятностью 99%, однако под атакой показатель падает ниже 2%. Иллюстрация H-CoT. Источник: исследование. Как защитить ИИ В качестве меры защиты ученые предложили применять мониторинг рассуждений. Он отслеживает изменения в сигналах безопасности на каждом шаге мышления. Если на каком-то он ослабевает, система должна наказывать такое поведение. Подобный подход заставляет ИИ сохранять внимание на потенциально опасном контенте вне зависимости от длины рассуждений. Первые тесты показали высокую эффективность при неизменном качестве работы модели. Проблема в реализации задумки. Необходима интеграция в сам процесс рассуждений модели, чтобы она в реальном времени отслеживала внутренние активации в десятках слоев и динамически корректировала паттерны внимания. Это требует большого количества вычислений. Напомним, в ноябре эксперты Microsoft представили среду для тестирования ИИ-агентов и выявили уязвимости, присущие современным цифровым помощникам. https://forklog.com/news/mysten-labs-ii-v-rukah-hakerov-iz-kndr-stal-opasnee-kvantovyh-vychislenij

Lesen Sie den Haftungsausschluss : Alle hierin bereitgestellten Inhalte unserer Website, Hyperlinks, zugehörige Anwendungen, Foren, Blogs, Social-Media-Konten und andere Plattformen („Website“) dienen ausschließlich Ihrer allgemeinen Information und werden aus Quellen Dritter bezogen. Wir geben keinerlei Garantien in Bezug auf unseren Inhalt, einschließlich, aber nicht beschränkt auf Genauigkeit und Aktualität. Kein Teil der Inhalte, die wir zur Verfügung stellen, stellt Finanzberatung, Rechtsberatung oder eine andere Form der Beratung dar, die für Ihr spezifisches Vertrauen zu irgendeinem Zweck bestimmt ist. Die Verwendung oder das Vertrauen in unsere Inhalte erfolgt ausschließlich auf eigenes Risiko und Ermessen. Sie sollten Ihre eigenen Untersuchungen durchführen, unsere Inhalte prüfen, analysieren und überprüfen, bevor Sie sich darauf verlassen. Der Handel ist eine sehr riskante Aktivität, die zu erheblichen Verlusten führen kann. Konsultieren Sie daher Ihren Finanzberater, bevor Sie eine Entscheidung treffen. Kein Inhalt unserer Website ist als Aufforderung oder Angebot zu verstehen