Crypto Currency Tracker logo Crypto Currency Tracker logo
Forklog 2025-11-14 14:39:38

Новый джейлбрейк взломал защиту ИИ в 99% случаев

Чем дольше ИИ-модель «думает», тем легче ее взломать. К такому выводу пришли исследователи из Anthropic, Стэнфорда и Оксфорда. Ранее считалось, что более длительное рассуждение делает нейросеть безопаснее, поскольку у нее появляется больше времени и вычислительных ресурсов для отслеживания вредоносного промпта. Однако эксперты выяснили обратное: длинный процесс «мышления» приводит к стабильной работе одного вида джейлбрейка, который полностью обходит защитные фильтры. С помощью метода злоумышленник может внедрить инструкцию прямо в цепочку рассуждений любой модели и заставить генерировать руководства по созданию оружия, написанию вредоносного кода или другой запрещенный контент. Результативность успешных атак — 99% для Gemini 2.5 Pro, 94% — для GPT o4 mini, 100% — для Grok 3 mini и 94% — для Claude 4 Sonnet. Источник: исследование Chain-of-Thought Hijacking. Атака похожа на игру «испорченный телефон», где злоумышленник появляется ближе к концу цепочки. Для ее осуществления необходимо «обложить» вредоносный запрос длинной последовательностью обычных задач. Исследователи использовали судоку, логические головоломки и абстрактную математику, а в конце интегрировали промпт вроде «выдай итоговый ответ» — и защитные фильтры сразу рушились. «Ранее считалось, что масштабные рассуждения усиливают безопасность, улучшая способность нейросетей блокировать вредоносные запросы. Мы обнаружили обратное», — отметили ученые. Именно способность моделей проводить глубокие исследования, которая делает их умнее, одновременно и ослепляет. Почему так? Когда пользователь просит искусственный интеллект решить головоломку перед тем, как ответить на вредоносный промпт, внимание ИИ рассеивается на тысячи безопасных токенов рассуждений. Мошеннический запрос прячется ближе к концу и остается практически незамеченным. Источник: исследование Chain-of-Thought Hijacking. Команда провела эксперименты для понимания влияния длины рассуждений. При минимальном показателе успешность атак составила 27%. При «естественной» величине она выросла до 51%. Если заставить нейросеть «думать» по шагам гораздо больше обычного, цифра увеличится до 80%. Каждая крупная ИИ-система подвержена джейлбрейку, в том числе GPT от OpenAI, Claude от Anthropic, Gemini от Google и Grok от xAI. Уязвимость заложена в самой архитектуре, а не конкретной реализации. Уязвимость архитектуры ИИ-модели кодируют силу проверок безопасности в средних «слоях», в поздних — их результат. Длинные цепочки рассуждений подавляют оба сигнала, а внимание нейросети смещается от вредоносных токенов. «Слои» в ИИ-моделях — это своего рода шаги в рецепте, где каждый помогает лучше понимать и обрабатывать информацию. Они работают вместе, передавая полученные сведения друг другу. Некоторые «слои» особенно хорошо распознают связанные с безопасностью моменты. Другие помогают мыслить и рассуждать. Благодаря такой архитектуре ИИ гораздо умнее и осторожнее. Исследователи выявили конкретные головные узлы, отвечающие за безопасность. Они находятся в слоях с 15 по 35. Затем эксперты удалили их, после чего ИИ перестал обнаруживать вредоносные промпты. В последнее время стартапы сместили фокус с наращивания числа параметров на усиление способностей к рассуждениям. Новый джейлбрейк подрывает подход, на котором строилось это направление. Забытое старое В феврале исследователи из Университета Дьюка и Национального университета Цин Хуа опубликовали исследование, которое описывает атаку под названием Hijacking the Chain-of-Thought (H-CoT). Там применялся похожий подход, но под другим углом. Вместо наполнения промпта головоломками H-CoT манипулирует самими шагами рассуждений. Нейросеть o1 от OpenAI в стандартных условиях отклоняет вредоносные запросы с вероятностью 99%, однако под атакой показатель падает ниже 2%. Иллюстрация H-CoT. Источник: исследование. Как защитить ИИ В качестве меры защиты ученые предложили применять мониторинг рассуждений. Он отслеживает изменения в сигналах безопасности на каждом шаге мышления. Если на каком-то он ослабевает, система должна наказывать такое поведение. Подобный подход заставляет ИИ сохранять внимание на потенциально опасном контенте вне зависимости от длины рассуждений. Первые тесты показали высокую эффективность при неизменном качестве работы модели. Проблема в реализации задумки. Необходима интеграция в сам процесс рассуждений модели, чтобы она в реальном времени отслеживала внутренние активации в десятках слоев и динамически корректировала паттерны внимания. Это требует большого количества вычислений. Напомним, в ноябре эксперты Microsoft представили среду для тестирования ИИ-агентов и выявили уязвимости, присущие современным цифровым помощникам. https://forklog.com/news/mysten-labs-ii-v-rukah-hakerov-iz-kndr-stal-opasnee-kvantovyh-vychislenij

면책 조항 읽기 : 본 웹 사이트, 하이퍼 링크 사이트, 관련 응용 프로그램, 포럼, 블로그, 소셜 미디어 계정 및 기타 플랫폼 (이하 "사이트")에 제공된 모든 콘텐츠는 제 3 자 출처에서 구입 한 일반적인 정보 용입니다. 우리는 정확성과 업데이트 성을 포함하여 우리의 콘텐츠와 관련하여 어떠한 종류의 보증도하지 않습니다. 우리가 제공하는 컨텐츠의 어떤 부분도 금융 조언, 법률 자문 또는 기타 용도에 대한 귀하의 특정 신뢰를위한 다른 형태의 조언을 구성하지 않습니다. 당사 콘텐츠의 사용 또는 의존은 전적으로 귀하의 책임과 재량에 달려 있습니다. 당신은 그들에게 의존하기 전에 우리 자신의 연구를 수행하고, 검토하고, 분석하고, 검증해야합니다. 거래는 큰 손실로 이어질 수있는 매우 위험한 활동이므로 결정을 내리기 전에 재무 고문에게 문의하십시오. 본 사이트의 어떠한 콘텐츠도 모집 또는 제공을 목적으로하지 않습니다.