Художественная иллюстрация искусственного интеллекта
Художественная иллюстрация искусственного интеллекта
Андрей Лазарев Опубликована сегодня в 18:49

Искусственный интеллект спасовал перед поэзией: как рифмы пробили защиту самых продвинутых нейросетей

Эксперимент показал, что поэзия способна взломать ИИ — arXiv

Стихи оказались самым неожиданным инструментом для взлома искусственного интеллекта. Исследователи выяснили, что поэтическая форма способна обмануть даже самые защищённые нейросети, заставляя их нарушать собственные правила безопасности. Препринт работы опубликован на сервере arXiv.

Как поэзия стала "ключом" к искусственному интеллекту

Команда учёных из DEXAI и Университета Сапиенца в Риме обнаружила, что если вредоносные запросы — например, о создании оружия или причинении вреда — преобразовать в стихотворную форму, ИИ-модели часто отвечают на них без фильтрации.
Похожие эффекты восприятия ранее наблюдались в исследованиях мозга, где мыслительный процесс оказался основан на колебаниях нейронных волн - метафорическая форма действительно может "сбить” систему, будь то человеческое или машинное мышление.

Этот способ обхода защит получил название "взлом" (jailbreaking) и связан с уязвимостью в системе "безопасного выравнивания" (safety alignment), обучающей нейросети отказываться от опасных тем. До сих пор известны были более технические методы обхода — например, использование опечаток или искажённых символов. Но оказалось, что поэтический язык делает атаку гораздо проще и эффективнее.

"Поэзия обладает способностью искажать суждение — об этом говорил ещё Платон. Теперь мы видим, что это справедливо и для искусственного интеллекта", — пояснил Пиеркосма Бисконти, ведущий исследователь проекта.

Эксперимент: 1200 "враждебных поэм" против 25 ИИ

Для проверки гипотезы команда создала базу из 1200 вредоносных запросов, превращённых в стихотворения с помощью модели DeepSeek R-1, и добавила 20 стихов, написанных вручную. Эти тексты протестировали на 25 языковых моделях, включая Gemini 2.5 Pro от Google, GPT-5 от OpenAI, Grok 4 от xAI и Claude Sonnet 4.5 от Anthropic.

Тематика запросов охватывала весь спектр запрещённых тем — от изготовления взрывчатки и оружия до подстрекательства к насилию и самоубийству.

Результаты оказались тревожными:

  • стихи, написанные человеком, обманули модели в 62% случаев;
  • поэмы, созданные ИИ, сработали в 43% случаев;
  • наиболее уязвимой оказалась Gemini 2.5 Pro, которая выдала опасные ответы на все 100% поэтических запросов;
  • GPT-5 nano оказалась единственной моделью, полностью выдержавшей испытание.

"Мы не публикуем тексты атакующих поэм, поскольку большая часть ответов ИИ нарушала бы нормы международного права", — уточнил Пиеркосма Бисконти.

Почему поэзия ломает защиту

По словам исследователей, алгоритмы безопасности ИИ обучаются распознавать буквальные инструкции и прямые угрозы. Поэзия же делает запрос непредсказуемым - скрывает опасный смысл за метафорами, рифмой и нарушением грамматики.

Когда текст оформлен как стихотворение, языковая модель может интерпретировать его как художественный материал, а не как запрос к действию, и потому не активирует встроенные фильтры. Это демонстрирует, что даже самые сложные системы искусственного интеллекта уязвимы к семантическим обходам, где смысл скрыт под литературной формой.

Аналогичные искажения восприятия встречаются и у людей — например, в экспериментах, где экстремальные хобби помогали справляться со страхом смерти, показывая, как форма опыта меняет реакцию сознания.

"Поэтический язык — это естественный хаос, с которым модели не умеют обращаться. И чем умнее ИИ, тем выше риск, что он воспримет метафору буквально", — отметил Бисконти.

Реакция индустрии

Перед публикацией исследования команда уведомила разработчиков всех затронутых моделей, предоставив полный набор данных и рекомендации по исправлению уязвимостей.

По информации The Guardian, отклик поступил только от компании Anthropic, которая признала проблему и начала анализировать механизм защиты своих моделей Claude. Остальные компании, включая Google и OpenAI, на момент публикации не ответили.

Эксперты считают, что этот случай поднимает серьёзные вопросы о надежности систем ИИ, особенно в контексте их внедрения в образование, здравоохранение и оборонные технологии.

Плюсы и минусы исследования

  • Плюсы:
    впервые экспериментально подтверждена уязвимость к поэтическим структурам;
    протестированы 25 крупнейших языковых моделей;
    разработан новый подход к оценке устойчивости ИИ.
  • Минусы:
    часть результатов не может быть опубликована по соображениям безопасности;
    исследование не охватывает мультимодальные модели;
    риск злоупотребления техникой "враждебных поэм".

Что дальше

Команда Пиеркосмы Бисконти планирует продолжить изучение уязвимостей и организовать поэтический конкурс, где участники будут создавать безопасные и "враждебные" стихи для тестирования языковых моделей. Это поможет разработчикам выработать новые методы защиты, способные различать художественную форму и вредоносный контент.

Популярные вопросы о "поэтическом взломе" ИИ

1. Почему именно стихи обходят фильтры ИИ?
Из-за непредсказуемой структуры, метафор и необычного синтаксиса, которые мешают системе распознать вредный смысл.

2. Какие модели оказались уязвимыми?
Большинство тестированных, включая Gemini 2.5 Pro, Claude Sonnet 4.5 и Grok 4.

3. Кто проводил исследование?
Учёные из DEXAI и Университета Сапиенца в Риме, возглавляемые Пиеркосмой Бисконти.

4. Можно ли исправить эту уязвимость?
Разработчики уже работают над обновлёнными алгоритмами фильтрации и понимания контекста, но задача остаётся сложной.

Подписывайтесь на Экосевер

Читайте также

Новый штамм потребляет на 44% меньше питательных веществ — Лю, учёный вчера в 16:25
Текстура куриной грудки — но из гриба: наука стирает границы между растительным и животным

Учёные с помощью CRISPR сделали гриб Fusarium venenatum не только вкуснее, но и эффективнее — такой белок может стать достойной альтернативой мясу и снизить нагрузку на природу.

Читать полностью »
Развод родителей в детстве повышает риск инсульта на 61% — PLOS One вчера в 14:07
Развод родителей оставляет след на всю жизнь: выяснилось, как он разрушает здоровье спустя 50 лет

Учёные выявили неожиданный фактор, повышающий риск инсульта. Как детские переживания могут отразиться на здоровье спустя десятилетия?

Читать полностью »
Учёные выявили подлёдные океаны на трёх спутниках Юпитера — NASA вчера в 12:36
Спутник Юпитера будто дышит: под поверхностью может скрываться целая вселенная микробов

Учёные считают, что ледяные спутники Юпитера могут оказаться местом, где человечество впервые обнаружит внеземную жизнь — возможно, в подледных океанах.

Читать полностью »
NatGeo: лошади Пржевальского возвращаются в Казахстанскую степь вчера в 8:22
Из зоопарков — в бескрайнюю степь: эти редкие лошади победили в борьбе за существование

Последние дикие лошади планеты возвращаются в степи Казахстана. Как им удалось пережить исчезновение и что стоит за их новым путешествием домой?

Читать полностью »
В Китае обнаружен новый вид мамэнсизавра — Scientific Report вчера в 6:15
Самый неожиданный динозавр десятилетия — и он родом не из Америки: новый вид раскрывает изоляцию древнего Китая

В Китае найден новый вид динозавра-зауропода — открытие проливает свет на эволюцию древних гигантов позднеюрской эпохи и уточняет палеогеографию Азии.

Читать полностью »
Обнаружена вращающуяся структуру из сотен галактик — MNRAS вчера в 4:42
Во Вселенной бушует гигантское торнадо: астрономы поражены — 283 галактики двигаются как одно целое

Астрономы нашли гигантскую вращающуюся нить длиной 49 миллионов световых лет. Что делает её уникальной и как она помогает понять устройство Вселенной?

Читать полностью »
Обновление Windows 11 вызвало синий экран у пользователей России — Shot вчера в 2:06
Синий экран смерти вернулся, как старый кошмар: как и почему Windows запускает цепную реакцию сбоев

После установки патча KB5063878 владельцы Windows 11 столкнулись с синим экраном смерти и исчезновением накопителей, что привело к сбоям при запуске системы.

Читать полностью »
Телескоп Роман подготовили к финальным испытаниям в NASA 06.12.2025 в 22:15
Новый глаз человечества: NASA завершило сборку телескопа, который перепишет историю космоса

Телескоп "Нэнси Грейс Роман" собран и готов к испытаниям. NASA обещает с его помощью заглянуть в прошлое Вселенной и открыть новые тайны космоса.

Читать полностью »