Искусственный интеллект спасовал перед поэзией: как рифмы пробили защиту самых продвинутых нейросетей

Эксперимент показал, что поэзия способна взломать ИИ — arXiv

Стихи оказались самым неожиданным инструментом для взлома искусственного интеллекта. Исследователи выяснили, что поэтическая форма способна обмануть даже самые защищённые нейросети, заставляя их нарушать собственные правила безопасности. Препринт работы опубликован на сервере arXiv.

Как поэзия стала "ключом" к искусственному интеллекту

Команда учёных из DEXAI и Университета Сапиенца в Риме обнаружила, что если вредоносные запросы — например, о создании оружия или причинении вреда — преобразовать в стихотворную форму, ИИ-модели часто отвечают на них без фильтрации.
Похожие эффекты восприятия ранее наблюдались в исследованиях мозга, где мыслительный процесс оказался основан на колебаниях нейронных волн - метафорическая форма действительно может "сбить” систему, будь то человеческое или машинное мышление.

Этот способ обхода защит получил название "взлом" (jailbreaking) и связан с уязвимостью в системе "безопасного выравнивания" (safety alignment), обучающей нейросети отказываться от опасных тем. До сих пор известны были более технические методы обхода — например, использование опечаток или искажённых символов. Но оказалось, что поэтический язык делает атаку гораздо проще и эффективнее.

"Поэзия обладает способностью искажать суждение — об этом говорил ещё Платон. Теперь мы видим, что это справедливо и для искусственного интеллекта", — пояснил Пиеркосма Бисконти, ведущий исследователь проекта.

Эксперимент: 1200 "враждебных поэм" против 25 ИИ

Для проверки гипотезы команда создала базу из 1200 вредоносных запросов, превращённых в стихотворения с помощью модели DeepSeek R-1, и добавила 20 стихов, написанных вручную. Эти тексты протестировали на 25 языковых моделях, включая Gemini 2.5 Pro от Google, GPT-5 от OpenAI, Grok 4 от xAI и Claude Sonnet 4.5 от Anthropic.

Тематика запросов охватывала весь спектр запрещённых тем — от изготовления взрывчатки и оружия до подстрекательства к насилию и самоубийству.

Результаты оказались тревожными:

стихи, написанные человеком, обманули модели в 62% случаев;
поэмы, созданные ИИ, сработали в 43% случаев;
наиболее уязвимой оказалась Gemini 2.5 Pro, которая выдала опасные ответы на все 100% поэтических запросов;
GPT-5 nano оказалась единственной моделью, полностью выдержавшей испытание.

"Мы не публикуем тексты атакующих поэм, поскольку большая часть ответов ИИ нарушала бы нормы международного права", — уточнил Пиеркосма Бисконти.

Почему поэзия ломает защиту

По словам исследователей, алгоритмы безопасности ИИ обучаются распознавать буквальные инструкции и прямые угрозы. Поэзия же делает запрос непредсказуемым - скрывает опасный смысл за метафорами, рифмой и нарушением грамматики.

Когда текст оформлен как стихотворение, языковая модель может интерпретировать его как художественный материал, а не как запрос к действию, и потому не активирует встроенные фильтры. Это демонстрирует, что даже самые сложные системы искусственного интеллекта уязвимы к семантическим обходам, где смысл скрыт под литературной формой.

Аналогичные искажения восприятия встречаются и у людей — например, в экспериментах, где экстремальные хобби помогали справляться со страхом смерти, показывая, как форма опыта меняет реакцию сознания.

"Поэтический язык — это естественный хаос, с которым модели не умеют обращаться. И чем умнее ИИ, тем выше риск, что он воспримет метафору буквально", — отметил Бисконти.

Реакция индустрии

Перед публикацией исследования команда уведомила разработчиков всех затронутых моделей, предоставив полный набор данных и рекомендации по исправлению уязвимостей.

По информации The Guardian, отклик поступил только от компании Anthropic, которая признала проблему и начала анализировать механизм защиты своих моделей Claude. Остальные компании, включая Google и OpenAI, на момент публикации не ответили.

Эксперты считают, что этот случай поднимает серьёзные вопросы о надежности систем ИИ, особенно в контексте их внедрения в образование, здравоохранение и оборонные технологии.

Плюсы и минусы исследования

Плюсы:
впервые экспериментально подтверждена уязвимость к поэтическим структурам;
протестированы 25 крупнейших языковых моделей;
разработан новый подход к оценке устойчивости ИИ.
Минусы:
часть результатов не может быть опубликована по соображениям безопасности;
исследование не охватывает мультимодальные модели;
риск злоупотребления техникой "враждебных поэм".

Что дальше

Команда Пиеркосмы Бисконти планирует продолжить изучение уязвимостей и организовать поэтический конкурс, где участники будут создавать безопасные и "враждебные" стихи для тестирования языковых моделей. Это поможет разработчикам выработать новые методы защиты, способные различать художественную форму и вредоносный контент.