Последним смеётся человек: как большие языковые модели провалили тест, с которым справится даже ребёнок
Искусственный интеллект снова оказался в центре научных споров — на этот раз из-за юмора. Новое исследование показало, что большие языковые модели (LLM), несмотря на кажущееся понимание шуток, на самом деле не улавливают сути каламбуров - игры слов, основанной на двойных смыслах и звуковых ассоциациях.
Когда ИИ пытается шутить
Работа, представленная на конференции по эмпирическим методам обработки естественного языка (EMNLP-2025), проанализировала, как современные языковые модели реагируют на парономазию — один из самых сложных видов комического. Ранее считалось, что ИИ способен "понимать" каламбуры почти как человек, но новое исследование разрушило этот миф.
"Наше исследование, пожалуй, впервые наглядно показало, насколько хрупко понимание юмора у больших языковых моделей. Это удивительно, учитывая их растущие возможности", — пояснил профессор Хосе Камачо-Кольядос из Школы компьютерных наук и информатики Кардиффского университета.
По его словам, модели часто ошибочно определяют фразу как смешную, даже если в ней отсутствует комический подтекст. Например, ИИ считает забавным шаблон "Старые X не умирают, они просто X", хотя нередко такая структура не несёт никакого смысла.
Как проверяли искусственный интеллект
Команда из Кардиффского университета усовершенствовала существующие наборы данных, добавив новые примеры реальных и ложных каламбуров. Моделям предлагали классические шутки, например: "Штирлиц открыл окно — дуло". А затем подменяли ключевое слово, создавая бессмыслицу вроде: "Штирлиц открыл окно — ствол".
Результат оказался показателен: точность различения настоящих и псевдокаламбуров резко падала, а модели демонстрировали чрезмерную уверенность в своих ошибках.
"Когда модели сталкиваются с незнакомыми каламбурами, их успех может снижаться до 20% — хуже, чем при случайном угадывании", — отметил соавтор исследования Мохаммад Тахер Пилехвар.
Что не так с юмором машин
Анализ показал, что ИИ ориентируется на поверхностные признаки текста - фонетику и структуру предложения — вместо контекста и смысла. Он способен распознавать знакомые шаблоны, но не улавливает их смысловую игру. Поэтому модели часто принимают случайные совпадения за комический эффект.
Исследователи заключили, что за "чувством юмора" ИИ скрывается иллюзия понимания, порождённая обучением на огромных массивах текстов, где встречаются шаблонные шутки и мемы. Но без способности к рефлексии и интуитивному восприятию комического результат остаётся механическим.
Сравнение: человек против LLM
|
Критерий |
Человек |
Большая языковая модель |
|
Понимание контекста |
Основано на опыте, ассоциациях и культуре |
Опирается на шаблоны из обучающих данных |
|
Распознавание двойных смыслов |
Гибкое, с учётом ситуации |
Часто формальное, без семантической глубины |
|
Эмоциональная реакция |
Связана с эмпатией и неожиданностью |
Отсутствует |
|
Творческая импровизация |
Возможна |
Ограничена статистическими связями |
|
Ошибки восприятия |
Редки |
Систематические при смене контекста |
Ошибка → Последствие → Альтернатива
- Считать, что ИИ "понимает" юмор → переоценка его когнитивных способностей → признание ограничений моделей.
- Использовать LLM для анализа шуток → искажённые выводы → создание новых наборов данных с культурными контекстами.
- Интерпретировать уверенность модели как интеллект → неверная оценка — → обучение систем самопроверке и "осознанию незнания".
А что если научить ИИ смеяться?
Учёные признают, что создание моделей, способных действительно понимать юмор, — одна из самых сложных задач. Для этого потребуется не просто лингвистическая база, а механизм внутреннего осмысления, объединяющий языковые, культурные и эмоциональные факторы. Такие разработки уже ведутся, но пока "последним смеётся человек".
Плюсы и минусы открытий
|
Плюсы |
Минусы |
|
Доказано, что LLM не обладают настоящим чувством юмора |
Снижается доверие к "интеллектуальности" ИИ |
|
Подчёркнуты ограничения машинного творчества |
Нужны новые подходы к обучению моделей |
|
Получены улучшенные датасеты для анализа речи |
Понимание юмора остаётся вне досягаемости |
|
Уточнены границы применения ИИ в гуманитарных задачах |
Риск излишнего скепсиса к технологиям |
FAQ
Что такое парономазия?
Это игра слов, основанная на сходстве звучания или многозначности — основа каламбуров.
Почему ИИ не справляется с шутками?
Он анализирует структуру текста, но не понимает культурных контекстов и ассоциаций, которые делают фразу смешной.
Можно ли научить модель понимать юмор?
Теоретически да, если объединить языковые алгоритмы с элементами эмоционального моделирования и саморефлексии, но это пока задача будущего.
Мифы и правда
- Миф: большие языковые модели понимают юмор.
Правда: они имитируют понимание, используя статистические совпадения. - Миф: если модель смеётся, она осознаёт шутку.
Правда: это просто сгенерированный ответ без эмоциональной реакции. - Миф: ИИ сможет заменить комиков.
Правда: пока он не способен создавать подлинно оригинальные шутки.
Три интересных факта
- Некоторые LLM считают "смешными" даже случайные сочетания слов, если они фонетически похожи.
- Ошибки чаще встречаются при переводе каламбуров — модели теряют игру значений.
- Учёные планируют использовать результаты, чтобы разрабатывать системы, способные распознавать свои когнитивные ограничения.
Исторический контекст
- 2010-е — первые эксперименты с генерацией шуток на основе шаблонов.
- 2020-е — развитие LLM, способных имитировать разговорный юмор.
- 2025 год — исследование Кардиффского университета впервые доказало отсутствие реального понимания каламбуров у ИИ.
Исследование Кардиффского университета стало напоминанием: даже самые продвинутые языковые модели всё ещё опираются на память, а не на осмысление. Их "юмор" — лишь отражение человеческих текстов, а не искра настоящего творчества.
Подписывайтесь на Экосевер