Учёные отличили ИИ от людей по отсутствию хамства

Исследователи из нескольких университетов провели масштабный эксперимент и установили: даже самые продвинутые языковые модели всё ещё заметно отличаются от людей в интернете — главным образом по вежливости и отсутствию грубости. Результаты работы показали, что искусственный интеллект не способен достоверно имитировать естественную человеческую эмоциональность, особенно характерную для общения в соцсетях.

Как проходил эксперимент

Команда ученых протестировала девять популярных ИИ-моделей, включая Llama 3.1, Mistral 7B, Qwen 2.5 и Gemma 3, на платформах X (Twitter), Bluesky и Reddit. Исследователи сравнили тексты, написанные людьми, с ответами нейросетей в тех же условиях.

Для анализа использовались классификаторы, обученные отличать машинный стиль от человеческого. В среднем им удалось определить, где пишет человек, а где — искусственный интеллект, с точностью от 70 до 80 процентов.

"Современные модели ведут себя слишком корректно и избегают эмоциональных всплесков, которые свойственны людям", — отметили авторы исследования.

Вежливость как уязвимость

Главная закономерность, обнаруженная исследователями, — чрезмерная вежливость ИИ. Нейросети демонстрировали стабильно позитивный тон, не использовали сарказм, не вступали в конфликты и практически не выражали раздражения.

Для социальных сетей это выглядит неестественно: живая коммуникация часто сопровождается иронией, сарказмом, шутками "на грани" и спонтанными эмоциями. ИИ-модели, напротив, стараются избегать любых выражений, которые могут быть восприняты как токсичные или обидные.

Характеристика общения Человек в соцсетях ИИ-модель
Эмоциональность Высокая, с сарказмом и раздражением Сдержанная, нейтральная
Вежливость Переменная, зависит от контекста Последовательно высокая
Грубость / токсичность Возможна Исключена политиками безопасности
Стиль Разговорный, спонтанный Формальный, уравновешенный
Реакция на провокации Эмоциональная Спокойная, уклончивая

Малые модели оказались "человечнее"

Любопытный результат исследования — небольшие языковые модели без дополнительной инструкции часто звучали более "по-человечески", чем крупные и тщательно "воспитанные".

Дело в том, что инструкционная донастройка (instruction tuning) формирует у моделей привычку отвечать вежливо, согласованно и без эмоций. Это делает их безопаснее, но одновременно лишает спонтанности. Малые модели, наоборот, чаще допускают неловкости и резкость, что приближает их речь к настоящей человеческой.

"Парадокс в том, что чем лучше модель обучена быть доброжелательной, тем легче её распознать", — отмечают исследователи.

Почему это важно

Возможность отличить искусственный интеллект от человека становится всё актуальнее: с ростом генеративных технологий увеличивается объём автоматически создаваемого контента — постов, комментариев, отзывов. Для платформ это вопрос аутентичности и доверия, а для учёных — инструмент для анализа границ машинной "личности".

Создатели алгоритмов классификации считают, что подобные методы помогут:

  1. выявлять ботов и синтетические аккаунты;

  2. предотвращать манипуляции общественным мнением;

  3. улучшать фильтры достоверности в социальных сетях;

  4. отслеживать использование ИИ в политических кампаниях и рекламе.

Почему ИИ не может "хамить"

Основная причина — архитектура обучения. Большие языковые модели формируются на огромных корпусах текстов, но финальная стадия (RLHF — обучение с подкреплением от человеческой обратной связи) отсекает любое поведение, воспринимаемое как грубое, неэтичное или токсичное.

В результате ИИ избегает:

Именно это делает его узнаваемо "гладким" - нейросеть будто "слишком правильна", чтобы быть человеком.

Пример реакции на провокацию Человек ИИ-модель
На оскорбление "Сам посмотри на себя!" "Мне жаль, что вы так чувствуете. Давайте обсудим спокойно."
На сарказм Отвечает с юмором или колкостью Пропускает и переводит тему
На спор Повышает тон, доказывает правоту Извиняется или уточняет детали

Можно ли сделать ИИ "более человечным"

Ученые отмечают, что полностью устранить различия между человеком и машиной пока невозможно. Эмоциональность — сложное сочетание биологических, культурных и личностных факторов, которые ИИ не способен воспроизвести.

Некоторые исследовательские группы экспериментируют с обучением моделей на диалогах без цензуры или с симуляцией эмоций, но это сразу повышает риск токсичных высказываний и неконтролируемого поведения.

"Проблема не в том, что ИИ не знает, как хамить, а в том, что он не понимает, когда это уместно", — подчёркивают авторы отчёта.

Что это значит для будущего общения

Пока искусственный интеллект умеет подражать стилю, но не может имитировать спонтанность и несовершенство человеческой речи. Поэтому именно отсутствие грубости и чрезмерная корректность остаются главным отличительным признаком машинных текстов.

С развитием моделей границы будут размываться, однако учёные уверены: распознать "искусственного собеседника" по эмоциональному нейтралитету удастся ещё долго.