Рождённые лгать: галлюцинации ИИ оказались вовсе не багом — исследование, которое шокировало мир

Исследователи OpenAI и Georgia Tech выявили системную природу галлюцинаций ИИ-моделей

Склонность современных языковых моделей придумывать факты давно вызывает обеспокоенность. Новое исследование специалистов OpenAI и Georgia Tech показало: это не случайная ошибка, а закономерность, заложенная в сам процесс обучения искусственного интеллекта. "Галлюцинации" моделей — не сбой программы, а следствие того, как устроены этапы предобучения и дообучения.

Почему модели "выдумывают" факты

Любая крупная языковая модель, будь то GPT, Llama или DeepSeek, обучается на колоссальном массиве текстов. Алгоритм учится предсказывать слова и формулировать ответы, исходя из распределения языка. Даже если все обучающие данные безупречно точны, статистические закономерности ведут к тому, что редкие факты "размываются". Например, дата рождения малоизвестного писателя встречается один раз в корпусе, и модель с высокой вероятностью заменит её на другую — но звучащую правдоподобно. Этот эффект исследователи сравнивают с оценкой "недостающей массы" Тьюринга-Гуда.

Почему дообучение не решает проблему

Следующий этап — дообучение, включая RLHF (обучение с подкреплением через обратную связь человека). Оно должно повысить точность и безопасность. Но здесь вмешивается система оценки. Большинство бенчмарков (MMLU, GPQA, SWE-bench и др.) оценивают ответы бинарно: 1 — правильно, 0 — неверно. Формулировки вроде "Я не знаю" почти всегда приравнены к нулю. В итоге оптимальная стратегия для модели — всегда угадывать, а не признавать сомнения.

"Даже случайное предположение выглядит выгоднее, чем честное 'не знаю'", — отмечают авторы исследования.

Таким образом, сама система оценки стимулирует генерацию уверенных, но часто ложных ответов.

Сравнение подходов

Этап	Что происходит	Итоговый эффект
Предобучение	Модель учится на огромном корпусе текстов	Редкие факты теряются, замещаются выдумкой
Дообучение (RLHF)	Корректировка под человеческие предпочтения	Бинарная оценка подталкивает к угадыванию
Альтернативная система	Ввод порогов уверенности и штрафов за ошибки	Снижение числа галлюцинаций

Советы шаг за шагом: как снизить риск столкновения с "галлюцинациями" ИИ

Не воспринимайте ответы ИИ как абсолютную истину — всегда проверяйте важные факты в независимых источниках (новостные сайты, энциклопедии, официальные страницы компаний или госструктур).
Используйте несколько сервисов. Если один чат-бот не даёт уверенности, попробуйте спросить то же в другой системе.
При вопросах о здоровье, финансах или юридических темах консультируйтесь со специалистами, а ИИ используйте только как вспомогательный инструмент.
Если в ответе встречаются редкие имена, даты или цифры — перепроверьте их отдельно в поисковике.
Сохраняйте критическое мышление: ИИ может помочь быстрее найти информацию, но решение всегда остаётся за человеком.

Ошибка — Последствие — Альтернатива

Ошибка: модель всегда стремится дать ответ.
Последствие: рост числа "галлюцинаций" и потеря доверия пользователей.
Альтернатива: явное внедрение шкалы уверенности, где "не знаю" не наказывается.

А что если…

Что произойдет, если изменить систему оценивания? Допустим, за правильный ответ начисляется +1 балл, за "не знаю" — 0, а за ошибку — минус 9. В такой ситуации модель будет осторожнее. Она станет "молчать", когда уверенность низкая, и пользователи получат меньше выдуманных фактов.

Плюсы и минусы подхода с порогами уверенности

Плюсы	Минусы
Снижение количества ошибок	Может замедлить ответы
Повышение доверия к ИИ	Увеличение числа "не знаю"
Более честная работа модели	Требует переработки существующих бенчмарков

FAQ

Как выбрать надежный ИИ-сервис?
Ориентируйтесь на тех разработчиков, которые внедряют механизмы проверки уверенности и открыто говорят о границах возможностей модели.

Сколько стоит внедрение улучшенной системы оценки?
Стоимость зависит от объема данных и вычислительных ресурсов. Однако долгосрочно затраты оправданы — меньше ошибок повышает доверие пользователей.

Что лучше: модель, всегда отвечающая, или та, что признается в незнании?
В прикладных задачах безопаснее второй вариант: честное "не знаю" лучше, чем убедительная выдумка.

Мифы и правда

Миф: галлюцинации — это баг.
Правда: это закономерность, заложенная в сам принцип обучения.
Миф: достаточно дообучить модель, и проблема исчезнет.
Правда: без изменения системы оценки ошибка сохранится.

3 интересных факта

Только один из популярных бенчмарков (WildBench) частично учитывает выражение неуверенности.
Системы ИИ чаще "забывают" редкие факты, чем массовые и общеизвестные.
Галлюцинации наблюдаются у всех крупных моделей, независимо от архитектуры.

Исторический контекст

Еще в середине XX века исследователи математики и статистики обсуждали проблему "недостающей массы". Работы Тьюринга и Гуда показали, что в больших выборках редкие события всегда имеют риск быть проигнорированными. Сегодня эти же идеи находят отражение в работе языковых моделей.

Таким образом, искусственный интеллект остаётся мощным помощником, но его ценность раскрывается только в связке с нашим вниманием и способностью проверять данные. Чем ответственнее мы будем использовать такие технологии, тем надёжнее они станут для всех.

Подписывайтесь на Экосевер