
Рождённые лгать: галлюцинации ИИ оказались вовсе не багом — исследование, которое шокировало мир
Склонность современных языковых моделей придумывать факты давно вызывает обеспокоенность. Новое исследование специалистов OpenAI и Georgia Tech показало: это не случайная ошибка, а закономерность, заложенная в сам процесс обучения искусственного интеллекта. "Галлюцинации" моделей — не сбой программы, а следствие того, как устроены этапы предобучения и дообучения.
Почему модели "выдумывают" факты
Любая крупная языковая модель, будь то GPT, Llama или DeepSeek, обучается на колоссальном массиве текстов. Алгоритм учится предсказывать слова и формулировать ответы, исходя из распределения языка. Даже если все обучающие данные безупречно точны, статистические закономерности ведут к тому, что редкие факты "размываются". Например, дата рождения малоизвестного писателя встречается один раз в корпусе, и модель с высокой вероятностью заменит её на другую — но звучащую правдоподобно. Этот эффект исследователи сравнивают с оценкой "недостающей массы" Тьюринга-Гуда.
Почему дообучение не решает проблему
Следующий этап — дообучение, включая RLHF (обучение с подкреплением через обратную связь человека). Оно должно повысить точность и безопасность. Но здесь вмешивается система оценки. Большинство бенчмарков (MMLU, GPQA, SWE-bench и др.) оценивают ответы бинарно: 1 — правильно, 0 — неверно. Формулировки вроде "Я не знаю" почти всегда приравнены к нулю. В итоге оптимальная стратегия для модели — всегда угадывать, а не признавать сомнения.
"Даже случайное предположение выглядит выгоднее, чем честное 'не знаю'", — отмечают авторы исследования.
Таким образом, сама система оценки стимулирует генерацию уверенных, но часто ложных ответов.
Сравнение подходов
Этап |
Что происходит |
Итоговый эффект |
Предобучение |
Модель учится на огромном корпусе текстов |
Редкие факты теряются, замещаются выдумкой |
Дообучение (RLHF) |
Корректировка под человеческие предпочтения |
Бинарная оценка подталкивает к угадыванию |
Альтернативная система |
Ввод порогов уверенности и штрафов за ошибки |
Снижение числа галлюцинаций |
Советы шаг за шагом: как снизить риск столкновения с "галлюцинациями" ИИ
- Не воспринимайте ответы ИИ как абсолютную истину — всегда проверяйте важные факты в независимых источниках (новостные сайты, энциклопедии, официальные страницы компаний или госструктур).
- Используйте несколько сервисов. Если один чат-бот не даёт уверенности, попробуйте спросить то же в другой системе.
- При вопросах о здоровье, финансах или юридических темах консультируйтесь со специалистами, а ИИ используйте только как вспомогательный инструмент.
- Если в ответе встречаются редкие имена, даты или цифры — перепроверьте их отдельно в поисковике.
- Сохраняйте критическое мышление: ИИ может помочь быстрее найти информацию, но решение всегда остаётся за человеком.
Ошибка — Последствие — Альтернатива
- Ошибка: модель всегда стремится дать ответ.
- Последствие: рост числа "галлюцинаций" и потеря доверия пользователей.
- Альтернатива: явное внедрение шкалы уверенности, где "не знаю" не наказывается.
А что если…
Что произойдет, если изменить систему оценивания? Допустим, за правильный ответ начисляется +1 балл, за "не знаю" — 0, а за ошибку — минус 9. В такой ситуации модель будет осторожнее. Она станет "молчать", когда уверенность низкая, и пользователи получат меньше выдуманных фактов.
Плюсы и минусы подхода с порогами уверенности
Плюсы |
Минусы |
Снижение количества ошибок |
Может замедлить ответы |
Повышение доверия к ИИ |
Увеличение числа "не знаю" |
Более честная работа модели |
Требует переработки существующих бенчмарков |
FAQ
Как выбрать надежный ИИ-сервис?
Ориентируйтесь на тех разработчиков, которые внедряют механизмы проверки уверенности и открыто говорят о границах возможностей модели.
Сколько стоит внедрение улучшенной системы оценки?
Стоимость зависит от объема данных и вычислительных ресурсов. Однако долгосрочно затраты оправданы — меньше ошибок повышает доверие пользователей.
Что лучше: модель, всегда отвечающая, или та, что признается в незнании?
В прикладных задачах безопаснее второй вариант: честное "не знаю" лучше, чем убедительная выдумка.
Мифы и правда
- Миф: галлюцинации — это баг.
- Правда: это закономерность, заложенная в сам принцип обучения.
- Миф: достаточно дообучить модель, и проблема исчезнет.
- Правда: без изменения системы оценки ошибка сохранится.
3 интересных факта
- Только один из популярных бенчмарков (WildBench) частично учитывает выражение неуверенности.
- Системы ИИ чаще "забывают" редкие факты, чем массовые и общеизвестные.
- Галлюцинации наблюдаются у всех крупных моделей, независимо от архитектуры.
Исторический контекст
Еще в середине XX века исследователи математики и статистики обсуждали проблему "недостающей массы". Работы Тьюринга и Гуда показали, что в больших выборках редкие события всегда имеют риск быть проигнорированными. Сегодня эти же идеи находят отражение в работе языковых моделей.
Таким образом, искусственный интеллект остаётся мощным помощником, но его ценность раскрывается только в связке с нашим вниманием и способностью проверять данные. Чем ответственнее мы будем использовать такие технологии, тем надёжнее они станут для всех.
Подписывайтесь на Экосевер