
Искусственный интеллект заговорил языком предков: в Новгороде создали уникальную систему
Молодой исследователь из Великого Новгорода предложил решение, которое может навсегда изменить работу с древними рукописями. Магистрант Новгородского государственного университета (НовГУ) Иван Филиппов разработал нейросеть, способную автоматически расшифровывать берестяные грамоты с точностью до 98%. Проект получил грант в 1 миллион рублей по программе "Студенческий стартап".
Почему расшифровка древнерусских текстов так сложна
Берестяные грамоты — уникальные источники сведений о языке и быте средневековой Руси. Только в Новгороде археологи нашли более 1200 таких документов, однако их ручная расшифровка занимает месяцы, а иногда и годы.
Трудности создают особенности древнерусского письма: множество вариантов начертания букв, исчезнувшие символы, редкие диакритические знаки. Стандартные алгоритмы компьютерного зрения с ними не справляются. Поэтому Филиппов решил создать специализированную нейросеть, адаптированную именно под палеографические особенности древних текстов.
Как работает система
Разработка состоит из двух основных модулей — детектора и распознавателя.
-
Детектор анализирует изображение грамоты и находит отдельные буквы. Он заключает каждую из них в прямоугольную область — "бокс", чтобы отделить символы друг от друга.
-
После этого система сегментирует изображение, объединяет соседние боксы, выстраивает их в строки и отправляет на обработку в нейросеть ResNet-18 - свёрточную модель, обученную на изображениях древних букв.
Для обучения использовались пять эталонных грамот с ручной разметкой, выбранных по качеству сохранности и разнообразию начертаний. Чтобы увеличить количество данных, разработчик дополнил набор автоматически вырезанными символами, полученными с помощью детектора.
Результаты распознавания сохраняются в формате PNG и могут быть экспортированы для последующей аналитики.
"Модель обрабатывает изображение за 1-2 секунды с точностью 98%. Это в десятки раз быстрее ручного анализа", — рассказал автор проекта Иван Филиппов.
Интерфейс и возможности приложения
Готовое приложение имеет интуитивно понятный интерфейс. Система позволяет загружать фотографии берестяных грамот, масштабировать изображение, перемещать его в пределах рабочего поля и редактировать результат вручную.
Распознанные символы можно экспортировать в виде текстовых файлов, что облегчает дальнейшее сравнение, анализ и архивацию. Инструмент уже готов к интеграции в научные проекты и может использоваться в археологии, палеографии и исторической лингвистике.
Преимущества нейросети
-
Высокая точность. Ошибка распознавания не превышает 2%, что делает систему пригодной для научной работы.
-
Скорость. Полная обработка одного изображения занимает не более двух секунд.
-
Универсальность. Нейросеть можно адаптировать для анализа других старинных рукописей, включая церковные книги или летописи.
-
Открытая архитектура. Система реализована на Python с использованием стандартных библиотек, поэтому легко интегрируется в сторонние приложения.
Ошибка → Последствие → Альтернатива
-
Ошибка: использовать универсальные модели OCR без адаптации под древние символы.
Последствие: неверное распознавание, потеря смысловых связей.
Альтернатива: обучать специализированные нейросети на основе оцифрованных грамот с ручной разметкой. -
Ошибка: проводить расшифровку вручную без автоматизации.
Последствие: длительный анализ и высокая вероятность человеческих ошибок.
Альтернатива: использовать гибридный подход, где ИИ делает черновую расшифровку, а учёный её уточняет. -
Ошибка: не учитывать контекст и соседние символы при обработке.
Последствие: искажение орфографии и смыслов древнерусского текста.
Альтернатива: внедрять постобработку на основе языковых моделей, учитывающих грамматику эпохи.
А что если применить нейросеть шире?
Созданная система может найти применение не только в археологии. Аналогичные подходы можно использовать для:
-
расшифровки старинных карт и документов,
-
восстановления повреждённых архивных записей,
-
автоматической датировки рукописей по стилю письма,
-
создания интерактивных музеев, где посетители смогут "читать" древние тексты с помощью ИИ.
Плюсы и минусы технологии
Критерий | Преимущества | Ограничения |
Скорость обработки | 1-2 секунды на документ | Требуется качественное изображение |
Точность распознавания | До 98% | Возможны ошибки при повреждениях грамот |
Гибкость модели | Легко адаптируется под другие алфавиты | Нужен большой набор обучающих данных |
Простота интеграции | Реализована на Python | Требуется мощный графический процессор |
Мифы и правда
Миф 1. Искусственный интеллект не может работать с древними текстами.
Правда: современные нейросети способны адаптироваться к нестандартным шрифтам и символам при правильной разметке данных.
Миф 2. Машина не способна заменить палеографа.
Правда: нейросеть не заменяет специалиста, но ускоряет его работу, исключая рутинные операции.
Миф 3. Для обучения ИИ нужны тысячи документов.
Правда: при правильной архитектуре и разметке достаточно нескольких десятков хорошо сохранённых образцов.
Три интересных факта
-
Берестяные грамоты впервые были найдены в Новгороде в 1951 году и стали одним из крупнейших археологических открытий XX века.
-
На сегодняшний день расшифровано более 1100 грамот, но многие всё ещё ждут интерпретации.
-
Применение ИИ в палеографии уже используется в проектах Оксфордского и Кембриджского университетов, однако российская модель — одна из первых, созданных специально для древнерусского письма.
Исторический контекст
-
В XII-XIV веках берестяные грамоты служили основным средством письменной коммуникации между горожанами.
-
Большинство текстов были написаны обыкновенными жителями — купцами, ремесленниками и даже детьми.
-
Современные технологии позволяют не только читать эти письма, но и восстанавливать повреждённые фрагменты, сохраняя их в цифровых архивах.
Подписывайтесь на Экосевер