Молодой исследователь из Великого Новгорода предложил решение, которое может навсегда изменить работу с древними рукописями. Магистрант Новгородского государственного университета (НовГУ) Иван Филиппов разработал нейросеть, способную автоматически расшифровывать берестяные грамоты с точностью до 98%. Проект получил грант в 1 миллион рублей по программе "Студенческий стартап".
Берестяные грамоты — уникальные источники сведений о языке и быте средневековой Руси. Только в Новгороде археологи нашли более 1200 таких документов, однако их ручная расшифровка занимает месяцы, а иногда и годы.
Трудности создают особенности древнерусского письма: множество вариантов начертания букв, исчезнувшие символы, редкие диакритические знаки. Стандартные алгоритмы компьютерного зрения с ними не справляются. Поэтому Филиппов решил создать специализированную нейросеть, адаптированную именно под палеографические особенности древних текстов.
Разработка состоит из двух основных модулей — детектора и распознавателя.
Детектор анализирует изображение грамоты и находит отдельные буквы. Он заключает каждую из них в прямоугольную область — "бокс", чтобы отделить символы друг от друга.
После этого система сегментирует изображение, объединяет соседние боксы, выстраивает их в строки и отправляет на обработку в нейросеть ResNet-18 - свёрточную модель, обученную на изображениях древних букв.
Для обучения использовались пять эталонных грамот с ручной разметкой, выбранных по качеству сохранности и разнообразию начертаний. Чтобы увеличить количество данных, разработчик дополнил набор автоматически вырезанными символами, полученными с помощью детектора.
Результаты распознавания сохраняются в формате PNG и могут быть экспортированы для последующей аналитики.
"Модель обрабатывает изображение за 1-2 секунды с точностью 98%. Это в десятки раз быстрее ручного анализа", — рассказал автор проекта Иван Филиппов.
Готовое приложение имеет интуитивно понятный интерфейс. Система позволяет загружать фотографии берестяных грамот, масштабировать изображение, перемещать его в пределах рабочего поля и редактировать результат вручную.
Распознанные символы можно экспортировать в виде текстовых файлов, что облегчает дальнейшее сравнение, анализ и архивацию. Инструмент уже готов к интеграции в научные проекты и может использоваться в археологии, палеографии и исторической лингвистике.
Высокая точность. Ошибка распознавания не превышает 2%, что делает систему пригодной для научной работы.
Скорость. Полная обработка одного изображения занимает не более двух секунд.
Универсальность. Нейросеть можно адаптировать для анализа других старинных рукописей, включая церковные книги или летописи.
Открытая архитектура. Система реализована на Python с использованием стандартных библиотек, поэтому легко интегрируется в сторонние приложения.
Ошибка: использовать универсальные модели OCR без адаптации под древние символы.
Последствие: неверное распознавание, потеря смысловых связей.
Альтернатива: обучать специализированные нейросети на основе оцифрованных грамот с ручной разметкой.
Ошибка: проводить расшифровку вручную без автоматизации.
Последствие: длительный анализ и высокая вероятность человеческих ошибок.
Альтернатива: использовать гибридный подход, где ИИ делает черновую расшифровку, а учёный её уточняет.
Ошибка: не учитывать контекст и соседние символы при обработке.
Последствие: искажение орфографии и смыслов древнерусского текста.
Альтернатива: внедрять постобработку на основе языковых моделей, учитывающих грамматику эпохи.
Созданная система может найти применение не только в археологии. Аналогичные подходы можно использовать для:
расшифровки старинных карт и документов,
восстановления повреждённых архивных записей,
автоматической датировки рукописей по стилю письма,
создания интерактивных музеев, где посетители смогут "читать" древние тексты с помощью ИИ.
| Критерий | Преимущества | Ограничения |
| Скорость обработки | 1-2 секунды на документ | Требуется качественное изображение |
| Точность распознавания | До 98% | Возможны ошибки при повреждениях грамот |
| Гибкость модели | Легко адаптируется под другие алфавиты | Нужен большой набор обучающих данных |
| Простота интеграции | Реализована на Python | Требуется мощный графический процессор |
Миф 1. Искусственный интеллект не может работать с древними текстами.
Правда: современные нейросети способны адаптироваться к нестандартным шрифтам и символам при правильной разметке данных.
Миф 2. Машина не способна заменить палеографа.
Правда: нейросеть не заменяет специалиста, но ускоряет его работу, исключая рутинные операции.
Миф 3. Для обучения ИИ нужны тысячи документов.
Правда: при правильной архитектуре и разметке достаточно нескольких десятков хорошо сохранённых образцов.
Берестяные грамоты впервые были найдены в Новгороде в 1951 году и стали одним из крупнейших археологических открытий XX века.
На сегодняшний день расшифровано более 1100 грамот, но многие всё ещё ждут интерпретации.
Применение ИИ в палеографии уже используется в проектах Оксфордского и Кембриджского университетов, однако российская модель — одна из первых, созданных специально для древнерусского письма.
В XII-XIV веках берестяные грамоты служили основным средством письменной коммуникации между горожанами.
Большинство текстов были написаны обыкновенными жителями — купцами, ремесленниками и даже детьми.
Современные технологии позволяют не только читать эти письма, но и восстанавливать повреждённые фрагменты, сохраняя их в цифровых архивах.