Студентка Новосибирского государственного университета (НГУ) разработала приложение, которое автоматически распознает, оцифровывает и анализирует старопечатные тексты на тибетском языке. Автор проекта Анна Мурашкина использовала изображения страниц классических тибетских трудов XVIII-XX веков из архива Центра восточных рукописей и ксилографов Института монголоведения, буддологии и тибетологии СО РАН.

По словам студентки, данная работа имеет большое значение, так как исторические рукописи содержат уникальные данные о философии, религии, медицине, истории и искусстве. Эти сведения способствуют изучению культурных традиций региона. Однако со временем, под воздействием различных факторов, бумажные носители подвергаются разрушению, что приводит к утрате информации. На данный момент в Тибетском фонде Института монголоведения, буддологии и тибетологии СО РАН хранится около 70 тыс. единиц хроники, которые могут быть утеряны.
Для своей разработки студентка НГУ применяла технологии ИИ, что позволило создать модель, способную распознавать символы тибетского алфавита с изображений и преобразовывать их в читаемый формат.
«Для этого я вручную провела лингвистическую разметку строк тибетского текста из фонда ИМБТ СО РАН. Затем, учитывая особенности тибетской графики, разработала систему оценки качества оптического распознавания символов (OCR). После этого я провела сравнение существующих архитектур и выбрала модель сверточной нейросети, которая нуждалась в дообучении», – пояснила Анна Мурашкина.
Дообучение модели осуществлялось на размеченном корпусе документов, в результате чего был создан полный модульный алгоритм OCR, охватывающий этапы предобработки, сегментации, распознавания и постобработки.
«Мою разработку будут использовать сотрудники Института монголоведения, буддологии и тибетологии СО РАН. Также обсуждается возможность сотрудничества с Буддистским центром цифровых технологий, который занимается оцифровкой архивов храмов и монастырей. В партнерстве с этой организацией мы сможем расширить возможности оцифровки тибетских рукописей, используя открытые ресурсы, разрабатываемые совместно с исследователями из разных стран, чтобы в будущем каждый желающий мог прикоснуться к этому бесценному наследию и ознакомиться с документами, хранящимися в храмах и архивах», – добавила Анна Мурашкина.
Ранее российские ученые обучили искусственный интеллект распознавать рукописное слово «шиншилла». Такой навык позволит улучшить системы распознавания документов.
Рукописи Пушкина расшифровали с помощью ИИ


