ИИ-приложение проанализирует тибетские тексты

Студентка Новосибирского государственного университета (НГУ) разработала приложение, которое автоматически распознает, оцифровывает и анализирует старопечатные тексты на тибетском языке. Автор проекта Анна Мурашкина использовала изображения страниц классических тибетских трудов XVIII-XX веков из архива Центра восточных рукописей и ксилографов Института монголоведения, буддологии и тибетологии СО РАН.

По словам студентки, данная работа имеет большое значение, так как исторические рукописи содержат уникальные данные о философии, религии, медицине, истории и искусстве. Эти сведения способствуют изучению культурных традиций региона. Однако со временем, под воздействием различных факторов, бумажные носители подвергаются разрушению, что приводит к утрате информации. На данный момент в Тибетском фонде Института монголоведения, буддологии и тибетологии СО РАН хранится около 70 тыс. единиц хроники, которые могут быть утеряны.

Для своей разработки студентка НГУ применяла технологии ИИ, что позволило создать модель, способную распознавать символы тибетского алфавита с изображений и преобразовывать их в читаемый формат.

«Для этого я вручную провела лингвистическую разметку строк тибетского текста из фонда ИМБТ СО РАН. Затем, учитывая особенности тибетской графики, разработала систему оценки качества оптического распознавания символов (OCR). После этого я провела сравнение существующих архитектур и выбрала модель сверточной нейросети, которая нуждалась в дообучении», – пояснила Анна Мурашкина.

Дообучение модели осуществлялось на размеченном корпусе документов, в результате чего был создан полный модульный алгоритм OCR, охватывающий этапы предобработки, сегментации, распознавания и постобработки.

«Мою разработку будут использовать сотрудники Института монголоведения, буддологии и тибетологии СО РАН. Также обсуждается возможность сотрудничества с Буддистским центром цифровых технологий, который занимается оцифровкой архивов храмов и монастырей. В партнерстве с этой организацией мы сможем расширить возможности оцифровки тибетских рукописей, используя открытые ресурсы, разрабатываемые совместно с исследователями из разных стран, чтобы в будущем каждый желающий мог прикоснуться к этому бесценному наследию и ознакомиться с документами, хранящимися в храмах и архивах», – добавила Анна Мурашкина.

Ранее российские ученые обучили искусственный интеллект распознавать рукописное слово «шиншилла». Такой навык позволит улучшить системы распознавания документов.

Вас может заинтересовать:

Рукописи Пушкина расшифровали с помощью ИИ

ИИ-приложение проанализирует тибетские тексты

Популярные новости

Как скачать и установить Codex на ПК — гайд для macOS и Windows

По «Ведьмаку» выпустят кооперативный экшен-RPG

В РФ заработал стандарт по ИИ-мониторингу состояния водителя

Selectel запустил сервис аварийного восстановления инфраструктуры

ИИ в «Сбере» обрабатывает 65% обращений

Последние новости

Как скачать и установить Codex на ПК — гайд для macOS и Windows

По «Ведьмаку» выпустят кооперативный экшен-RPG

В РФ заработал стандарт по ИИ-мониторингу состояния водителя

Selectel запустил сервис аварийного восстановления инфраструктуры

ИИ в «Сбере» обрабатывает 65% обращений

НазадВ РФ iPhone 15 Plus стоит менее 60 тысяч рублей

ДалееВ Норильском аэропорту появится дата-центр на 15 стоек

ИИ-приложение проанализирует тибетские тексты

Популярные новости

Последние новости

НазадВ РФ iPhone 15 Plus стоит менее 60 тысяч рублей

ДалееВ Норильском аэропорту появится дата-центр на 15 стоек

Лучшее от AllWeb.ru

TSMC и Sony займутся совместным производством датчиков изображения

В РФ хотят ввести идентификацию по возрасту на платформах

Электромобиль «Атом» прошел первую серию краш-тестов