Приложение для оцифровки древних тибетских текстов создала студентка НГУ

Оно способно считывать тибетское слоговое письмо, которое использовали в старопечатных документах. Это позволит сохранить раритетные тексты в электронном формате и сделать их более доступными.

Лидия Захарова

Как рассказали в Новосибирском государственном университете, студентка гуманитарного института Анна Мурашкина разработала приложение, которое должно переводить буквы тибетского алфавита в машиночитаемый вид. В этом поможет искусственный интеллект.

«Дообучение модели она реализовала на размеченном корпусе документов, и в результате был создан полный алгоритм оптического распознавания символов, включающий этапы предобработки, сегментации, распознавания и постобработки», — пояснили в пресс-службе НГУ.

В проекте Анна Мурашкина использовала тексты из фонда Института монголоведения, буддологии и тибетологии СО РАН.

Со временем бумага, на которую они нанесены, разрушается — важные знания могут быть утеряны. Именно это и побудило студентку заняться оцифровкой.

«Старопечатные документы, рукописи и ксилографы содержат уникальные сведения о философии, религии, медицине, истории и искусстве, играя ключевую роль в изучении культурных традиций региона. Один из наиболее надёжных способов сохранения и систематизации исторических документов — их оцифровка», — считает Анна Мурашкина.

Сейчас она обсуждает сотрудничество с Буддистским центром цифровых технологий, который переводит в электронный вид архивы храмов и монастырей. Девушка убеждена, что её разработка позволит многим учёным и исследователям познакомиться с древними источниками, которые раньше были доступны только избранным.

Тем временем в НГТУ приступили к созданию приложения, способного трансформировать аудиозапись в печатный текст.