Систему для оцифровки древних судебных журналов создают в НГУ

Систему для оцифровки древних судебных журналов создают в НГУ

С её помощью уникальный материал для исследования жизни крестьян начала ХХ века станет доступным большому числу историков. Программа позволит обрабатывать рукописный текст в несколько раз быстрее, чем это происходит сейчас.

Новосибирские новости

Журналы дореволюционных волостных судов представляют из себя толстые подшивки отчётов, записанных от руки. Программе для оцифровки нужно уметь распознавать почерк, сокращения, орфографию того времени.

«Текст должен быть обработан, из него должны быть извлечены важнейшие общие термины, описывающие тематику того или иного решения, документ должен быть каталогизирован. Тогда можно будет собрать полноценную информационную систему, которая позволит специалистам и просто интересующимся людям знакомиться с решениями волостных судов», — описал задачу профессор кафедры общей информатики факультета информационных технологий НГУ Владимир Барахнин.

Как рассказали в Новосибирском государственном университете, существующие решения для распознавания текстов к таким документам не применимы. Магистрант ФИТ НГУ Степан Гудков взялся за разработку собственного алгоритма.

«Система принимает на вход изображение страницы из книги решений волостных судов. Оно разбивается на несколько небольших фрагментов, каждый из которых делится на отдельные строки, для чего можно использовать нейросети вроде YOLO. После этого изображение строки нужно конвертировать в текст. Распознанный текст, конечно, будет содержать ошибки, поэтому требуется провести его постобработку», — пояснил Степан Гудков.

Ему удалось создать алгоритм машинного зрения, который обучает ИИ различать слова как набор символов, без осмысления и корректировки. На следующем этапе технологию необходимо доработать, чтобы система «понимала» контекст и предлагала варианты написания и правки.

«Только ИТ-методами решить эту задачу будет сложно, необходимо приложение, которое, когда встречает незнакомые слова, подчёркивает их и отмечает для исправления», — обозначил перспективы Владимир Барахнин.

Оцифровка решений волостных судов даст историкам доступ к уникальному материалу. В отчётах секретарей содержится множество деталей крестьянского быта и жизни, которые радикально изменились после революции. Сейчас учёные работают над расшифровкой и описанием этих материалов вручную, что занимает огромное количество времени.

«В ближайшее время мы выпустим две книги, в которых представлены несколько сотен решений волостных судов. На эту работу у нас ушло три года. Применение же информационных технологий позволяет автоматизировать и значительно ускорить эту работу», — подчеркнул важность исследования старший научный сотрудник Института истории СО РАН Алексей Кириллов.

В будущем ИТ-специалисты НГУ планируют создать полноценную информационную систему с поисковыми интерфейсами. Она позволит находить документы по разным критериям — по селению, персонам, категориям дел. Разработку можно будет применять для оцифровки любых рукописных исторических архивов с середины 19-го века до 1917 года.

Ранее студентка того же вуза Анна Мурашкина разработала приложение, которое способно считывать древние тибетские тексты.

Выбор редакции