27 ноября 2023

«Это крюки и знамена, язык в языке»

Что нейросети помогают разглядеть в церковнославянских рукописях

Пока все обсуждают, кого оставит без работы искусственный интеллект, как скоро появится AGI, который принесет нам Апокалипсис на крыльях «Скайнета», «Горький» не предается праздным раздумьям и сопутствующему алармизму. Вместо этого Анастасия Зинченко и Михаил Сапрыкин (Центр междисциплинарных исследований МФТИ) поговорили с сотрудниками Лаборатории цифровой лингвистики МИФИ Александрой Плетневой и Дмитрием Демидовым о действительно насущных вещах — о том, как ИИ помогает им в обработке и исследовании рукописей на церковнославянском языке.

Все мы начиная с 24 февраля 2022 года оказались перед лицом наступающего варварства, насилия и лжи. В этой ситуации чрезвычайно важно сохранить хотя бы остатки культуры и поддержать ценности гуманизма — в том числе ради будущего России. Поэтому редакция «Горького» продолжит говорить о книгах, напоминая нашим читателям, что в мире остается место мысли и вымыслу.

— Чем вы занимаетесь в Лаборатории цифровой лингвистики МИФИ?

Александра Плетнева: Мы занимаемся распознаванием и обработкой средневековых рукописей на церковнославянском языке. Вообще, те, кто занимается проблемами распознавания, мало работают с кириллическими текстами древности. Если проекты, где читают почерки XVIII-XIX веков, существуют, то наследие древности на сегодняшний день не освоено цифровыми технологиями. Коллеги-слависты с нетерпением ждут, когда подобные технологии будут применяться к нашему материалу. Потому что сегодня мы работаем так же, как в XIX веке. Чтобы понять историю какого-то текста, мы должны двадцать лет жизни потратить, перелопатить в архивах кучу рукописей. A между тем с привлечением современных компьютерных программ можно получить результат за значительно более короткое время. И если совместными с программистами усилиями мы сделаем то, что задумали, это будет совершенно новый этап в исторической лингвистике и в текстологии.

Скажу теперь о самом проекте. Мы занимаемся богослужебными книгами, их историей, машинным распознаванием, корпусным анализом. Филологи называют такие книги «памятниками традиционного содержания». Их было очень много. Представьте себе: для того, чтобы совершалось богослужение, в каждой церкви должно было быть определенное количество книг. Дошло до нас, конечно, далеко не все, но даже то, что дошло, — это очень большой массив рукописей. Мы занимаемся лишь отдельными текстами и не можем написать их общую историю. Но у нас есть амбициозная задача: взять памятники традиционного содержания, поработать с ними через нейросеть и другие инструменты и получить картину бытования этих текстов, их изменения, нарисовать текстологические стеммы, то есть наглядно показать, какой вариант текста первичен, в какое время текст изменялся в результате редактирования и так далее.

Дмитрий Демидов: Технологически у нас тут два больших направления. Одно — это разработка программных средств и различных моделей, потому что тот материал, с которым мы имеем дело, потенциально мог бы быть обработан существующими средствами: различными известными веб-сервисами или готовым программным обеспечением. Но все-таки ввиду того, что язык не существует сейчас как живой, для коммерческих разработок он особенного интереса не представляет. И потому остаются без внимания многие особенности. Приходится либо что-то менять, либо разрабатывать какие-то новые подходы с нуля. Именно этим направлением заняты студенты кафедры кибернетики, потому что это самая интересная работа по программной инженерии, которую в этой области можно представить. Там есть и прикладной проект, и научная составляющая.

И второе направление — это информационное обеспечение. Опять-таки, польза от него двоякая. Это и тексты, которые получаются после распознавания, и практика для будущих инженеров, научных сотрудников, которые работают в сфере распознавания текстов. Это большой кладезь материала для обучения нейронных сетей и тестирования новых программных средств или методик. Просто нет базы, где были бы размещены данные такого масштаба, чтобы можно было использовать корпусные методы. Этим мы и занимаемся.

— А как началось сотрудничество между Институтом русского языка имени Виноградова и МИФИ?

АП: Разговоры о том, что хорошо бы создать корпус рукописного наследия Древней Руси, велись еще до пандемии, где-то в 2019 году проводились разные совещания заинтересованных сторон. В них принимал участие и будущий ректор МИФИ Владимир Игоревич Шевченко, и сотрудники академических институтов, занимающиеся древними текстами. Говорили о планах, идеях, перспективах. С началом пандемии по понятным причинам все это прервалось. И потом, в 2022 году, когда Владимир Игоревич уже был ректором, он предложил осуществить этот проект на базе МИФИ. Нам, филологам из Института русского языка, которые принимали участие в предварительных совещаниях, предложили сотрудничество, и мы с большой радостью и благодарностью приняли это предложение. Мы получаем огромное удовольствие от этой совместной работы и надеемся на прорыв.

ДД: На кафедре кибернетики много разных традиций, в том числе по обработке естественного языка, но они были разработаны применительно к системам, основанным на знаниях. То есть это либо экспертные системы, либо онтологический инжиниринг. И в каких-то рамках там была обработка естественного языка. Есть у нас курсы, которые с этим так или иначе связаны, однако в основном они посвящены математической лингвистике, формальным грамматикам, но, естественно, хочется тоже понимать и изучать естественный язык, разговорный. Поэтому мы следили за тем, что делает Институт русского языка, за большим проектом «Национальный корпус русского языка», там как раз большая размеченная база синтаксических структур. Структурная лингвистика, корпусная лингвистика — это все, что нам было интересно и до этого, а в нашем проекте все совпало и, конечно, мы с удовольствием откликнулись.

— Вы говорите про памятники традиционного содержания. А с какими именно вы работаете сейчас?

АП: В данном случае имеются в виду рукописи церковного характера, которые использовались во время богослужения. В каждом храме были рукописные Евангелие, Служебник, набор Миней, Триодь, Октоих. В допечатную эпоху они копировались вручную. Существовали специальные скриптории, где трудились переписчики. Надо сказать, что при ручном копировании неизбежно возникал разнобой. Это могло быть связано с тем, что в текстах время от времени появлялись разного рода локальные явления. Например, один и тот же греческий текст мог быть переведен и в Болгарии, и в Древней Руси, и эти переводы не были тождественны. А переписчики при копировании текста, чтобы избежать случайных ошибок, могли брать не одну книгу, а две, чтобы в случае каких-то сомнений посмотреть, что во второй рукописи.

Предположим, одна книга была в редакции А, а другая — в редакции В. Взяв что-то из первой, а что-то из второй, переписчики получали третий вариант, и мы считаем, что такая рукопись принадлежит к редакции С. То есть мы говорим, что имеем дело с памятниками традиционного содержания, но на самом деле у нас нет двух одинаковых памятников, двух одинаковых рукописей. Это вроде бы один и тот же текст, но каждый раз он чуть-чуть разный. Собственно, эта разница нам и интересна. Нам интересны диалектные формы, которые попадают в церковные книги, приписки на полях, нам интересно, почему вдруг начинаются какие-то орфографические изменения и где они начинаются, возможно ли привязать эти изменения к определенному месту и так далее. В результате мы довольно много узнаем о языке, письменности, системе средневекового письма.

— Вы работаете с уже оцифрованными рукописями?

АП: Оцифрован лишь небольшой процент рукописей. Наша идея заключается в том, что мы берем копии, то есть фотографии рукописей, которые висят на сайтах архивов библиотек, и дальше с помощью специальных операций приспосабливаем их для машинного распознавания. Предполагается, что работа с нашей программой для распознавания будет менее времяемкой для человека, чем с известной немецкой программой Transkribus. Мы предполагаем, что получим распознанный текст на самом начальном этапе, то есть перед исследователем на экране будет страничка рукописи и распознанный машиной текст. Конечно, на первом этапе неминуемо будут ошибки, но это нормальный рабочий процесс.

ДД: Я хочу отдельно сказать об объеме материала, чтобы его можно было себе представить в количественном выражении. На сайте РГБ можно найти и скачать несколько тысяч страниц в виде огромных PDF-файлов, в каждом из которых по пятьсот страниц. При этом в архивах лежит огромный корпус книг, которые даже не прошли индексацию. То есть библиотека знает, что эти книги в ней хранятся, но в каталоге их нельзя даже найти, не говоря уже о том, чтобы их сканировать. И эту работу кому-то надо делать, но она настолько огромная, что сотрудники библиотеки не всегда могут найти для нее время. Этим занимается очень небольшой коллектив. Все эти материалы тоже предстоит сканировать, но, наверное, нам для работы пока хватит того, что нашли уже отсканированного.

Но вообще проблема большая. А вне Москвы эта проблема еще больше, потому что не везде есть даже технические средства для того, чтобы индексировать и сканировать материалы. Ребята были на экскурсии в Псковском монастыре, и у них возникло такое впечатление, что тот, кто там живет и работает, знает, где что лежит, но непосвященному вообще невозможно понять даже то, какой там хранится объем материалов. Нет ни цифровых каталогов, ни сканов, ни тем более распознанных памятников.

— Александра упомянула немецкий аналог Transkribus. Правильно ли я понимаю, что сейчас вы со своими коллегами и студентами, по сути, создаете новую программу, потому что аналогов у Transkribus в России, насколько мне известно, нет?

ДД: Да, мы работаем с нуля, но при этом воспринимаем Transkribus как эталонную на сегодняшний день систему. Хотя нельзя сказать, что мы ее повторяем, мы разрабатываем свои подходы. В Transkribus есть места, которые нас не устраивают изначально, у нас недостаточно размеченных данных, чтобы ему скормить. Поэтому, чтобы не зависеть от него, идти своей дорогой и заниматься именно нашим языком, мы некоторые вещи делаем с нуля. Массу информации мы, естественно, заимствуем из открытых источников, включая научную базу и некоторые методы работы с ней, но в целом это первая фаза, которая помогает нам из частично готового что-то собрать, чтобы продвинуться дальше. А уже на втором, третьем этапе мы будем какие-то элементы заменять, если сочтем их непригодными. И если мы можем сделать лучше, мы, естественно, сделаем.

— У Transkribus есть возможность дополнительного обучения. А можно ли будет исследователям дополнительно натренировать какую-то модель в вашей программе на определенный почерк, например, конкретного писца XIV-XV века?

ДД: Есть задачи, которые требуют различения манеры разных писцов, чтобы решать те или иные вопросы в области палеографии, например, задачу датировки. Есть задачи распознавания символов, но не просто алфавитных символов, а именно определения разных начертаний, которые характерны для разных эпох или опять-таки для разных писцов. То есть здесь задача классификации усложняется многократно. Было, условно, сорок с чем-то букв, а теперь этих классов становится на порядок больше. Так что такой функционал тоже предусмотрен, мы об этом думаем и закладываем в архитектуру такие вещи.

— Какие еще специфические технические задачи приходится решать, когда вы работаете с корпусом текстов на церковнославянском языке?

ДД: Прежде всего бросается в глаза то, что в церковнославянском письме очень много надстрочных символов, диакритических знаков, которые отличают этот текст от современного. А это значит, что даже проиндексировать его не получится таким же образом — надо строить индексы, даже, наверное, совокупность индексов для поиска только по буквам или для поиска по слову, в той форме, как оно написано. Это значит, что надо учитывать эти надстрочные и диакритические символы.

Дальше, надстрочные символы — это признак сокращения слов, и снова при поиске возникает вопрос: искать по полному слову и считать его равным сокращенному или искать по прямому совпадению. Это значит, что нужны разные индексы, и поиск будет значимым образом различаться.

Кроме того, в самих текстах могут быть такие вещи, как указания для церковного пения, — это крюки и знамена. По сути, это язык в языке, между строк есть еще один язык, причем он существовал тоже в разных поколениях, выделяется как минимум три поколения, и эту проблему тоже еще предстоит изучать. Эти символы надо как-то отделять, иначе те же самые длинные хвостики у букв, которые направлены вниз или вверх, будут смешиваться с крюками и знаменами. Нельзя это все стереть, чтобы прочесть, нужны какие-то особые методы сегментации. Сегментация получается многоуровневая. Для начала надо понять, что на страницах есть крюки и знамена, и тогда обрабатывать страницу особым образом, вычищать их как-то.

Плюс — буквицы, вязь, это тоже особые зоны, которые отсутствуют в классических средствах распознавания. Таких блоков просто нет: там либо графика, либо тексты, либо картинка. А тут новые классы изображений, художественно оформленные буквицы и письмо вязью. Это тоже техническая проблема, которая требует отдельного решения.

Дальше лингвистические вещи. Это своя морфология, отличная от современной, свой синтаксис. Если брать методы лингвистической коррекции, n-граммный подход, он строится на создании индексов биграмм, триграмм, квадрограмм и так далее, но при этом текст сегментируется как есть, с учетом всех пробелов, а значит, по-разному. Что есть, то и входит в триграмму, пробел тоже может входить туда. Здесь тоже такой подход можно использовать, но есть тексты, где есть пробелы, а есть тексты, где пробелов пока еще нет, потому что они появились не сразу, не всегда так было. То же самое с пунктуацией. Она появлялась постепенно, на протяжении почти семисот лет, с X века по XVII. То есть все наши индексы, корпусы, подкорпусы надо делить на эпохи. Это тоже технический вопрос. Но он не только технический, он еще и исторический, потому что можно делить на три, а можно на пять или семь эпох. Здесь еще и историкам надо будет поработать.

— Какой вы видите финальную точку проекта? Может, есть какие-нибудь далеко идущие планы?

АП: Мы недавно обсуждали это с коллегами. Мы подумали, что, когда эта программа распознавания заработает, а она должна заработать уже скоро, мы получим довольно большой массив рукописей, но в грязном, невычитанном виде. Тем не менее мы могли бы посмотреть на текстологию памятников традиционного содержания на большом объеме невычитанного материала. И уже потом рукописи можно было бы доводить до такого состояния, чтобы делать электронные издания. Нам на первом этапе не нужна абсолютная чистота распознавания, мы можем пользоваться еще сырым материалом. На таком материале мы можем, например, искать цитаты, то есть одинаковые фрагменты в разных рукописях. А дальше можно было бы попробовать сделать электронный палеограф, чтобы машина определяла время создания памятника по почеркам. Вот в эту стороны мы сейчас думаем, можно обозначать и другие задачи. Я не знаю, где конечная точка, ведь средневековых рукописей очень много и физиологических проблем, связанных с ними, тоже много.

ДД: Конечная точка — это та ситуация, в которой инструментарий и корпус рукописного наследия живут своей жизнью, уже не зависят от конкретных людей. Это и будет значить, что у нас получилось.

— То есть мы с вами движемся к искусственному интеллекту, который в рамках заданных программ и параметров будет уже автономно решать эти задачи, не будет нуждаться в перманентном наблюдении со стороны конкретного специалиста?

ДД: Я бы предпочел слова «автоматизация» или «автоматическая регуляция», зачем нам бросаться громкими словами. Конечно, очень заманчиво развить наш инструментарий до уровня, когда он сможет предлагать что-то, до чего мы не додумались сами. Но это еще большой путь. И это, наверное, другие архитектуры, о которых мы в рамках этого проекта не думали, хотя определенные соображения «за кадром» исследований у нас уже возникают.

— Видите ли вы какие-то негативные последствия ваших исследований?

ДД: Нет.

АП: Я вижу скорее позитивные последствия. Например, если мы запустим наш корпус, то студенты провинциальных вузов, у которых нет доступа к архивам и которые не имеют возможности приехать в Москву или в Петербург, чтобы посмотреть материал, смогут писать курсовые и дипломные работы, кандидатские диссертации как раз с помощью этого инструмента. Я не знаю, какие могут быть негативные последствия.

ДД: Кажется, я понял, о чем речь. Есть монополисты, которые владеют источниками, оцифровывают их и открывают доступ за деньги. Вот они действительно столкнутся с негативными последствиями.

АП: Да, для архивов тоже могут быть негативные последствия. Архив выкладывает фотографии источников в очень плохом качестве. Предполагается, что исследователь может ими пользоваться, но никакой машинной обработке эти фотографии не подлежат. Если же мы можем работать с такими фотографиями, то монополия архива на историческую информацию может закончиться.

ДД: Я это понимаю, это нормально, потому что люди делают работу, они хотят как-то монетизировать свой труд. Это касается и нашего проекта тоже. Пока мы во многом работаем на энтузиазме, но рано или поздно вопрос о монетизации встанет и надо будет его как-то решать.

— Будут ли релевантны результаты вашего проекта для людей, которые не занимаются церковнославянскими рукописями, и просто обывателям, интересующимся историей?

АП: Все любят смотреть старые книги. Человек приходит в букинистический магазин, видит там какое-нибудь издание XVII-XVIII века и с удовольствием рассматривает его. Это красиво, это притягательно. И если мы какую-то часть рукописей выложим в виде электронных изданий, это может быть для многих интересно. Там будут буквицы, то есть буквы с элементами орнамента, какая-то справочная теоретическая информация, все это может снабжаться комментариями, которые могут быть адаптированы для неспециалистов. Посмотреть такое электронное издание — это как подержать в руках старую книгу. Мне кажется, об этом формате можно думать, потому что человеку интересно посмотреть, как выглядела книга в XII веке, как она выглядела в XVII веке. Мне кажется, любознательность людей надо удовлетворять, но пока что в перспективе — это всё.

ДД: Много последствий хороших может быть, они и филологические, и инженерные. Все эти наработки нужны же не только для этого конкретного проекта: у них большая, широкая перспектива обобщения. Вообще сама проблема анализа древних текстов есть в разных странах. Я до этого занимался японским материалом, есть и задача древнеяпонский текст распознавать. И он такой же разнообразный, как и наш. Со своими особенностями, но тем не менее там тоже писцы писали как хотели в разных местах и в разные эпохи по-разному.