В недавнем материале «Горький» рассказывал о проекте «Слово Толстого», одном из примеров из относительно новой и стремительно развивающейся области под названием семантические цифровые издания. Что это такое и зачем они нужны? Об этом — материал Ольги Жуковой.

Все мы начиная с 24 февраля 2022 года оказались перед лицом наступающего варварства, насилия и лжи. В этой ситуации чрезвычайно важно сохранить хотя бы остатки культуры и поддержать ценности гуманизма — в том числе ради будущего России. Поэтому редакция «Горького» продолжит говорить о книгах, напоминая нашим читателям, что в мире остается место мысли и вымыслу.

Для начала немного терминологии. Цифровое издание — это в широком смысле любая форма представления текста на цифровом носителе. Если сфотографировать и выложить на сайт все страницы «Войны и мира», это вполне уложится в рамки понятия «цифровое издание». Единственное возможное действие с таким текстом — это, собственно, просмотр. Простой распознанный текст дает немногим более широкие возможности: копировать фрагменты текста или искать в нем конкретные сочетания символов.

Цифровая среда способна предложить гораздо более продвинутые инструменты для работы с текстом, чем просмотр и копирование, но для этого цифровое издание должно быть семантическим. В этом случае тексты подвергаются дополнительной обработке, отдельным словам и структурным элементам присваиваются идентификаторы — теги. Результат может выглядеть примерно так:

Отрывок «Гамлета» в базе данных проекта «РусДраКор» — корпус драматических произведений и их переводов на русском языке
 

Здесь структурные и смысловые элементы, такие как начало и конец строк или абзацев, имена персонажей, отмечены специальными символами. Разметка делает текст машиночитаемым, то есть позволяет компьютерной программе ориентироваться в его содержании. При этом пользователю показываются лишь те элементы, что предназначены для человека.

Тот же отрывок в основном пользовательском интерфейсе. Размеченная версия доступна в отдельной вкладке
 

Превращение цифрового издания в семантическое — процесс трудоемкий, но это открывает широчайшие возможности для обработки текста, исследования, творчества и просто удобства чтения в цифре.

Чтобы понять, на что способны семантические издания и почему люди ими пользуются, несмотря на непривычность, обратимся опять к «Слову Толстого». Создатели проекта учли, что их потенциальная аудитория велика и неоднородна: это и школьники, и учителя, и профессиональные исследователи, и просто читатели, интересующиеся русской классикой. Значит, нужен универсальный ресурс, на котором будут себя комфортно чувствовать пользователи всех категорий.

На сайте slovotolstogo.ru не просто выложено полное собрание сочинений писателя. Пользователю доступно множество дополнительных источников, в том числе авторские правки, комментарии, словари и справочники. Благодаря использованию размеченного, семантического издания на портале удалось реализовать простую и удобную систему навигации. Материалы связаны системой гиперссылок, а один из центральных элементов интерфейса — окно «умного» поиска с множеством параметров.

«Радость» в текстах Толстого с примененным фильтром «автобиографическое»
 

Разработчики проделали огромную работу по семантизации издания. Размечены не только сами тексты, но и типы произведений, названия, даты написания, черновые варианты, соотнесена старая и новая орфография. На сайте можно проверить цитату, узнать, что писал автор в конкретный день, или найти конкретное слово только в нехудожественных произведениях Толстого. Составлен справочник произведений Толстого, персон и редких слов. Получилась многоуровневая система взаимодействия с наследием Толстого, по информативности сопоставимая с серьезным академическим изданием, но по формату гораздо более демократичная, равно доступная ученым и читателям.

Семантические издания — относительно молодое явление, и единой их классификации пока не существует. «Слово Толстого», по сути, представляет собой просто хорошо структурированное хранилище книг, то есть относится к изданиям-библиотекам. Такой формат цифровых изданий появился одним из первых. Филологи уже более 20 лет пользуются ресурсом под названием «Фундаментальная электронная библиотека», или ФЭБ. Это огромное хранилище текстов русской классической литературы и фольклора, а также литературоведческих материалов, исследований, аналитических и критических статей — всего, что ученые написали о каждом из произведений. Еще там есть энциклопедии, справочники, языковые словари, вплоть до музыкальных произведений. Один вид стартовой страницы вызывает благоговейный трепет перед масштабом знания.

Главный вызов для посетителя здесь — не заблудиться в массиве информации. Если в «Слове Толстого» навигация напоминает использование поисковика, то более академическая и значительно раньше появившаяся ФЭБ построена по принципу базы данных. Библиотека имеет четкую иерархическую структуру, сбоку есть навигационная панель, а материалы связаны друг с другом системой гиперссылок. На сайте работает поиск по ключевым словам, авторам, временным периодам. Для самых неустрашимых и требовательных читателей есть раздел «каталог ссылок», в котором перечислено еще более 800 литературоведческих интернет-ресурсов.

Ресурсы-библиотеки, основанные на семантических изданиях, хороши в первую очередь продвинутой навигацией и возможностями поиска. Некоторые ресурсы предлагают также инструменты для выделения и сохранения фрагментов текста, а иногда и коллективной работы над ними. Например, в цифровом архиве английского поэта XVIII века Томаса Грея (Thomas Gray Archive) пользователи могут оставлять построчные заметки и комментарии к произведениям, а также просматривать примечания других читателей. Такая вот исследовательская социальная сеть. В целом же процесс чтения на ресурсе-«библиотеке» не очень отличается от работы с бумажной книгой. Но библиотека — далеко не единственная форма цифрового издания.

Само понятие «книга» с развитием цифровых технологий подверглось существенному пересмотру. Это больше не обязательно страницы текста, иногда с картинками. Оцифрованная, а тем более «digital born», то есть созданная в цифре книга может включать интерактивные элементы, аудио- и видеофрагменты, даже игры. Цифровое чтение по сравнению с бумажным тоже изменилось: оно менее линейное, и внимание читателя легко переключается между элементами текста и окружающей его среды. Многие из современных цифровых изданий — это не копии бумажных предшественников, а самостоятельные объекты, предполагающие другие сценарии взаимодействия.

Семантические издания могут предлагать читателю совсем нетипичный для традиционной книги функционал. Тот же «РусДраКор», о котором шла речь в начале, умеет строить графы взаимодействия между персонажами пьес. Вот как выглядит чеховская «Чайка».

Размер узла — активность персонажа, частота его попадания в статистику взаимодействий. Такой инструмент будет интересен в первую очередь исследователям. По количеству ребер и положению узлов можно делать предположения о значимости персонажей для сюжета, об авторском замысле и многом другом. Таким образом, семантическое цифровое издание предлагает читателю новый взгляд на произведение, порой приводящий к любопытным открытиям. Например, в пушкинской пьесе «Борис Годунов» центральным узлом, связующим большинство остальных, оказывается персонаж «Народ». Профессор-литературовед Сергей Бонди писал о центральном значении этого персонажа еще в середине XX века, а технологии XXI века дали тому быстрое и весьма наглядное подтверждение.

Другой пример: на уже упоминавшемся сайте Thomas Gray Archive для каждого стихотворения указан стихотворный размер, схема рифмовки и другие формальные признаки. Они могут пригодиться для литературного анализа: некоторые из нас помнят со школы, что ямб — «разговорный и простой» размер, а амфибрахий — «вальсирующий и изящный». По-видимому, на сайте Томаса Грея размеры и схемы вносились вручную, однако существуют и компьютерные программы, делающие это автоматически. Ненавязчиво подсвечивая такие вещи, цифровое издание выступает в роли учителя, предлагает увидеть произведение еще с одного ракурса.

В семантических изданиях компьютерная программа способна не только оперировать элементами внутри текста, но и сопоставлять фрагменты разных текстов. Это очень удобно, если текст существует в разных вариантах и пользователь хочет их сравнить. Ресурс «„Слово о полку Игореве“: Параллельный корпус переводов» посвящен знаменитому древнерусскому тексту, над которым страдают поколения российских старшеклассников и который стал поводом для неисчислимого множества исследований, художественных интерпретаций, переводов и фантазий на тему. На сайте пользователь может выбрать все интересующие его версии текста и конкретные фрагменты и увидеть их на одной странице.

Сами тексты наполнены ссылками на пояснения и комментарии, всплывающими подсказками и другими вспомогательными элементами. Симпатичное, хотя и не слишком функциональное дополнение встречает пользователя на титульной странице — цветное облако ключевых слов.

Кстати, похожий инструмент для быстрого ознакомления читателя с содержанием книги используют Google.Books и некоторые другие читательские сервисы. Это не пересказ в полноценном смысле, но дает общее представление о тематике. «Над пропастью во ржи» — это про сельское хозяйство? По ключевым словам понимаем, что, кажется, нет.

Благодаря возможностям параллельного сопоставления текстов, семантические издания незаменимы для работы с рукописями. По зачеркиваниям и изменениям, пометкам, подчеркиваниям и кляксам на первоисточнике можно проследить путь мысли автора или узнать что-то об истории самого документа. Инструмент для обработки рукописей «Текстограф» параллельно отображает фото рукописной страницы и расшифровку текста.

Рукописями интересуются не только филологи. Часто фрагменты рукописного текста можно встретить на сайтах, посвященных жизни и творчеству одного автора. Во-первых, это просто красиво, а во-вторых, дает материал для размышлений о характере и личности писателя. Размашистый небрежный почерк в письмах Марка Твена оставляет совсем иное впечатление, чем аккуратные (когда не перечеркнуты целыми абзацами) изысканные завитушки Джейн Остин.

Слева — Твен, справа — Остин
 

Разметка и тут позволяет соотносить рукописные фрагменты с печатными, избавляя читателя от необходимости самому разбирать почерк и превращая рукопись в подобие иллюстрации к собственному тексту.

Еще один интересный ресурс от Института русской литературы РАН (Пушкинского Дома), который обращается к личности писателя через рукописи, называется Pushkin.Digital. На этом сайте нет полного собрания сочинений (их немало в электронной библиотеке института), и он не основан ни на каком бумажном издании. «Цифровой Пушкин» знакомит читателя с живым творческим процессом. Материалы аккуратно рассортированы, черновики транскрибированы в печатные тексты, к ним добавлены комментарии и пояснения. Выложенные на сайте произведения можно читать как в обычном виде, так и с историей авторских исправлений.

Команда проекта называет сайт мультимедийной энциклопедией. Ресурс не претендует на оригинальность и всеобъемлющую полноту, зато погружает читателя в атмосферу создания произведений, показывает путь авторской мысли от замысла до финальной версии. Просмотр исчерканных черновиков побуждает как минимум задуматься, таким ли прямым был этот путь.

Некоторые ресурсы не ограничиваются текстами и стремятся дать читателю всеобъемлющую картину жизни писателя. «Мир Достоевского» в подробностях знакомит посетителя со знаковыми местами, друзьями и недругами, событиями и жизненными впечатлениями писателя. Здесь все яркое, подвижное, увлекающее. Создатели сайта постарались собрать каждую крупицу мира, в котором жил, мыслил и творил писатель: от схемы его детской квартиры до знаменитой картины Гольбена «Христос во гробе», впечатление от которой отразилось в известном эпизоде «Идиота». Сайт приглашает сразу в несколько «миров», которые хочется исследовать, как новые локации в добротной игровой вселенной.

Текстов произведений Достоевского на сайте нет вообще. Зато после его посещения может появиться желание их найти, и это главное. После знакомства с многочисленными личными документами (письмами, дневниковыми записями) писателя и воспоминаниями его знакомых начинает казаться, что Федор Михайлович — практически ваш личный знакомый.

«Миров» отдельных писателей или произведений в интернете существует множество. Некоторые делают ставку не на эффектность и не на объем, а на оригинальность подхода. У сайта «Чехов.Диджитал» из продвинутых функций — только поиск, зато необычный. Он позволяет узнать, в каких контекстах писатель использовал разные слова. Например, слово «гадость» Чехов использовал для таких явлений, как испорченная еда, неприличный смех, поведение ревнивца, почти любая погода (жара, холод, дождь, облачность), разные недомогания, а еще чиновничий язык. Из таких деталей вырастает живое и яркое представление о характере человека.

Иногда в фокусе находится не писатель, а конкретное произведение. Часто это непростые, большие тексты, в равной степени приковывающие внимание множества исследователей и отпугивающие простого читателя сложностью. В этом случае семантические издания вновь дают возможность выдать пользователю удобные и полезные инструменты для обращения с текстом. Наглядным примером может послужить сайт, посвященный сборнику новелл Джованни Бокаччо «Декамерон» (Decameron Web). Хотя сама эта книга — собрание легких новелл, она насыщена огромным количеством отсылок и аллюзий, содержит множество упоминаний лиц и событий, непонятных вне контекста. Сайт погружает читателя в реалии того времени: на нем есть материалы о религии, географии, исторических событиях. Сам текст аккуратно разделен на главы и представлен на двух языках: оригинальном итальянском и в английском переводе. У каждого абзаца есть гиперссылка, ведущая к тому же абзацу на другом языке. Все это не избавляет читателя от большого количества дополнительного чтения и труда, но, по крайней мере, ему не нужно искать информацию на стороне. Под рукой оказывается все необходимое, чтобы понять фразу: «Маркиз Монферратский, человек высокой доблести и гонфалоньер церкви, отправился за море в общем вооруженном хождении христиан…».

Совсем иначе устроен ресурс, посвященный еще одному произведению, которое все знают, но мало кто читал. О легендарной «Божественной комедии» Данте есть много ресурсов. На одном из них — «Amor mi mosse, che mi fa parlare» — вместо полного текста (сложного для восприятия даже продвинутого читателя) пользователь видит тезисный пересказ сюжета, опорные цитаты и время от времени исторические или биографические комментарии. Но главное здесь — удивительные визуальные решения, превращающие просмотр сайта в эстетическое наслаждение. Разработчики сделали ставку не на осмысление и анализ произведения, а на эмоции и эффект погружения (что с учетом специфики произведения звучит немного неоднозначно). Проматывая вниз бесконечную ленту в зловещих черно-красных тонах, пользователь буквально опускается по кругам Дантова Ада. Впрочем, переключиться на Чистилище или Рай легко, для этого есть маленькая кнопка меню в верхнем правом углу. Атмосферные иллюстрации, фотографии страниц старинных изданий, подвижные элементы (чего стоят распахивающиеся врата ада) создают ни на что не похожий опыт чтения-путешествия. На сайте можно задержаться из простого любопытства, а закрыв его, с удивлением обнаружить, что в целом запомнил сюжет и множество ярких образов из произведения, которое иначе не осилил бы дальше первой страницы.

Первый круг Ада загружается
 

Обзор цифровых решений, связанных с чтением и литературой, может быть бесконечным, и это не фигура речи. Новые идеи воплощаются буквально каждый день, многие из них до поры остаются на локальных серверах университетов и небольших творческих команд, но потихоньку добираются до широкой публики. Одновременно совершенствуются рекомендательные системы (посмотрите, например, очень красивый проект «Океан книг» от Google: писатели — «острова», их размеры зависят от представленности в интернете, а близость друг другу — от частоты совместных упоминаний). Все это тоже результат семантизации, компьютерной обработки изданий.

Время, когда любимую книгу можно будет качественно обсудить с виртуальным собеседником, еще не настало, но, кажется, и оно уже не за горами. Уже сегодня компьютеры способны помочь читателю практически на любом этапе взаимодействия с книгой — от мотивации к перелистыванию первых страниц до толкования сложных слов и поиска справочных материалов. Пока одни разработчики экспериментируют с читательской функциональностью изданий, другие работают над рекомендательными сервисами. Чего в ближайшее время точно не предвидится, так это исчезновения понятий «книга» и «чтение» как таковых. В мире, где удобные и эффективные рекомендательные сервисы будут вести на красивые и функциональные издания, кажется, не стоит слишком беспокоиться за будущее чтения.