Метод для подсчета утраченных средневековых текстов заимствовали у экологов

Группа ученых из разных стран использовала метод коррекции статистических подсчетов, заимствованный из области экологических исследований, чтобы установить, какой могла быть доля европейских средневековых художественных текстов, не дошедших до нашего времени. Об этом сообщает журнал Science.

Исследование выполнено силами девяти ученых, представляющих университеты Бельгии, Нидерландов, Великобритании, Ирландии, Германии, Исландии, Дании и Тайваня. Все они являются специалистами по цифровым гуманитарным наукам (digital humanities). Группу возглавлял Майк Кестемонт (Mike Kestemont) из Антверпенского университета.

В основу метода подсчетов утраченных средневековых текстов была положена коррекционная статистическая модель «незамеченных особей» («unseen species» model), разработанная специалистом по статистике Энн Чао (Anne Chao) из тайваньского Национального университета Цинь Хуа. Эта модель применяется в экологических исследованиях — она позволяет более точно оценить, сколько на данной территории проживает особей того или иного вида, например лисиц, часть которых была пересчитана в ходе полевых наблюдений, а часть ускользнула от внимания ученых. Энн Чао также входит в число соавторов исследования, выполненного под руководством Кестемонта.

На первом этапе ученые сосчитали точное число дошедших до нас повествовательных (narrative) текстов, созданных между 600 и 1450 гг. на голландском, французском, исландском, ирландском, английском и немецком языках. На втором этапе результат — 3648 текстов — подвергся компьютерной обработке на основе модели «незамеченных особей». В итоге программа установила, что до нашего времени сохранилось всего 9% произведений, сочиненных средневековыми авторами. Более подробное описание методов и результатов исследования приводится непосредственно в научной статье Кестемонта и его соавторов в Science.

Если эти данные верны, то общее число художественных текстов, написанных за восемь с половиной столетий на шести западноевропейских языках, превышает 40 тысяч. Это не так далеко от традиционных оценок, полученных историками литературы на основе подсчетов книжных каталогов и многочисленных отсылок к несохранившимся произведениям, которые встречаются в средневековых текстах. Ранее считалось, что от этого периода до нашего времени дошло всего 7% повествовательных сочинений.

Кестемонту и его коллегам удалось также скорректировать этот общий показатель в зависимости от конкретного региона. Так, они полагают, что до нас дошло лишь 5% англоязычных текстов, но 17% текстов, написанных на исландском языке, и 19% — на ирландском.

По мнению Фолгерта Карсдорпа (Folgert Karsdorp) из амстердамского Меертенсовского института при Королевской академии искусств и наук Нидерландов, также соавтора в группе Кестемонта, использованный ими «самый общий метод коррекции погрешностей» одинаково подходит для подсчета чего угодно — как книг, так и, например, птиц. Он, в частности, применяется для оценки числа ошибок в компьютерных программах.

Роберт Колуэлл (Robert Colwell), эволюционный биолог из Университета Коннектикута, уже назвал исследование Кестемонта и его коллег «превосходным». По его словам, «отрадно видеть, как приблизительные оценочные методы, изначально разработанные для изучения биологического разнообразия, постепенно начинают применяться в социальных и гуманитарных науках». Однако Дэниел Смейл (Daniel Smail), специалист по истории средневековой культуры из Гарвардского университета, подверг сомнению ценность результатов, полученных группой Кестемонта. По его словам, их работа больше интересна специалистам по статистическим компьютерным моделям, чем историкам и филологам, поскольку полученные ими выводы почти полностью совпадают с традиционными оценками. «Что они установили такого, чего мы и раньше не знали?» — задается вопросом ученый. Кроме того, он обращает внимание, что Кестемонт и его соавторы не смогли убедительно показать, что методы, применимые к экологическим системам, допустимо переносить на мир культурных артефактов.

Сама по себе проблема «незамеченных особей» была поставлена еще в 1940-х гг., с тех пор было разработано несколько математических моделей для ее решения. Как минимум один раз они применялись и к области литературы. В 1976 г. Брэдли Эфрон и Роналд Тистед попробовали установить общее число слов английского языка, которое могло быть известно Шекспиру. Для этого они подсчитали, что из 884647 слов, использованных в его сочинениях, 31534 слова можно назвать уникальными. Ученые попробовали оценить, сколько еще уникальных слов обнаружилось бы, напиши Шекспир вдвое, втрое и т.д. до бесконечности больше произведений, чем на самом деле. В итоге им удалось подсчитать, что в общей сложности Шекспир знал примерно вдвое больше уникальных английских слов, чем сохранилось в его сочинениях. Правда, вопрос о том, что считать отдельным словом у Шекспира, крайне непрост для решения — с учетом очень подвижной английской грамматики и орфографической вариативности, принятой в английском книгоиздании рубежа XVI–XVII вв. На сегодняшний день в шекспироведении считается, что словарь Шекспира составлял не тридцать с лишним тысяч, а всего около семнадцати тысяч уникальных слов.