Стала доступна программа для анализа «пунктуационного профиля» литературных текстов

Американский писатель создал и выложил в открытый доступ программу, позволяющую анализировать «пунктуационный профиль» любого текста — от записей в соцсетях до многостраничных романов. Об этом сообщает блог LitHub.

Программа Клайва Томпсона (Clive Thompson) называется «just the punctuation» и представляет собой веб-инструмент, позволяющий в один клик убрать из любого текста все буквы и оставить лишь знаки препинания, которые автоматически складываются в единый текстовый блок. Получившаяся визуализация показывает, насколько синтаксически простым или сложным языком пишет данный автор. «Пунктуационные профили» разных произведений, утверждает Томпсон, удобно сравнивать друг с другом для выявления стилистических отличий между ними.

Визуализировать и сопоставлять «пунктуационные профили» произведений разных писателей придумал американский исследователь Адам Колхаун (Adam J. Calhoun) еще пять лет назад. Для этого он разработал собственную программу и выложил у себя на странице образцы пунктуационной визуализации нескольких известных произведений — романов «Авессалом, Авессалом!» Фолкнера, «Прощай, оружие!» Хемингуэя, «Большие надежды» Диккенса, «Гордость и предубеждение» Остен, «Приключения Гекельберри Финна» Твена, «Улисс» Джойса, пьес «Ромео и Джульетта» Шекспира, «Кукольный дом» Ибсена, «Логико-философского трактата» Витгенштейна. Колхаун не удовлетворился простым построением блоков из пунктуационных знаков и применил другие методы анализа — от статистических подсчетов до составления тепловых карт. Он также выложил свой код, написанный на Python, в открытый доступ, однако им могут воспользоваться только программисты.

По словам Колхауна, источником вдохновения для разработки этого инструмента ему послужила серия постеров, созданных веб-дизайнером Никола Ружэ (Nicholas Rougeux), — на них цепочки пунктуационных знаков ряда классических литературных произведений (взятых из творчества Кэрролла, Диккенса, Шекспира, Остен, Мелвилла, Уэллса, Джойса и т.д.) были закручены в большие спирали.

Редакция «Горького» решила проверить, как работает программа Томпсона и насколько наглядно сгенерированные ею «пунктуационные профили» показывают различия в стиле писателей. Мы выбрали два отрывка — по 7 тысяч знаков с начала известных романов Л. Н. Толстого и Ф. М. Достоевского (при работе с русскими текстами необходимо иметь в виду: скрипт Томпсона не отличает дефисы от тире и не видит кавычек-елочек). Результаты перед вами:

Л. Н. Толстой, «Анна Каренина»:

Ф. М. Достоевский, «Идиот»: