Арутюнов А.А., Борисов Л.А., Зенюк Д.А., Ивченко А.Ю., Кирина-Лилинская Е.П., Орлов Ю. Н., Осминин К.П., Федоров С.Л., Шилин С.А. Статистические закономерности европейских языков и анализ рукописи Войнича // Препринты ИПМ им. М.В. Келдыша, 2016, №52, с. 1-36.
цитатаИсследованы статистические закономерности распределения частот букв в текстах на европейских языках. Проанализирован уровень достоверности логарифмической аппроксимации упорядоченного распределения частот для текстов без огласовки, написанных одним алфавитом на одном и на двух языках. Предложены варианты языков, на которых мог быть написан Манускрипт Войнича, и рассмотрена его внутренняя структура. Построены спектральные портреты матриц условных вероятностей двухбуквенных сочетаний для текстов без огласовки и Манускрипта Войнича.Ключевые слова: распределение частот буквенных сочетаний, группы европейских языков, Манускрипт Войнича, спектральный портрет.
Работа выполнена при поддержке гранта РФФИ, проект №16-01-00342
Введение и постановка задачи 3
1. Статистика символов транскрипций Манускрипта Войнича 6
2. Распределение расстояний между одинаковыми символами 14
3. Статистика частот символов в искусственных языках 18
4. Статистика частот символов в двуязычных текстах 20
5. Идентификация языка фрагмента текста 25
6. Анализ спектрального портрета Манускрипта Войнича 27
7. Замечания о структуре Манускрипта 30
Заключение 34
Литература 36
с. 34-35:
цитатаЗаключениеВ результате проведенных статистических исследований было установлено следующее.
Во-первых, групповая классификация индоевропейских языков может быть осуществлена формальной математической операцией – попарной кластеризацией распределений упорядоченных частот текстов без огласовки. Во-вторых, внутри подгрупп родственные языки могут быть смешаны без существенного изменения таких распределений. В-третьих, для уральской семьи кластеризация языков по указанному выше правилу не проходит, т.е. это правило не является универсальным. В-четвертых, показатель Херста (или его распределение) представляется устойчивым инвариантом языка. В-пятых, спектральные портреты текстов на языках индоевропейской семьи имеют сходные черты в расположении групп собственных значений.
В дальнейшем предполагается продолжить исследования в направлении поиска языковых инвариантов с целью установления статистических связей между различными языковыми группами и семьями. Возможно, это позволит лучше понять процессы, лежащие в основе самоорганизации (происходящей через посредство людей, конечно) набора слов в лексикон.
Что касается Манускрипта Войнича, то наиболее вероятной гипотезой о структуре языка, на котором он написан, является такая: МВ написан на смешанном языке без огласовки, 60 % текста написано на одном из языков западногерманской группы (английский или немецкий), а 40 % текста – на языке романской группы (итальянский или испанский) и/или на латыни. Аргументами в пользу такого вывода являются следующие: статистика символов МВ похожа на статистику осмысленного текста, но поведение показателя Херста для расстояний между одинаковыми символами значительно отличается от текстов, написанных на одном языке – естественном или искусственном; в то же время существует смесь, обладающая требуемыми статистическими свойствами; также и расстояния между алфавитными распределениями крупных частей МВ характерны для текстов, написанных на разных языках.
Кроме того, по-видимому, последовательность листов МВ может быть уточнена, если считать, что листы тематически должны быть собраны воедино. Считать ли части Манускрипта разными произведениями или одним, пока не ясно, поскольку большие расстояния между частями характерны для разных языков, а не разных произведений. Для последних они существенно меньше.
И все же на один из самых интригующих вопросов для многих о том, что на самом деле представляет собой Манускрипт Войнича, откуда он появился и кто, а главное, зачем его создал, авторы не могут пока дать однозначного ответа, ибо для этого требуется реальная и обоснованная расшифровка рукописи. Проведенное исследование позволяет предположить следующее (на правах исторической реконструкции).
Возможно, что некая небольшая группа (алхимиков?) – учитель и его немногочисленные ученики – разработали алфавит на основе современного им шрифта. На данном, весьма неплохо проработанном, надо сказать, шрифте они записали несколько текстов для внутреннего употребления, причем сами авторы, судя по легкости письма (символы не нарисованы каллиграфом, а написаны, причем многие из них слитно – см. рис. 20), хорошо понимали, что написано. Впрочем, сначала мог быть изготовлен черновик с переводом обычного текста на шифр, а уже затем этот шифр был записан в виде изучаемой нами рукописи. Однако эта, допустим, «алхимическая школа» достаточно быстро перестала существовать по неизвестным нам причинам, оставив после себя несколько (предположительно три) текста, которые и дошли до нас: «ботанический», «анатомический» и «астрологический». Хранились они, скорее всего, вместе, а после того как попали к другим алхимикам, уже никогда не использовались по причине того, что никто не смог их прочесть. Все последующие владельцы этих текстов не имели достоверного понятия о том, что попало им в руки: десяток страниц случайно переместился в неподходящие для них места, и лишь после этого страницы были пронумерованы одним из новых владельцев (видимо, для того, чтобы страницы не перепутались окончательно). Дальнейшее известно из стандартных описаний Манускрипта: тексты попали в папскую библиотеку, где были обнаружены Войничем и впервые им описаны.
Нам, конечно, неизвестно, о чем конкретно написано в этих текстах. Однако мы надеемся, что при помощи настоящей работы, опираясь на развитые методы и создавая новые, кто-либо из будущих исследователей сумеет это выяснить. Но, почти наверное, мы никогда не узнаем, что же в точности произошло с «алхимической школой», которая когда-то, пытаясь сохранить свои тайны для узкого круга посвященных, создала этот манускрипт.
— Арутюнов Андроник Арамович — МФТИ
— Борисов Леонид Андреевич — ИПМ им. М.В. Келдыша РАН
— Зенюк Дмитрий Алексеевич — ИПМ им. М.В. Келдыша РАН
— Ивченко Анастасия Юрьевна — МФТИ
— Кирина-Лилинская Елизавета Петровна — ИПМ им. М.В. Келдыша РАН
— Орлов Юрий Николаевич — ИПМ им. М.В. Келдыша РАН
— Осминин Константин Павлович — Мехмат МГУ
— Федоров Сергей Леонидович — ВЦ РАН
— Шилин Сергей Анатольевич — МФТИ