Какие возникают проблемы у исследователей при построении филогенетических деревьев языковых групп и семей с помощью грамматических признаков? На какие группы делятся методы лексикостатистики? И как эксперты оценивают их точность? Об этом рассказывает кандидат филологических наук Алексей Касьян.

Построение филогенетических деревьев языковых групп и семей различными формальными, заимствованными из биологии методами сейчас постепенно становится основным способом генеалогической классификации языков. Процедура довольно проста: на первом этапе составляется матрица языков — это такая анкета, где каждый из описываемых языков охарактеризован по заданному набору признаков, этот набор един для всех языков. На втором этапе эта матрица анализируется различными математическими методами, и выясняется, какой язык к какому ближе. Самый распространенный прием — это лексикостатистика, то есть использование лексических признаков, а именно наличие или отсутствие того или иного пракорня в данном значении в исследуемом языке.

Рекомендуем по этой теме:
96537
Языковое разнообразие
Методы делятся на две большие группы: дистантные, distance-based, и то, что по-русски не очень удачно называют «дискретными методами», а по-английски — character-based, что лучше отражает их сущность. Дистантные методы имеют дело с матрицей, с таблицей расстояний между таксонами — в нашем случае между языками. Из них наиболее популярным и адекватным является метод ближайших соседей. Дискретные методы, напротив, анализируют поведение конкретных признаков по матрице, и сейчас среди этих методов по степени доверия исследователей лидируют метод максимальной бережливости и метод Монте-Карло с цепями Маркова.

Основная проблема — это отсутствие аккуратных входных данных. Отчасти и во многом эту проблему позволяет решить проект «Глобальная лексикостатистическая база данных». Например, на 2013 год имеется обширная лезгинская база данных. Лезгинские языки — это группа, распространенная в юго-восточном Дагестане и прилегающем Азербайджане. Чем интересна лезгинская база данных? Во-первых, там довольно много таксонов: двадцать языков и диалектов. Среди них есть как аутлайеры, которые длительное время развивались в изоляции, например, арчинский язык, так и языки, которые, наоборот, активно контактировали и контактируют с соседними близкородственными языками, например, агульский язык. Во-вторых, среди кавказоведов имеется некоторый консенсус относительно топологии лезгинской филогении, а именно: два аутлайера, отделившихся первыми, — удинский и арчинский, — и большой блок лезгинских, или самурских, с тремя главными кластерами — западный, восточный и южный. В-третьих, лезгинскую группу можно охарактеризовать как среднюю или чуть выше среднего по параметру надежности и подробности лексикографического описания. Все это делает лезгинскую базу прекрасным полигоном для апробации тех или иных филогенетических методов.