Ссылка:
http://xn--c1acc6aafa1c.xn--p1ai/?page_id=36164Лексикостатистика и славянские языки. Автор Алексей Касьян.
В статье дается обзор основных экспериментов по применению лексикостатистических методов к классификации славянских языков, а также кратко разбираются теоретические и практические проблемы, с которыми сталкивается лексикостатистика. Русский перевод статьи «Lexicostatistics and Slavic languages» для энциклопедии: Marc L. Greenberg et al. (eds.), Encyclopedia of Slavic Languages and Linguistics Online. Brill.
Лексикостатистика (Swadesh 1952; Swadesh 1955; Tischler 1973; Embleton 2000; Starostin 2000; McMahon & McMahon 2005; Starostin 2010) в широком понимании – это формализованная математическая процедура, которая оценивает по лексическим данным степень близости между языками. Можно сказать, что лексикостатистика измеряет лексические дистанции между языками. Оцениваемая близость может отражать как генеалогическое родство, так и контакты в зависимости от того, как мы составляем лексические списки, предназначенные для компьютерного анализа (выкидываем ли мы заимствования или нет), и какой метод обсчета используется. Дополнительная процедура, которая датирует узлы дерева, иногда называется глоттохронологией. В настоящее время иногда предлагается (конечно же, в рекламных целях) оставить термин лексикостатистика для лексикостатистического анализа традиционными дистантными методами (NeighborJoining или UPGMA, см. ниже), а для недавно введенных в лингвистический оборот признаковых методов (прежде всего байесовский вывод) использовать другие ярлыки.
Графический результат лексикостатистического анализа – это или дерево (граф, в котором любая пара вершин соединена одним и только одним путем), или филогенетическая сеть (граф, в котором пара вершин может иметь и в нормальном случае имеет более одного пути между собой). Конечные узлы (листья) такого дерева или сети представляют собой анализируемые языки.
Деревья (Jacques & List 2019) в идеальном случае должны отражать непосредственную историю человеческих популяций, где узлы с разделением языков соответствуют расселению и миграциям. Корень дерева представляет собой праязык всех языков, включенных в анализ, а промежуточные узлы – это праязыки отдельных языковых групп и подгрупп. Иными словами, деревья несут генеалогическую информацию.
Сети (Heggarty, Maguire & McMahon 2010; Huson & Scornavacca 2011) представляют информацию двух видов: генеалогическую и контактную. Это значит, что сети отображают как общие черты, унаследованные от общего предка (праязыка), так и общие черты, заимствованные из одного языка в другой (или же параллельно независимо развившиеся). Надо подчеркнуть, что сети графически не разделяют эти два типа сигнала близости языков.
Подавляющее большинство вычислительных методов и компьютерных программ, сегодня используемых для лексикостатистики, были импортированы из биологии, прежде всего из генетики, а не разработаны для нужд лингвистов. Открытым остается вопрос, какие из многочисленных имеющихся математических алгоритмов реконструкции филогении лучше удовлетворяет естественной языковой эволюции, и, к сожалению, лингвисты редко задаются этим вопросом. Представляется, что пока не разработан такой алгоритм, который в достаточной степени отражал бы основные особенности эволюции лексики.
Славянские языки – это очень хорошо изученная языковая группа, ее трехчастная структура – западная подгруппа, восточная и южная – в целом не вызывает вопросов, даже если позиция отдельных идиомов, например, древненовгородского языка, и вызывает споры. Таким образом славянская группа – это хороший полигон для проверки лексикостатистических методов и подходов. В статье перечислены основные лексикостатистические эксперименты со славянскими языками.
References
Bezlaj, France. 2003. Položaj slovenščine v okviru slovanskih jezikov. Zbrani jezikoslovni spisi, vol. 1, 268–277. Ljubljana: Založba ZRC.
Blažek, Václav. 2020. Classification of Slavic languages: evolution of developmental models. Slavia Occidentalis 77(1). 33–64. doi:10.14746/so.2020.77.3.
Bouckaert, R., P. Lemey, M. Dunn, S. J. Greenhill, A. V. Alekseyenko, A. J. Drummond, R. D. Gray, M. A. Suchard & Q. D. Atkinson. 2012. Mapping the origins and expansion of the Indo-European language family. Science 337. 957–960. doi:10.1126/science.1219669.
Chang, Will, Chundra Cathcart, David Hall & Andrew Garrett. 2015. Ancestry-constrained phylogenetic analysis supports the Indo-European steppe hypothesis. Language 91(1). 194–244. doi:10.1353/lan.2015.0005.
Dyen, Isidore, Joseph B. Kruskal & Paul Black. 1992. An Indoeuropean classification: a lexicostatistical experiment (Transactions of the American Philosophical Society, New Series 82(5)). Independence Square, Philadelphia: The American Philosophical Society.
Embleton, Sheila. 2000. Lexicostatistics/Glottochronology: from Swadesh to Sankoff to Starostin to future horizons. In Colin Renfrew, April McMahon & Larry Trask (eds.), Time depth in historical linguistics, vol. 2, 143–166. Cambridge, England: McDonald Institute for Archaeological Research.
Gray, Russell D. & Quentin D. Atkinson. 2003. Language-tree divergence times support the Anatolian theory of Indo-European origin. Nature 426. 435–439. doi:10.1038/nature02029.
Greenberg, Marc L. 2000. A historical phonology of the Slovene language (Historical Phonology of the Slavic Languages 13). Heidelberg: Universitätsverlag C. Winter.
Heggarty, Paul, Warren Maguire & April McMahon. 2010. Splits or waves? Trees or webs? How divergence measures and network analysis can unravel language histories. Philosophical Transactions of the Royal Society B: Biological Sciences 365(1559). 3829–3843. doi:10.1098/rstb.2010.0099.
Huson, Daniel H. & Celine Scornavacca. 2011. A survey of combinatorial methods for phylogenetic networks. Genome Biology and Evolution 3. 23–35. doi:10.1093/gbe/evq077.
Jacques, Guillaume & Johann-Mattis List. 2019. Save the trees: Why we need tree models in linguistic reconstruction (and when we should apply them). Journal of Historical Linguistics 9(1). 128–167. doi:10.1075/jhl.17008.mat.
Kassian, Alexei S. 2015. Towards a formal genealogical classification of the Lezgian languages (North Caucasus): testing various phylogenetic methods on lexical data. PLOS ONE 10(2). e0116950. doi:10.1371/journal.pone.0116950.
Kassian, Alexei S., George Starostin, Anna Dybo & Vasily Chernov. 2010. The Swadesh wordlist. An attempt at semantic specification. Journal of Language Relationship 4. 46–89.
Kurkina, Lyubov V. 1985. Praslavjanskie dialektnye istoki južnoslavjanskoj jazykovoj gruppy [Proto-Slavic dialect origin of the South Slavic language group]. Voprosy yazykoznaniya 4. 61–71.
Kushniarevich, Alena, Olga Utevska, Marina Chuhryaeva, Anastasia Agdzhoyan, Khadizhat Dibirova, Ingrida Uktveryte, Märt Möls, et al. 2015. Genetic heritage of the Balto-Slavic speaking populations: a synthesis of autosomal, mitochondrial and Y-chromosomal data. PLOS ONE 10(9). 1–19. doi:10.1371/journal.pone.0135820.
List, Johann Mattis, Annika Tjuka, Mathilda Van Zantwijk, Frederic Blum, Carlos Barrientos Ugarte, Christoph Rzymski, Simon Greenhill & Robert Forkel. 2023. CLLD Concepticon 3.1.0. Zenodo. doi:10.5281/ZENODO.7777629.
https://concepticon.clld.org/ (23 April, 2023).
McMahon, April M. S. & Robert McMahon. 2005. Language classification by numbers (Oxford Linguistics). Oxford NY: Oxford University Press.
Müller, André, Viveka Velupillai, Søren Wichmann, Cecil H. Brown, Eric W. Holman, Sebastian Sauppe, Pamela Brown, et al. 2021. ASJP world language trees of lexical similarity: Version 5 (October 2021).
https://asjp.clld.org/download.
Novotná, Petra & Václav Blažek. 2007a. Glottochronology and its application to the Balto-Slavic languages. Baltistica 42(2). 185–210.
Novotná, Petra & Václav Blažek. 2007b. Glottochronology and its application to the Balto-Slavic languages. Baltistica 42(3). 323–346.
Starostin, George S. 2010. Preliminary lexicostatistics as a basis for language classification: A new approach. Journal of Language Relationship (3). 79–116.
Starostin, Sergei A. 2000. Comparative-historical linguistics and lexicostatistics. In Colin Renfrew, April McMahon & Larry Trask (eds.), Time depth in historical linguistics, vol. 2, 223–265. Cambridge, England: The McDonald Institute for Archaeological Research.
Swadesh, Morris. 1952. Lexicostatistic dating of prehistoric ethnic contacts. Proceedings of the American Philosophical Society 96. 452–463.
Swadesh, Morris. 1955. Towards greater accuracy in lexicostatistic dating. International Journal of American Linguistics (21). 121–137.
Tischler, Johann. 1973. Glottochronologie und Lexikostatistik (Innsbrucker Beiträge Zur Sprachwissenschaft). Innsbruck: Inst. f. Sprachwiss. d. Univ. Innsbruck.
Vasilyev, Mikhail & Mikhail Saenko. 2020. Analiz topologii i ocenka točnosti leksikostatističeskix klassifikacij (na primere slavjanskix jazykov) [An analysis of the topology and estimation of accuracy for lexicostatistical classifications (on the data of Slavic languages)]. Journal of Language Relationship 18(4). 320–347.
Wichmann, Søren, Eric W. Holman & Cecil H. Brown. 2022. The ASJP Database (version 20).
https://asjp.clld.org/ (23 February, 2023).
Yanovich, Igor. 2020. Phylogenetic linguistic evidence and the Dene-Yeniseian homeland. Diachronica 37(3). 410–446. doi:10.1075/dia.17038.yan.