АвторТема: Лексикостатистика и славянские языки  (Прочитано 991 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн pashka_1604Автор темы

  • берегите лес, негде будет партизанить
  • Сообщений: 447
  • Страна: ru
  • Рейтинг +285/-0
  • FTDNA: B486274 GEDmatch: HD652233 YFull: YF67527
  • Y-ДНК: R-Z92 (YP-569*> R-BY84206 / R-Y85137)
  • мтДНК: H6a1a (H6a1a21)
Ссылка: http://xn--c1acc6aafa1c.xn--p1ai/?page_id=36164

Лексикостатистика и славянские языки. Автор Алексей Касьян.

В статье дается обзор основных экспериментов по применению лексикостатистических методов к классификации славянских языков, а также кратко разбираются теоретические и практические проблемы, с которыми сталкивается лексикостатистика. Русский перевод статьи «Lexicostatistics and Slavic languages» для энциклопедии: Marc L. Greenberg et al. (eds.), Encyclopedia of Slavic Languages and Linguistics Online. Brill.

Лексикостатистика (Swadesh 1952; Swadesh 1955; Tischler 1973; Embleton 2000; Starostin 2000; McMahon & McMahon 2005; Starostin 2010) в широком понимании – это формализованная математическая процедура, которая оценивает по лексическим данным степень близости между языками. Можно сказать, что лексикостатистика измеряет лексические дистанции между языками. Оцениваемая близость может отражать как генеалогическое родство, так и контакты в зависимости от того, как мы составляем лексические списки, предназначенные для компьютерного анализа (выкидываем ли мы заимствования или нет), и какой метод обсчета используется. Дополнительная процедура, которая датирует узлы дерева, иногда называется глоттохронологией. В настоящее время иногда предлагается (конечно же, в рекламных целях) оставить термин лексикостатистика для лексикостатистического анализа традиционными дистантными методами (NeighborJoining или UPGMA, см. ниже), а для недавно введенных в лингвистический оборот признаковых методов (прежде всего байесовский вывод) использовать другие ярлыки.

Графический результат лексикостатистического анализа – это или дерево (граф, в котором любая пара вершин соединена одним и только одним путем), или филогенетическая сеть (граф, в котором пара вершин может иметь и в нормальном случае имеет более одного пути между собой). Конечные узлы (листья) такого дерева или сети представляют собой анализируемые языки.

Деревья (Jacques & List 2019) в идеальном случае должны отражать непосредственную историю человеческих популяций, где узлы с разделением языков соответствуют расселению и миграциям. Корень дерева представляет собой праязык всех языков, включенных в анализ, а промежуточные узлы – это праязыки отдельных языковых групп и подгрупп. Иными словами, деревья несут генеалогическую информацию.

Сети (Heggarty, Maguire & McMahon 2010; Huson & Scornavacca 2011) представляют информацию двух видов: генеалогическую и контактную. Это значит, что сети отображают как общие черты, унаследованные от общего предка (праязыка), так и общие черты, заимствованные из одного языка в другой (или же параллельно независимо развившиеся). Надо подчеркнуть, что сети графически не разделяют эти два типа сигнала близости языков.

Подавляющее большинство вычислительных методов и компьютерных программ, сегодня используемых для лексикостатистики, были импортированы из биологии, прежде всего из генетики, а не разработаны для нужд лингвистов. Открытым остается вопрос, какие из многочисленных имеющихся математических алгоритмов реконструкции филогении лучше удовлетворяет естественной языковой эволюции, и, к сожалению, лингвисты редко задаются этим вопросом. Представляется, что пока не разработан такой алгоритм, который в достаточной степени отражал бы основные особенности эволюции лексики.

Славянские языки – это очень хорошо изученная языковая группа, ее трехчастная структура – западная подгруппа, восточная и южная – в целом не вызывает вопросов, даже если позиция отдельных идиомов, например, древненовгородского языка, и вызывает споры. Таким образом славянская группа – это хороший полигон для проверки лексикостатистических методов и подходов. В статье перечислены основные лексикостатистические эксперименты со славянскими языками.

References

Bezlaj, France. 2003. Položaj slovenščine v okviru slovanskih jezikov. Zbrani jezikoslovni spisi, vol. 1, 268–277. Ljubljana: Založba ZRC.

Blažek, Václav. 2020. Classification of Slavic languages: evolution of developmental models. Slavia Occidentalis 77(1). 33–64. doi:10.14746/so.2020.77.3.

Bouckaert, R., P. Lemey, M. Dunn, S. J. Greenhill, A. V. Alekseyenko, A. J. Drummond, R. D. Gray, M. A. Suchard & Q. D. Atkinson. 2012. Mapping the origins and expansion of the Indo-European language family. Science 337. 957–960. doi:10.1126/science.1219669.

Chang, Will, Chundra Cathcart, David Hall & Andrew Garrett. 2015. Ancestry-constrained phylogenetic analysis supports the Indo-European steppe hypothesis. Language 91(1). 194–244. doi:10.1353/lan.2015.0005.

Dyen, Isidore, Joseph B. Kruskal & Paul Black. 1992. An Indoeuropean classification: a lexicostatistical experiment (Transactions of the American Philosophical Society, New Series 82(5)). Independence Square, Philadelphia: The American Philosophical Society.

Embleton, Sheila. 2000. Lexicostatistics/Glottochronology: from Swadesh to Sankoff to Starostin to future horizons. In Colin Renfrew, April McMahon & Larry Trask (eds.), Time depth in historical linguistics, vol. 2, 143–166. Cambridge, England: McDonald Institute for Archaeological Research.

Gray, Russell D. & Quentin D. Atkinson. 2003. Language-tree divergence times support the Anatolian theory of Indo-European origin. Nature 426. 435–439. doi:10.1038/nature02029.

Greenberg, Marc L. 2000. A historical phonology of the Slovene language (Historical Phonology of the Slavic Languages 13). Heidelberg: Universitätsverlag C. Winter.

Heggarty, Paul, Warren Maguire & April McMahon. 2010. Splits or waves? Trees or webs? How divergence measures and network analysis can unravel language histories. Philosophical Transactions of the Royal Society B: Biological Sciences 365(1559). 3829–3843. doi:10.1098/rstb.2010.0099.

Huson, Daniel H. & Celine Scornavacca. 2011. A survey of combinatorial methods for phylogenetic networks. Genome Biology and Evolution 3. 23–35. doi:10.1093/gbe/evq077.

Jacques, Guillaume & Johann-Mattis List. 2019. Save the trees: Why we need tree models in linguistic reconstruction (and when we should apply them). Journal of Historical Linguistics 9(1). 128–167. doi:10.1075/jhl.17008.mat.

Kassian, Alexei S. 2015. Towards a formal genealogical classification of the Lezgian languages (North Caucasus): testing various phylogenetic methods on lexical data. PLOS ONE 10(2). e0116950. doi:10.1371/journal.pone.0116950.

Kassian, Alexei S., George Starostin, Anna Dybo & Vasily Chernov. 2010. The Swadesh wordlist. An attempt at semantic specification. Journal of Language Relationship 4. 46–89.

Kurkina, Lyubov V. 1985. Praslavjanskie dialektnye istoki južnoslavjanskoj jazykovoj gruppy [Proto-Slavic dialect origin of the South Slavic language group]. Voprosy yazykoznaniya 4. 61–71.

Kushniarevich, Alena, Olga Utevska, Marina Chuhryaeva, Anastasia Agdzhoyan, Khadizhat Dibirova, Ingrida Uktveryte, Märt Möls, et al. 2015. Genetic heritage of the Balto-Slavic speaking populations: a synthesis of autosomal, mitochondrial and Y-chromosomal data. PLOS ONE 10(9). 1–19. doi:10.1371/journal.pone.0135820.

List, Johann Mattis, Annika Tjuka, Mathilda Van Zantwijk, Frederic Blum, Carlos Barrientos Ugarte, Christoph Rzymski, Simon Greenhill & Robert Forkel. 2023. CLLD Concepticon 3.1.0. Zenodo. doi:10.5281/ZENODO.7777629. https://concepticon.clld.org/ (23 April, 2023).

McMahon, April M. S. & Robert McMahon. 2005. Language classification by numbers (Oxford Linguistics). Oxford NY: Oxford University Press.

Müller, André, Viveka Velupillai, Søren Wichmann, Cecil H. Brown, Eric W. Holman, Sebastian Sauppe, Pamela Brown, et al. 2021. ASJP world language trees of lexical similarity: Version 5 (October 2021). https://asjp.clld.org/download.

Novotná, Petra & Václav Blažek. 2007a. Glottochronology and its application to the Balto-Slavic languages. Baltistica 42(2). 185–210.

Novotná, Petra & Václav Blažek. 2007b. Glottochronology and its application to the Balto-Slavic languages. Baltistica 42(3). 323–346.

Starostin, George S. 2010. Preliminary lexicostatistics as a basis for language classification: A new approach. Journal of Language Relationship (3). 79–116.

Starostin, Sergei A. 2000. Comparative-historical linguistics and lexicostatistics. In Colin Renfrew, April McMahon & Larry Trask (eds.), Time depth in historical linguistics, vol. 2, 223–265. Cambridge, England: The McDonald Institute for Archaeological Research.

Swadesh, Morris. 1952. Lexicostatistic dating of prehistoric ethnic contacts. Proceedings of the American Philosophical Society 96. 452–463.

Swadesh, Morris. 1955. Towards greater accuracy in lexicostatistic dating. International Journal of American Linguistics (21). 121–137.

Tischler, Johann. 1973. Glottochronologie und Lexikostatistik (Innsbrucker Beiträge Zur Sprachwissenschaft). Innsbruck: Inst. f. Sprachwiss. d. Univ. Innsbruck.

Vasilyev, Mikhail & Mikhail Saenko. 2020. Analiz topologii i ocenka točnosti leksikostatističeskix klassifikacij (na primere slavjanskix jazykov) [An analysis of the topology and estimation of accuracy for lexicostatistical classifications (on the data of Slavic languages)]. Journal of Language Relationship 18(4). 320–347.

Wichmann, Søren, Eric W. Holman & Cecil H. Brown. 2022. The ASJP Database (version 20). https://asjp.clld.org/ (23 February, 2023).

Yanovich, Igor. 2020. Phylogenetic linguistic evidence and the Dene-Yeniseian homeland. Diachronica 37(3). 410–446. doi:10.1075/dia.17038.yan.
« Последнее редактирование: 07 Май 2023, 18:52:11 от pashka_1604 »

Оффлайн Yaroslav

  • Сообщений: 18704
  • Страна: ru
  • Рейтинг +4679/-14
  • 76% East Europe + 17% Finland
  • Y-ДНК: J1a2b1a ZS3067, ЖМ: I2a1a2b1a1a1a1 FT37540, МЖМ: G2a2b1a1a1a2b2a FT159945
  • мтДНК: K1b1a1 T199C, МЖ: H13a1a1d
Re: Лексикостатистика и славянские языки
« Ответ #1 : 07 Май 2023, 18:44:23 »
Ссылка: http://xn--c1acc6aafa1c.xn--p1ai/?page_id=478

Ссылка ведёт немного не туда: на профиль Алексея Сергеевича, а не на его статью.

Вот ссылка на саму статью: http://генофонд.рф/?page_id=36164

Кириллица в "генофонд.рф" видимо не позволяет сделать ссылку кликабельной, поэтому нужно скопировать и вставить в адресное окно.

Оффлайн Yaroslav

  • Сообщений: 18704
  • Страна: ru
  • Рейтинг +4679/-14
  • 76% East Europe + 17% Finland
  • Y-ДНК: J1a2b1a ZS3067, ЖМ: I2a1a2b1a1a1a1 FT37540, МЖМ: G2a2b1a1a1a2b2a FT159945
  • мтДНК: K1b1a1 T199C, МЖ: H13a1a1d
Re: Лексикостатистика и славянские языки
« Ответ #2 : 07 Май 2023, 19:02:54 »
Цитировать
Славянская часть дерева ASJP (дерево v.5 от 2021 г., Müller et al. 2021), рис. 8, неудовлетворительна. Сложно установить без дополнительных тестов, что именно вызывает такие сильные искажения: лексикографические и транскрипционные ошибки во входных списках или особенности алгоритма, или же что-либо еще. Действительно, хотя ошибки в русском списке, отмеченные в Kushniarevich et al. 2015 (S2 File, p. 33-34) для базы данных ASJP v.16, были исправлены в нынешней v.20, но остальная часть славянского раздела базы ASJP вряд ли подверглась сплошной проверке. С другой стороны, не исключено, что специфический алгоритм ASJP сам по себе недостаточно чувствителен для реконструкции филогении таких близкородственных и контактирующих друг с другом языков, как славянские (ср. схожие проблемы, например, с германскими языками на дереве ASJP).

Да, особенно с украинским языком по-моему как-то интересно получилось:


Оффлайн Asmat headhunter

  • Биохимическая субстанция
  • Сообщений: 14452
  • Страна: id
  • Рейтинг +939/-34
  • И того казака те тунгусы пальмами тут искололи
Re: Лексикостатистика и славянские языки
« Ответ #3 : 07 Май 2023, 22:37:09 »
Да, особенно с украинским языком по-моему как-то интересно получилось:
Такие абсурдные закидоны вполне в духе ASJP, по крайней мере когда я несколько лет назад глядел их "деревья", не знаю насколько они исправились. :)

Оффлайн Tibaren

  • Сообщений: 1375
  • Страна: ru
  • Рейтинг +340/-11
Re: Лексикостатистика и славянские языки
« Ответ #4 : 09 Май 2023, 16:17:33 »
закидоны вполне в духе ASJP
Там у них на входе, похоже, сплошной шум. Внимательно ознакомился со списками лексики и вижу, скажем, несуществующие лексемы в пракартвельском (даже близко не стоящие к реалиям) и уйму поздних романизмов в баскском...
Что же можно ожидать на выходе?

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.