Тема: Расчёт возраста предка двух субкладов (Прочитано 40561 раз)

VVR · « **Ответ #165 :** 30 Ноябрь 2010, 22:20:54 »

Надо внимательно прочесть всю фразу. В ней речь идёт о предке. А дальше уточняется предок кого. Пары финальных потомков, т.е. финальных на данный момент (наших современников). Слово "финальных" не совсем удачное, но термин понятен. И ничего забавного.

Овод · « **Ответ #166 :** 30 Ноябрь 2010, 23:58:10 »

Цитата: Каржавин от 30 Ноябрь 2010, 18:18:14

Цитата: Овод от 30 Ноябрь 2010, 16:47:25
Уважаемый Nimissin постоянно твердит о "популяционном" влиянии в интеркладе, в том числе и для двух гаплотипов.
Да он прав абсолютно. Если брать только два гаплотипа и методом МАКСИМУМА ПРАВДОПОДОБИЯ (а не дисперсионными ), то получим время до общего предка данной пары, но если начнем усреднять по всевозможным парам гаплотипов потомков исследуемой выборки гаплотипов, то получим СРЕДНЕЕ ВРЕМЯ ЖИЗНИ ОБЩЕГО ПРЕДКА НАУГАД ВЗЯТОЙ ПАРЫ ФИНАЛЬНЫХ ПОТОМКОВ (вот такой термин я в свое время придумал, уж не обессудьте), которая может в разы отличаться в сторону омоложения от времени общего предка, и это зависит от "конфигурации" данного конкретного генеалогического древа.

Уважаемый VVR, даже с Вашей помощью я не понял выделенный мною фрагмент фразы Сергея, как и всю фразу в целом. У нас исследуемая выборка состоит из одной пары гаплотипов, естественно, современных. Какие пары потомков этой выборки Сергей имел в виду в этой фразе? И кто такие финальные потомки предка уже "наугад" взятой пары, если она всего одна? Те же самые, или какие-то другие? Честно признаюсь, запутался.

Если смысл его фразы таков, что ММП выявляет ВБОП этой пары без стат.смещения, в то время, как АSD - c оным, то он неправ: смещения для двух гаплотипов по ASD нет и это доказано в работе того же Адамова, которую он несомненно читал. Хотя это было известно и ранее.

Если же он имеет в виду просто другую пару, то у неё может быть совершенно другой предок и другой ВБОП, но снова без смещения каким методом не считай.

Если же - просто расширенную выборку гаплотипов, имеющих между собой попарно общих предков на разной глубине, то смещение может возникнуть, но опять же, при любом методе.

Так что же всё-таки имелось в виду? Жаль - автор отсутствует. Если бы он пояснил - я бы ответил. Но может Вы выдвинете свой вариант интерпретации если сей текст Вам ясен? Тогда я охотно отвечу по сути вопроса - знать бы суть.

Р.S. Но согласитесь, грех было не подшутить слегка (по дружески) над столь непонятной фразой.

VVR

Я говорил о выделенном крупными буквами, а Вы имели ввиду выделенный жирным? Ну бывает, в спешке дискуссии.

Clavis

Цитата: Каржавин от 30 Ноябрь 2010, 18:18:14

Если брать только два гаплотипа и методом МАКСИМУМА ПРАВДОПОДОБИЯ (а не дисперсионными ), то получим время до общего предка данной пары, но если начнем усреднять по всевозможным парам гаплотипов потомков исследуемой выборки гаплотипов, то получим СРЕДНЕЕ ВРЕМЯ ЖИЗНИ ОБЩЕГО ПРЕДКА НАУГАД ВЗЯТОЙ ПАРЫ ФИНАЛЬНЫХ ПОТОМКОВ (вот такой термин я в свое время придумал, уж не обессудьте), которая может в разы отличаться в сторону омоложения от времени общего предка, и это зависит от "конфигурации" данного конкретного генеалогического древа.

Если я правильно понял, Сергей Пантилимонович, Вы хоть и отнесли сказанное к интеркладу, но по сути говорите о внутрикладовых расчетах. Если мы берем всевозможные пары внутри R1a, то бывает, что даже фамилия совпадает и общий предок такой пары жил лет 200 назад. Еще раз напомню: когда я говорил об интеркладе, я говорил о расчетах, когда один гаплотип относится к R1a, а второй - к R1b (к примеру, конечно). При этом ВБОП этих гаплотипов всегда один и тот же, поэтому сколько бы мы пар ни брали, никакого омоложения не получится. Далее, сам гаплотип предка в расчете не участвует, поэтому нам совершенно не нужен. Далее, если R1a или R1b, или обе они проходили в своей истории бутылочное горлышко, то гистограмма возрастов ВБОП окажется зауженной в сравнении с "безгорлышковой" моделью, и ее максимум может быть случайно смещен либо в сторону завышения истинного возраста, либо в сторону занижения, без предпочтения какого-то одного направления. В то же время внутрикладовые расчеты в случае наличия бутылочного горлышка или даже намека на него всегда дают омоложение ВБОП, что и подвигло меня, как Володю Ульянова, "пойти другим путем".

Clavis

Цитата: VVR от 30 Ноябрь 2010, 14:32:31

Теперь по поводу применяемой Вами скорости. Надо же разобраться до конца с Вашим методом. Если Вы применяете 0,134 на 67м, при том, что реальная(отец-сын) скорость, на мой взгляд, процентов на 20-25 больше, то получаемый возраст будет правильным при популяционной поправке 20-25%. Да я продолжаю считать, как и Адамов и Каржавин, что Ваш метод не лишён поп.эффекта, как и другие методы.(Можно, как Овод, называть это дефектом выборки, но если поп.эффект приводит к дефекту выборки, то надо его учитывать.) При меньшей поп.поправке оценка возраста будет завышена. При большей - занижена. Хотя большая поп.поправка для тех случаев, в которых Вы применяете свой метод, на мой взгляд, скорее редкость.

Применяемая мной скорость в конечном счете принадлежит АК, поскольку у меня создалось впечатление, что по 12 и 25 маркерам они точнее, чем средние по панели Чандлеровские. Если бы кто-то сделал по практическим примерам столько же расчетов, сколько АК, я бы заинтересовался его скоростями, но пока вижу тут монополию. Для 37 и 67 я посчитал, отталкиваясь от скорости для 12 и 25, но последнее время думаю исключить из рассмотрения DYS464 и пересчитать снова.
Повлияли ли на эти скорости популяционные эффекты? АК старался их исключить, дробя "перекошенные" выборки на более-менее похожие на модель фрагменты. В какой мере ему удалось нейтрализовать поп-эффекты, не могу сказать, но если не до конца, тогда его скорости занижены.
Вторая неприятность состоит в том, что мы можем идеально точно знать скорость мутаций в расчете на одно звено отец-сын, но продолжительность этого звена в годах в разные исторические эпохи и в разных культурах может существенно отличаться.
Что касается поправки на разброс скорости маркера относительно средней, то здесь Вы поймали суть явления, и как бы ни уточнялись конкретные скорости по маркерам, порядок их величины сохранится, а значит, сохранится и поправка (с некоторыми уточнениями). Я пошел по этому пути, но рано остановился: посмотрел, что будет, если скорости маркеров соотносятся 1:3, нашел, что заметной разницы нет, и успокоился, а надо было взять более реальное соотношение.
Наконец, ни разу я не испытывал обиды от критики, а одно только чистое удовольствие от совместной работы.

Овод

Цитата: Clavis от 01 Декабрь 2010, 09:10:33

Наконец, ни разу я не испытывал обиды от критики, а одно только чистое удовольствие от совместной работы.

Я тоже испытываю удовольствие от общения с коллегами. Хотя, признаюсь, есть элемент неудовлетворённости оттого, что пока не могу окончательно убедить уважаемого Клависа в том, что квадратичный метод - практичнее и точнее, чем линейный (даже в реализации Клависа), поскольку не зависит от разности скоростей маркеров, а уважаемого VVR - в совершенном различии понятий популяционного и выборочного эффектов на влияние оценок ВБОП. Как и в том, что первый абсолютно не следует из другого и имеет всегда эффект "омоложения", в то время, как последний независим от первого и может быть разнонаправленным.

Но истина рождается в споре. Поэтому, начнём с Клависа. Михаил, если Вы введёте в свою таблицу для вычисления среднего числа наблюдаемых мутаций в N-том поколении ещё один столбец с вычислением дисперсии полученного на каждом этапе распределения (то есть домножите каждый элемент строчки не только на её ординату, но также и на её квадрат), то убедитесь, что дисперсия ( в отличие от среднего) с номером поколения растёт линейно, а среднее запаздывет, причем не линейно, а экспоненциально. А если, к тому же, Вы разделите эту дисперсию на скорость мутации, то обнаружите, что она в точности равна номеру поколения, для которого рассчитана. То есть даёт возраст предка непосредственно, а не через номер поколения, для которого генеральное число "набюдаемых" мутаций в таблице совпадёт с выборочным. Это - первый аргумент, согласно которому для получения выборочной оценки возраста достаточно получить выборочную оценку дисперсии, а не "прогонять" табицу до момента совпадения наблюдаемого среднего числа мутаций с его выборочным значением.

Второй аргумент - линейная зависимость дисперсии не только от возраста, но и от скорости входящих в гаплотип маркеров. Среднее же растёт опять же, нелинейно. В этом Вы также можете убедиться, прогоняя таблицу для разных скоростей. Среднее опять же будет "запаздывать". Важным следствием этого эффекта является то, что для правильного вычисления возраста по гаплотипам, маркеры в которых имеют разную скорость Вам нужно просто сложить разности аллелей в квадрате по всем маркерам (ибо дисперсия пропорциональна скорости , а также дисперсия суммы всегда равна сумме дисперсий), в то время как в линейном методе этот фокус не пройдёт из-за нелинейности среднего от скорости. То есть, для правильного подсчета возраста Вам придётся прогонять всю таблицу для каждого маркера гаплотипа, а лишь потом усреднять. А поскольку индивидуальные скорости маркеров (в отличие от средней) известны очень неточно, то требуемая процедура будет не только медленной, но и даст сомнительный результат. Если же Вы будете проводить вычисления просто для средней скорости, то опять же получите ошибку вследствие этой нелинейности.

Иными словами линейный метод не даст, в случае разных скоростей маркеров верного результата (он будет занижен), в то время как дисперсионный - даст. И причиной тому - нелинейная зависимость между средним наблюдаемым количством мутаций в маркере от скорости мутации. Дисперсия же этого недостатка лишена.

Я Вас убедил?

VVR

Цитата: Овод от 02 Декабрь 2010, 14:59:39

есть элемент неудовлетворённости оттого, что пока не могу окончательно убедить уважаемого Клависа в том, что квадратичный метод - практичнее и точнее, чем линейный (даже в реализации Клависа), поскольку не зависит от разности скоростей маркеров, а уважаемого VVR - в совершенном различии понятий популяционного и выборочного эффектов на влияние оценок ВБОП. Как и в том, что первый абсолютно не следует из другого и имеет всегда эффект "омоложения", в то время, как последний независим от первого и может быть разнонаправленным.

Если рассматривать выборочный эффект, как недостаток статистики, то абсолютно согласен. Он не омолаживает возраст, а увеличивает разброс результатов оценки возраста. Но у меня возникает вопрос. Как бы Вы кратко сформулировали причину(причины) популяционного эффекта.
И ещё вопрос о перспективах совмещения ММП и ро-статистики.

Овод

Чтобы продемонстрировать сказанное ранее двумя постами выше численно, возьмём двухмаркерный гаплотип со скоростями со скоростями маркеров 0.004 и 0.0004, то есть, в среднем, 0.0022. Отмечу, что реальный разброс маркеро в 67-маркерном гаплотипе гораздо выше, чем один порядок, но и здесь эффект будет заметен. Считаем, для всех, на 500-м поколении:

Скорость Число наб.мутаций Дисперсия

0.004 1.047928 2.00000
0.0004 0.181874 0.20000
0.0022 0.719284 1.10000

видно, среднее число наблюдаемых мутаций в смеси маркеров будет, (1.047928+0.181874)/2= 0.61409, что уже не соответствует числу мутаций для средней скорости маркера - 0.022, которое должно быть 0.719284.

Это значение (0.61409) будет достигнуто уже на 400-м поколении для средней скорости 0.0022, что автоматически приведет к недооценке возраста, как минимум, на 100 поколений, или 20% от исходного.

В то же время мы видим, что средняя дисперсия смеси (2.0+0.2)/2 равная 1.1 даёт нам точное значение дисперсии для средней скорости 0.0022 смеси.

Я считал эти данные по своей программе, но они не будут отличаться от таблицы Клависа (разве что в пятом или шестом знаке). Прошу Вас, уважаемый Клавис, проверить мои расчёты по своему "спредшиту" и убедиться, что они сделаны верно.

Овод

Цитата: VVR от 02 Декабрь 2010, 19:04:05

Если рассматривать выборочный эффект, как недостаток статистики, то абсолютно согласен. Он не омолаживает возраст, а увеличивает разброс результатов оценки возраста. Но у меня возникает вопрос. Как бы Вы кратко сформулировали причину(причины) популяционного эффекта.
И ещё вопрос о перспективах совмещения ММП и ро-статистики.

Именно так выборочный эффект и следует рассматривать. Поскольку мат.статистика (в отличие от классической теории вероятностей), как раз и занимается выборочными оценками, то недостатки выборки и есть недостатки статистики по определению. В генеральной совокупности такого эффекта наблюдаться не будет. Рад, что, наконец, мы приходим к единому мнению.

Причины же популяционного же эффекта - неизбежное образование в популяции групп, более тесно связанных между собой родственными узами, чем через предка выборки, от которого они все произошли. Этот эффект, независимо от того, закономерен ли он (в случае создания одним из потомков первопредка привилегированной, доминантной подгруппы-семьи), или случаен (как, например, в бессемейном сообществе мух-дрозофил), будет вести к образованию близкородственных связей и, следовательно, омолаживать возраст выборки (популяции). Разумеется, в первом случае он будет более выраженным и предсказуемым. К выборочным огрехам этот эффект отношения не имеет, поскольку будет наблюдаться даже в генеральной совокупности, а не только в выборке из неё.

Но в популяции он наблюдается всегда. И чем она меньше, тем сильнее.

Что же касается ММП и ро-статистики, то вряд ли методически правильно "скрещивать ужа и ежа". Но сравнивать результаты надо. И, зная недостатки каждого из методов, можно правильно интерполировать их для нахождения более чёткой оценки. Не создавая при этом искусственных "эталонов".

Clavis

Цитата: Овод от 02 Декабрь 2010, 19:32:39

Чтобы продемонстрировать сказанное ранее двумя постами выше численно, возьмём двухмаркерный гаплотип со скоростями со скоростями маркеров 0.004 и 0.0004, то есть, в среднем, 0.0022. Отмечу, что реальный разброс маркеро в 67-маркерном гаплотипе гораздо выше, чем один порядок, но и здесь эффект будет заметен. Считаем, для всех, на 500-м поколении:

Скорость Число наб.мутаций Дисперсия

0.004 1.047928 2.00000
0.0004 0.181874 0.20000
0.0022 0.719284 1.10000

видно, среднее число наблюдаемых мутаций в смеси маркеров будет, (1.047928+0.181874)/2= 0.61409, что уже не соответствует числу мутаций для средней скорости маркера - 0.022, которое должно быть 0.719284.

Это значение (0.61409) будет достигнуто уже на 400-м поколении для средней скорости 0.0022, что автоматически приведет к недооценке возраста, как минимум, на 100 поколений, или 20% от исходного.

В то же время мы видим, что средняя дисперсия смеси (2.0+0.2)/2 равная 1.1 даёт нам точное значение дисперсии для средней скорости 0.0022 смеси.

Я считал эти данные по своей программе, но они не будут отличаться от таблицы Клависа (разве что в пятом или шестом знаке). Прошу Вас, уважаемый Клавис, проверить мои расчёты по своему "спредшиту" и убедиться, что они сделаны верно.

Проверил - совпадает во всех знаках. То есть если бы я обнаружил смещение среднего результата раньше, в таких расчетах как случай Шука Каа с Аляски возрастом 10300 лет, у меня результат не противоречил бы дендрохронологии. То есть мой первоначальный результат надо было увеличить раза в полтора.
Что касается линейной зависимости дисперсии от времени, я сразу заметил ее, когда только нарисовал модель, то есть года три назад. Вот график

Clavis

который я нарисовал (в декабре 2007) в качастве иллюстрации, что не только для популяции, основанной одним мужчиной, дисперсия в одном маркере растет линейно, но даже если ее основали m мужчин с одной аллелью и n мужчин с соседней аллелью, то всё равно зависимость будет линейна, только стартует не от нулевого значения.
Тогда же я считал возраст по дисперсии целых гаплогрупп и убедился, что возраст получается до смешного молодой, то есть структура выборки любой гаплогруппы изобилует горлышками, она очень далека от нарисованной мной модели.

Clavis

Цитата: Овод от 02 Декабрь 2010, 14:59:39

Я тоже испытываю удовольствие от общения с коллегами. Хотя, признаюсь, есть элемент неудовлетворённости оттого, что пока не могу окончательно убедить уважаемого Клависа в том, что квадратичный метод - практичнее и точнее, чем линейный (даже в реализации Клависа), поскольку не зависит от разности скоростей маркеров

Я уже говорил, почему сомневаюсь в точности квадратичного метода применительно к задаче определения возраста общего предка двух гаплотипов: если согласно модели N состоявшихся одношаговых мутаций приводят к среднему смещению аллели каждого отдельного потомка на корень из N (подтверждаю!), то это не значит, что справедливо обратное: если между двумя гаплотипами в неком маркере разность 5, ни в коем случае нельзя предполагать, что меж ними произошло 25 мутаций! Средневероятное значение - пять целых и немного десятых.

VVR

Цитата: Clavis от 03 Декабрь 2010, 09:30:28

ни в коем случае нельзя предполагать, что меж ними произошло 25 мутаций!

Так квадратичный метод и не предполагает этого. Он считает мутации по не по конкретной отдельно взятой паре гаплотипов, а по всеей выборке. Вернитесь к примеру, который мы с Вами обсуждали. В отсутствие популяционного эффекта и при известной скорости мутаций, метод дал идеальный результат в поколениях. В реальных расчётах примешивается ещё погрешность в определении величины поколения в годах, а также RecLOHи, null-делеции, многошаговые мутации. Недостатков достаточно, как и у других методов, но они не делают его неприменимым.

Овод

Цитата: Clavis от 03 Декабрь 2010, 09:30:28

Проверил - совпадает во всех знаках. То есть если бы я обнаружил смещение среднего результата раньше, в таких расчетах как случай Шука Каа с Аляски возрастом 10300 лет, у меня результат не противоречил бы дендрохронологии. То есть мой первоначальный результат надо было увеличить раза в полтора.

Рад, что мы продвигаемся на пути к консенсусу. Со своей стороны должет признать, что (поскольку мои данные строго совпали с Вашими табличными), что мои претензии к Вашей таблице об её возможной неточности высказанные годом ранее, оказались на деле несостоятельными. Прошу простить меня за несправедливую критику.

Но всё-таки остаётся у Вас недоверие к квадратом.

Как же генеральная дисперсия не рассеяла его? Впрочем, VVR Вам правильно ответил: мы же не по одному маркеру судим, а с увеличением их числа выборочная ASD будет неуклонно стремиться к генеральной, которая и принимала участие в наших расчётах. Гарантия тому - ЦПТ. Судить же по одному маркеру - последнее дело.

Clavis

Согласен с тем, что, во-первых, отдельно взятый результат типа разности в маркере на пять шагов обычно выскакивает в небольшом количестве пар гаплотипов, в то время как результат сравнения определяет большое количество пар. Например, год назад я сравнивал 75 гаплотипов G2a3b с 15 гаплотипами G2a1a, итого 75*15=1125 пар.
Во-вторых, согласно Нордтведту, мы должны учесть "вес" маркера, обратно пропорциональный скорости мутаций в нем. Самые шустрые маркеры, как в примере с пятью шагами, будут самыми легковесными, поэтому не смогут сильно влиять на конечный результат. Короче, я снимаю возражения против квадратичного метода.

АвторТема: Расчёт возраста предка двух субкладов (Прочитано 40561 раз)

VVR

Re: Расчёт возраста предка двух субкладов

Овод

Re: Расчёт возраста предка двух субкладов

VVR

Re: Расчёт возраста предка двух субкладов

Clavis

Re: Расчёт возраста предка двух субкладов

Clavis

Re: Расчёт возраста предка двух субкладов

Овод

Re: Расчёт возраста предка двух субкладов

VVR

Re: Расчёт возраста предка двух субкладов

Овод

Re: Расчёт возраста предка двух субкладов

Овод

Re: Расчёт возраста предка двух субкладов

Clavis

Re: Расчёт возраста предка двух субкладов

Clavis

Re: Расчёт возраста предка двух субкладов

Clavis

Re: Расчёт возраста предка двух субкладов

VVR

Re: Расчёт возраста предка двух субкладов

Овод

Re: Расчёт возраста предка двух субкладов

Clavis

Re: Расчёт возраста предка двух субкладов