АвторТема: Калибровка скоростей мутаций для целей ДНК-генеалогии  (Прочитано 38141 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн МашкИн

  • Сообщений: 767
  • Страна: ru
  • Рейтинг +99/-3
  • МашкИн Михаил Николаевич
    • Личный сайт
  • Y-ДНК: 112 R1a [Y2609*], FTDNA 219850, YSEQ 347, 6KEAB; FF; GEDMATCH T861056
  • мтДНК: FGS H* , H96, GenBank KC810015
Постановка задачи: По мне мутации STR  это процесс Бернулли.

Это можно описать в виде марковского процесса, что будет более точно, так как будет учтена зависимость мутации из конкретного состояния.

Принятый на сегодняшний день расчёт скоростей мутации (без учёта, что процесс в общем-то марковский) даёт заниженное количество поколений для общего предка. Он, в какой-то мере, даёт оценки ближнего порядка (4-5 поколений).

Оффлайн Agni

  • Сообщений: 699
  • Рейтинг +30/-56
Постановка задачи: По мне мутации STR  это процесс Бернулли.

Это можно описать в виде марковского процесса, что будет более точно, так как будет учтена зависимость мутации из конкретного состояния.

Принятый на сегодняшний день расчёт скоростей мутации (без учёта, что процесс в общем-то марковский) даёт заниженное количество поколений для общего предка. Он, в какой-то мере, даёт оценки ближнего порядка (4-5 поколений).
не надо тут марковского процесса, по определению вероятности не зависят от состояния. Это постулат.
1. Иначе не понятно как зависит текущее вероятность от состояния, т.е. от количества STR. Совершено непонятно как это может осуществляться биологически.
2. На сегодняшний момент нет никаких ни теоретических ни практических возможностей подсчитать вероятности перехода, чтоб даже проверить эту гипотезу. Было бы возможно на мышах, но кто это будет делать.
Поэтому такое усложнение сейчас бессмысленно - оно ничего не даёт..

Оффлайн МашкИн

  • Сообщений: 767
  • Страна: ru
  • Рейтинг +99/-3
  • МашкИн Михаил Николаевич
    • Личный сайт
  • Y-ДНК: 112 R1a [Y2609*], FTDNA 219850, YSEQ 347, 6KEAB; FF; GEDMATCH T861056
  • мтДНК: FGS H* , H96, GenBank KC810015
Постановка задачи: По мне мутации STR  это процесс Бернулли.

Это можно описать в виде марковского процесса, что будет более точно, так как будет учтена зависимость мутации из конкретного состояния.

Принятый на сегодняшний день расчёт скоростей мутации (без учёта, что процесс в общем-то марковский) даёт заниженное количество поколений для общего предка. Он, в какой-то мере, даёт оценки ближнего порядка (4-5 поколений).
не надо тут марковского процесса, по определению вероятности не зависят от состояния. Это постулат.
1. Иначе не понятно как зависит текущее вероятность от состояния, т.е. от количества STR. Совершено непонятно как это может осуществляться биологически.
2. На сегодняшний момент нет никаких ни теоретических ни практических возможностей подсчитать вероятности перехода, чтоб даже проверить эту гипотезу. Было бы возможно на мышах, но кто это будет делать.
Поэтому такое усложнение сейчас бессмысленно - оно ничего не даёт..

Где это определение, что вероятность перехода (мутации) не зависит от текущего состояния?

Кто это доказал?

На сегодняшний день даже при глубине статистики в 3-4 поколения уже можно получить оценки вероятностей перехода (мутаций) из одного состояния в другое.

А предлагаемое Вами упрощение, как я уже сказал, даёт более менее  приемлемые оценки на глубину в 4-5 поколений, т.е. при количестве поколений  свыше пяти все они имеют заниженные оценки глубины. Например, 7 поколений расчётных соответствуют 10-ти фактическим  и т.д.

Оффлайн Agni

  • Сообщений: 699
  • Рейтинг +30/-56
Где это определение что вероятность перехода (мутации) не зависит от текущего состояния?

Кто это доказал?

На сегодняшний день даже при глубине статистики в 3-4 поколения уже можно получить оценки вероятностей перехода (мутаций) из одного состояния в другое.

А предлагаемое Вами упрощение, как я уже сказал, даёт более менее  приемлемые оценки на глубину в 4-5 поколений, т.е. при количестве поколений  свыше пяти все они имеют заниженные оценки глубины. Например, 7 поколений расчётных сооответствуют 10-ти фактическим  и т.д.
Это всё досуже, в ближайшие сто лет вряд ли кто даже сможет заняться этим. Я уже гораздо ранее предлагал проверить на мышах, но сами понимаете это миллионы.... А такой статистики как вы пишите нет, ее нет совсем, чтоб ее иметь нужны сотни людей в каждом из десятка поколений, у вас какие-то шапкозакидательские представления...

Оффлайн МашкИн

  • Сообщений: 767
  • Страна: ru
  • Рейтинг +99/-3
  • МашкИн Михаил Николаевич
    • Личный сайт
  • Y-ДНК: 112 R1a [Y2609*], FTDNA 219850, YSEQ 347, 6KEAB; FF; GEDMATCH T861056
  • мтДНК: FGS H* , H96, GenBank KC810015
Где это определение что вероятность перехода (мутации) не зависит от текущего состояния?

Кто это доказал?

На сегодняшний день даже при глубине статистики в 3-4 поколения уже можно получить оценки вероятностей перехода (мутаций) из одного состояния в другое.

А предлагаемое Вами упрощение, как я уже сказал, даёт более менее  приемлемые оценки на глубину в 4-5 поколений, т.е. при количестве поколений  свыше пяти все они имеют заниженные оценки глубины. Например, 7 поколений расчётных сооответствуют 10-ти фактическим  и т.д.
Это всё досуже, в ближайшие сто лет вряд ли кто даже сможет заняться этим. Я уже гораздо ранее предлагал проверить на мышах, но сами понимаете это миллионы.... А такой статистики как вы пишите нет, ее нет совсем, чтоб ее иметь нужны сотни людей в каждом из десятка поколений, у вас какие-то шапкозакидательские представления...

Ну почему же. Я предполагаю, что примерно через год после нашего с Вами обсуждения этой проблемы появится диссертация, где всё это будет уже изложено. А, скорее всего, оно уже изложено. Следите за публикациями.

Материал для этого уже есть. Есть статистика мутаций по родственникам (семьям). Таких семей уже сотни тысяч. Так что считайте и считайте.

Оффлайн Agni

  • Сообщений: 699
  • Рейтинг +30/-56
Это всё досуже, в ближайшие сто лет вряд ли кто даже сможет заняться этим. Я уже гораздо ранее предлагал проверить на мышах, но сами понимаете это миллионы.... А такой статистики как вы пишите нет, ее нет совсем, чтоб ее иметь нужны сотни людей в каждом из десятка поколений, у вас какие-то шапкозакидательские представления...

Ну почему же. Я предполагаю, что примерно через год после нашего с Вами обсуждения этой проблемы появится диссертация, где всё это будет уже изложено. А, скорее всего, оно уже изложено. Следите за публикациями.

Материал для этого уже есть. Есть статистика мутаций по родственникам (семьям). Таких семей уже сотни тысяч. Так что считайте и считайте.
;D МашкИн, надежды юношу питают. Вы просто посчитайте сами, величины вероятностей на маркер это сотые - тысячные - десятитысячные, следовательно нужно рассчитывать не менее ста тысяч семей. И так для каждой величины СТР - а их просто столько нет. Однозначно понятно, что величины различий вероятностей будут в более чем в 5м знаке после запятой, а может в десятом, причем почти наверняка не будут вообще. Тут нужны миллионы тестируемых, да еще чтоб у них встречались все величины СТР.....

Оффлайн МашкИн

  • Сообщений: 767
  • Страна: ru
  • Рейтинг +99/-3
  • МашкИн Михаил Николаевич
    • Личный сайт
  • Y-ДНК: 112 R1a [Y2609*], FTDNA 219850, YSEQ 347, 6KEAB; FF; GEDMATCH T861056
  • мтДНК: FGS H* , H96, GenBank KC810015
Это всё досуже, в ближайшие сто лет вряд ли кто даже сможет заняться этим. Я уже гораздо ранее предлагал проверить на мышах, но сами понимаете это миллионы.... А такой статистики как вы пишите нет, ее нет совсем, чтоб ее иметь нужны сотни людей в каждом из десятка поколений, у вас какие-то шапкозакидательские представления...

Ну почему же. Я предполагаю, что примерно через год после нашего с Вами обсуждения этой проблемы появится диссертация, где всё это будет уже изложено. А, скорее всего, оно уже изложено. Следите за публикациями.

Материал для этого уже есть. Есть статистика мутаций по родственникам (семьям). Таких семей уже сотни тысяч. Так что считайте и считайте.
;D МашкИн, надежды юношу питают. Вы просто посчитайте сами, величины вероятностей на маркер это сотые - тысячные - десятитысячные, следовательно нужно рассчитывать не менее ста тысяч семей. И так для каждой величины СТР - а их просто столько нет. Однозначно понятно, что величины различий вероятностей будут в более чем в 5м знаке после запятой, а может в десятом, причем почти наверняка не будут вообще. Тут нужны миллионы тестируемых, да еще чтоб у них встречались все величины СТР.....

Это Вы имеете ввиду оценки безусловных вероятностей. Оценки условных вероятностей будут иные. Оценки безусловных вероятностей, действительно, будут иметь значения исчисляемые тысячными. А вот условных это уже сотые или десятые.

Оффлайн Каржавин

  • ...
  • Сообщений: 1798
  • Рейтинг +144/-2
Это Вы имеете ввиду оценки безусловных вероятностей. Оценки условных вероятностей будут иные. Оценки безусловных вероятностей, действительно, будут иметь значения исчисляемые тысячными. А вот условных это уже сотые или десятые.
Вы хоть представляете себе, сколько нужно данных для реального построения гистограмм условных вероятностей в нашем конкретном случае для наших любимых мутаций?

Оффлайн Каржавин

  • ...
  • Сообщений: 1798
  • Рейтинг +144/-2
Постановка задачи: По мне мутации STR  это процесс Бернулли.
Это можно описать в виде марковского процесса, что будет более точно, так как будет учтена зависимость мутации из конкретного состояния.
Что "это" можно описать в виде марковского процесса? Последовательность мутаций и состояния одиночного локуса? Состояния гаплотипа в каждые моменты очередной мутации? Или что-то совсем другое?
Принятый на сегодняшний день расчёт скоростей мутации (без учёта, что процесс в общем-то марковский) даёт заниженное количество поколений для общего предка. Он, в какой-то мере, даёт оценки ближнего порядка (4-5 поколений).
Какой именно "принятый на сегодняшний день" метод расчета частот мутаций дает заниженные значения? И почему заниженный, а не завышенный?
« Последнее редактирование: 13 Июнь 2012, 16:58:24 от Каржавин »

Оффлайн Каржавин

  • ...
  • Сообщений: 1798
  • Рейтинг +144/-2
Материал для этого уже есть. Есть статистика мутаций по родственникам (семьям). Таких семей уже сотни тысяч. Так что считайте и считайте.
Где статистика по мутациям на сотне тысяч семей? Срочно поделитесь ссылками! :o

Оффлайн Каржавин

  • ...
  • Сообщений: 1798
  • Рейтинг +144/-2
Постановка задачи: По мне мутации STR  это процесс Бернулли.
Поскольку локусов в гаплотипе много, и пока считается, что мутации в локусах происходят независимо друг от друга, то мы имеем многомерный поток Бернулли как суперпозицию независимых потоков Бернулли. Поскольку частота мутаций довольно мала, то можно использовать пуассоновскую аппроксимацию биномиального распределения, правда, на большом количестве поколений (дискретов времени). Конечно, при моделировании на малых генеалогических расстояниях возникают некоторые проблемы незавершенности последнего интервала между событиями (мутациями), но этими шероховатостями можно пренебречь, поскольку малые интервалы изучаются уже документальными генеалогами и историками.
« Последнее редактирование: 13 Июнь 2012, 17:10:49 от Каржавин »

Оффлайн Каржавин

  • ...
  • Сообщений: 1798
  • Рейтинг +144/-2
Это Вы имеете ввиду оценки безусловных вероятностей. Оценки условных вероятностей будут иные. Оценки безусловных вероятностей, действительно, будут иметь значения исчисляемые тысячными. А вот условных это уже сотые или десятые.
Елы-палы! Вы хоть РЕАЛЬНО представляете себе, что значит, построить спектры условных вероятностей? И на какую глубину связности? Хотя бы, такие P(n(t)/n(t-1)), где n может принимать хотя бы ДЕСЯТЬ целочисленных значений. А если P(n(t)/n(t-1);n(t-2))? Это уже ТЫСЯЧА возможных событий, ПО КАЖДОМУ из которых надо набирать статистику. А если более сложная условная вероятность?
А какие начальные значения аллеля в локусах реально надо брать для построения условных вероятностей? У нас ведь всего-то два-три поколения может быть для оценки связок мутаций в локусах. Чтобы по каждому локусу охватить широкий интервал возможных значений аллеля, нужно набирать множество семей из разных гаплогрупп, так как мы можем выловить только +-2 относительно начального значения в локусе (связки поколений слишком короткие). Это между представителями разных гаплогрупп различия в аллелях одного и того же локуса могут быть значительными. Где столько данных брать? Это и сотен тысяч семей не хватит.
Для справки: в настоящее время изучено около 5 тысяч пар гаплотипов "отец-сын". А нужно более миллиона не пар, а троек-четверок гаплотипов "прадед-дед-отец-сын".
« Последнее редактирование: 13 Июнь 2012, 17:48:14 от Каржавин »

Оффлайн МашкИн

  • Сообщений: 767
  • Страна: ru
  • Рейтинг +99/-3
  • МашкИн Михаил Николаевич
    • Личный сайт
  • Y-ДНК: 112 R1a [Y2609*], FTDNA 219850, YSEQ 347, 6KEAB; FF; GEDMATCH T861056
  • мтДНК: FGS H* , H96, GenBank KC810015
Это Вы имеете ввиду оценки безусловных вероятностей. Оценки условных вероятностей будут иные. Оценки безусловных вероятностей, действительно, будут иметь значения исчисляемые тысячными. А вот условных это уже сотые или десятые.
Елы-палы! Вы хоть РЕАЛЬНО представляете себе, что значит, построить спектры условных вероятностей? И на какую глубину связности? Хотя бы, такие P(n(t)/n(t-1)), где n может принимать хотя бы ДЕСЯТЬ целочисленных значений. А если P(n(t)/n(t-1);n(t-2))? Это уже ТЫСЯЧА возможных событий, ПО КАЖДОМУ из которых надо набирать статистику. А если более сложная условная вероятность?
А какие начальные значения аллеля в локусах реально надо брать для построения условных вероятностей? У нас ведь всего-то два-три поколения может быть для оценки связок мутаций в локусах. Чтобы по каждому локусу охватить широкий интервал возможных значений аллеля, нужно набирать множество семей из разных гаплогрупп, так как мы можем выловить только +-2 относительно начального значения в локусе (связки поколений слишком короткие). Это между представителями разных гаплогрупп различия в аллелях одного и того же локуса могут быть значительными. Где столько данных брать? Это и сотен тысяч семей не хватит.
Для справки: в настоящее время изучено около 5 тысяч пар гаплотипов "отец-сын". А нужно более миллиона не пар, а троек-четверок гаплотипов "прадед-дед-отец-сын".

А что такое спектры условных вероятностей?

Я про такое не слышал.

Оценки условной вероятности перехода из одного состояния в другое, например, для пары отец-сын и иных, без привязки к разным гаплогруппам (последнее есть искусственное, надуманное, условное разделение), вполне может быть осуществлено и использовано для исследования мутаций, как марковского процесса.

Я предполагаю, что это уже сделано или делается.

Кроме того, множество учебников по теории марковских процессов в качестве примера используют эволюцию, в основе которой лежит процесс мутации.
« Последнее редактирование: 14 Июнь 2012, 11:40:12 от МашкИн »

Оффлайн Agni

  • Сообщений: 699
  • Рейтинг +30/-56
Оценки условной вероятности перехода из одного состояния в другое, например, для пары отец-сын и иных, без привязки к разным гаплогруппам (последнее есть искусственное, надуманное, условное разделение), вполне может быть осуществлено и использовано для исследования мутаций, как марковского процесса.

Я предполагаю, что это уже сделано или делается.
Вы меня поражаете.
1. Вы так много фантазируете - кто что сделал - тут не фантазировать, а знать надо. Особенно про сотни тысяч оттестированных семей ;D
2. Никто не доказал что он марковский, или еще какой-то, это лишь ваши фантазии. Которые вы выдаете за утверждения.
3. Чтоб посчитать вероятности перехода нужно еще больше, намного намного больше, оттестированных, чем простые вероятности. Потому-что там величины входят в произведения. Плюс надо доказать что эти переходные вероятности имеют под собой основания, а не просто случайно получены из-за статистической выборки - так что миллионы и миллионы тестируемых вам светит.
4. Если мы хотим использовать простую цепь Маркова, то нам нужна полная матрица переходов, неполную нельзя, а вот это-то нам и несветит никогда, поскольку по определению всех значений СТР нет ни в какой выборки, и построить такую матрицу просто невозможно (во всяком случае для людей).
5. Ну и наконец, никто не доказал что это простой марковский процесс, а не высших порядков. Например, в м.п. постулируется что переходная вероятность зависит только от текущего значения СТР, но эпигенетика говорит что экспрессия генов зависит от предыдущего поколения, то есть вероятность мутации СТР может зависеть от того когда произошла предыдущая мутация. Неизвестен механизм мутации СТР, его причины, как на него влияют пред. мутации, то есть мутация СТР имеет эпигенетическую или генетическую природу.
6. И наконец, все эти цепи маркова имеют большую вычислительную неустойчивость, посчитать все это чрезвычайно сложно, и практической пользы может не быть никакой.

Оффлайн Каржавин

  • ...
  • Сообщений: 1798
  • Рейтинг +144/-2
А что такое спектры условных вероятностей?
Я про такое не слышал.
Техническая феня. Наборы гистограмм условных вероятностей для всех возможных значений какого-либо параметра. Легко можно было догадаться из контекста.
Оценки условной вероятности перехода из одного состояния в другое, например, для пары отец-сын и иных, без привязки к разным гаплогруппам (последнее есть искусственное, надуманное, условное разделение), вполне может быть осуществлено и использовано для исследования мутаций, как марковского процесса.
Естественно, что привязка к гаплогруппам условна. Тем не менее, для удобства "складирования" статистики это можно сделать, а потом при вычислении вероятностей переходов аллелей "забыть" про гаплогруппную принадлежность. Кстати, цепочки "прадед-дед-отец-сын" необязательны, но это, повторяю, не упрощает работы и уменьшает требуемых объемов статистики. Странно, но я вынужден Вам как первокурснику все разжевывать.
Я Вам предлагал уже от слов перейти к делу. Попробуйте описать получение совокупности гаплотипов финального поколения с помощью многосвязных марковских процессов. Покажите адекватность данного представления реальным выборкам гаплотипов и тем сведениям о характере мутаций, которыми обладают генетики на сегодняшний день. Напишите поподробнее, а не общими словами. Как я понял, Вам здесь все понятно и элементарно. Напишите, как параметры Вашей мат.модели вычислить на основе наблюдаемой совокупности гаплотипов финальных потомков.
Кроме того, множество учебников по теории марковских процессов в качестве примера используют эволюцию, в основе которой лежит процесс мутации.
Это не те мутации.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.