АвторТема: Генеалогические построения по результатам от Relative Finder  (Прочитано 55735 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Например, имея двух троюродных братьев по разным линиям, не пересекающихся между собой, с помощью вручную построенной матрицы и Меги, имеем вполне достоверное построение, типа:

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
В принципе, с чисто формальных позиций любую симметричную матрицу расстояний можно превратить в дерево.
 
Однако, за интерпретацию полученных таким образом деревьев я бы не взялся. В силу того, что, как правильно отметил Вадим, УПСы передаются по сочетанным линиям, не обязательно - прямым. Так что смысл полученного дерева будет совершенно неясен.

Игорь, а как насчёт подброшенной мною идеи об отборе данных только с единым УПСом?
То есть, предполагается, что родство есть только по одной из линий (вероятность УПСов с разными неродственными людьми в совпадающих зонах считаем ничтожной).

Можно ли будет выделить родственные кластеры?
По моим поняткам, да. Родственные кластеры, каждый из которых связан с какой-то одной линией (совершенно не обязательно прямой).

Иными словами, как Вы совершенно верно отметили, несмотря на похожесть генеалогического построения на филогенетическое, необходимо будет использовать совершенно другую интерпретацию.

Хотелось бы с самого начала прояснить, будут ли такие построение нести хоть какую-то ценность без последующей выверки общими фамилиями (читай, архивными генеалогическими данными).
Будут ли они являться подспорьем в совместном использовании со знаниями хотя бы о родовых ареалах?

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Например, в отличии от стандартного филогенетического построения, генеалогическое построение не допускает замену укоренений.

Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Имхо, это как раз задача для Паека.

Примерно так должна выглядить сеть родичей из Релфайндера. Именно сетевой граф лучше отражает суть
родства всех со всеми. :)


Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Имхо, это как раз задача для Паека.

Примерно так должна выглядить сеть родичей из Релфайндера. Именно сетевой граф лучше отражает суть
родства всех со всеми. :)
Но совершенно не отражает TMRCA.

Сделаю формализованную постановку задачи.

Начну издалека. Самым лучшим и очевидным способом - остаётся перебор совпадающих фамилий. Предполагается, что мы эти фамилии знаем и количество однофамильцев неродственников стремится к нулю.

Но давайте подумаем, а что мы получим в итоге?
Степень родства у нас уже есть (читай, TMRCA).
Проверив фамилии, мы радостно возопим, братан ты мой шестиюродный, ты мне не просто брат, а брат по такому-то боковому прапра..деду.
И?
Мы ведь как раз и пытаемся выявить предков. То есть предполагается. что хотя бы один из двух - своего родословия не знает.
Опять же незаконнорожденные, приёмыши и пр. байстрюки.

В общем случае задача состоит в попытках выявить конкретные родственные фамильные линии для сомножества лиц, связанных взаимными разноглубинными родственными связями.

Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
*Vertices 4 4
1 "0"
2 "1"
3 "2"
4 "3"
*Arcs
1 3 4
2 2 4
3 1 4
*Edges
1 2
3 4
2 3
*Matrix
0   6   8   11
6   0   10   9
8   10   0   4
11   9   4   0

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Вадим, голубчик, очень Вас прошу, а нельзя ли сделать построение по тем данным. что я использовал в начале ветки для Меги?  ::)
Заранее спасибо!
 :)

\
MG
AK
AC
YK
DV
MG
\
6
8
11
12
AK
6
\
10
99
99
AC
8
10
\
4
5
YK
11
99
4
\
7
DV
12
99
5
7
\


5
     MG 0 6 8 11 12
       AK 6 0 10 99 99
       AC 8 10 0 4 5
       YK 11 99 4 0 7
       DV 12 99 5 7 0
« Последнее редактирование: 11 Январь 2010, 01:25:31 от Mich Glitch »

Оффлайн Alesh

  • Сообщений: 903
  • Рейтинг +80/-1
Очень рад, что наконец-то лучшие умы форума начали обсуждать этот вопрос. Лично у меня накопительный процесс уже давно прошёл, теперь ломаю голову, как всю эту инфу переработать в что-то полезное для генеалогии.
 :)

Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Вадим, голубчик, очень Вас прошу, а нельзя ли сделать построение по тем данным. что я использовал в начале ветки для Меги?  ::)
Заранее спасибо!
 :)

\
MG
AK
AC
YK
DV
MG
\
6
8
11
12
AK
6
\
10
99
99
AC
8
10
\
4
5
YK
11
99
4
\
7
DV
12
99
5
7
\


5
     MG 0 6 8 11 12
       AK 6 0 10 99 99
       AC 8 10 0 4 5
       YK 11 99 4 0 7
       DV 12 99 5 7 0

Так я и сделал построение по Вашим данным (см. выше), только вместо массива данных 5*5 использовал матрицу 4*4.

На самом деле, мне еще предстоит подумать, как представить данные РФ в удобоваримом для Паука (Pajek) виде. Главное - чтобы в графах длина ребр (edge) была пропорциональна величине общего сегмента у тестантов, представленных на графе в виде узла. Также пока непонятно, как поступать в тех случаях, когда тестанты-"узлы" имеет общие сегменты на нескольких аутосомных хромосомах сразу.

Я думаю, что на знакомство с форматами Паека у меня уйдет около месяца, и примерно столько же - на создание в Пауке рабочего дизайна результатов РФ.
Но должно получится что-то интересное. 

Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Для кодирования данных о дистанции между узлами в Pajek можно использовать три подхода
1) Использование similarity matrix (матрицы сходства) с дальнейшим конвертированием в формат .net
(метод описан здесь http://vw.indiana.edu/tutorials/pajek/)
2) Использование correlation matrix (матрицы корреляции)
http://list.fmf.uni-lj.si/pipermail/pajek/2009-February/000312.html
3) Использование distance matrix (матрицы дистанции) с эксплицитным заданием
весов ребр графа (weights applied to graph's edges)

Цитировать
1)     Create a graph adjacency matrix from the correlation matrix by
designating a minimum correlation (or absolute value of correlation) for a
link to be formed. i.e. for every entry in the correlation matrix p>0.3 the
corresponding adjacency matrix entry is 1, else 0. Then this adjacency
matrix can be written to .net format using the *Edges list to list the
edges. You can also use the correlations as weighted edges but since most
pairs will likely have some correlation in my experience the resulting graph
is way too dense to be of much use graphically (if that is your main
purpose).

2)     There is a method of transforming the correlation matrix into a tree.
According to a paper by R Mantegna (based on an earlier paper; see attached)
you can create a distance metric between nodes i and j from the correlation
matrix where d(i, j) = sqrt(2*(1 - p(i,j))). Then using this distance matrix
you can run a minimum spanning tree algorithm to create a graph that can be
written to a .net file by writing the edges. The plus of this method is that
it is less arbitrary than choosing a minimum correlation coefficient as in
1. The minus is that since you get a tree as an output, the cyclic structure
and clustering of the graph is mostly removed. It can produce interesting
output though and is mostly used in creating graphs of stocks in equity
markets using the stock correlation coefficient (though I think it has uses
in genetics as well).


Есть идеи?  :)

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Так я и сделал построение по Вашим данным (см. выше), только вместо массива данных 5*5 использовал матрицу 4*4.
В матрице

0   6   8   11
6   0   10   9
8   10   0   4
11   9   4   0

девятки надо заменить на 99. Я использовал 99, как значение бесконечности для обозначения отсутствия родственных связей.
Вполне можно использовать 30, или даже 20.

Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
Не могли бы Вы представить данные в таком виде?
http://vw.indiana.edu/tutorials/pajek/sample_simMatrix.txt

Оффлайн Mich GlitchАвтор темы

  • Genus regis
  • Модератор
  • *****
  • Сообщений: 36936
  • Страна: ca
  • Рейтинг +3773/-48
  • Y-ДНК: J2b1
  • мтДНК: H6a1a5a
Не могли бы Вы представить данные в таком виде?
http://vw.indiana.edu/tutorials/pajek/sample_simMatrix.txt
Да у меня и нет никаких данных пока, кроме выдуманного примера.
Хотелось бы посмотреть насколько граф отличен от поддающегося какой-никакой интерпретации дерева:

Оффлайн Alesh

  • Сообщений: 903
  • Рейтинг +80/-1
я могу сделать свою  матрицу вам только "5" или можно больше кузенов добавить?

Оффлайн I2a1a

  • ...
  • Сообщений: 10364
  • Страна: ee
  • Рейтинг +761/-8
я могу сделать свою  матрицу вам только "5" или можно больше кузенов добавить?

Можно, желательно в виде similarity matrix.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.