АвторТема: atDNAClusterer - Программное обеспечение для кластеризации совпаденцев  (Прочитано 11063 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Sarkhan Bashirov

  • Сообщений: 359
  • Страна: ru
  • Рейтинг +91/-0
  • Y-ДНК: E-PF6747*
  • мтДНК: J2a1a1
Решил опробовать эту программу.
Почему-то у меня если выбрать центровку показывает не все матчи.



« Последнее редактирование: 21 Январь 2017, 23:17:04 от Sarkhan Bashirov »

Оффлайн Daemon2017Автор темы

  • Сообщений: 2159
  • Страна: ru
  • Рейтинг +1045/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Решил опробовать эту программу.
Почему-то у меня если выбрать центровку показывает не все матчи.





Попробуйте нажать правой кнопкой на белом поле -> Масштаб по умолчанию :)

Оффлайн Sarkhan Bashirov

  • Сообщений: 359
  • Страна: ru
  • Рейтинг +91/-0
  • Y-ДНК: E-PF6747*
  • мтДНК: J2a1a1
Решил опробовать эту программу.
Почему-то у меня если выбрать центровку показывает не все матчи.





Попробуйте нажать правой кнопкой на белом поле -> Масштаб по умолчанию :)
Не помогает... Из 8 матчей только 3 показывает


Но программа сама по себе интересная, спасибо)

P.S. Отредактировал свое первое сообщение, где по ошибке выложил одну и ту же картинку дважды

Оффлайн Daemon2017Автор темы

  • Сообщений: 2159
  • Страна: ru
  • Рейтинг +1045/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Решил опробовать эту программу.
Почему-то у меня если выбрать центровку показывает не все матчи.





Попробуйте нажать правой кнопкой на белом поле -> Масштаб по умолчанию :)
Не помогает... Из 8 матчей только 3 показывает


Но программа сама по себе интересная, спасибо)

P.S. Отредактировал свое первое сообщение, где по ошибке выложил одну и ту же картинку дважды

Странно, очень странно(
А пробовали и центровку, и стандартизацию? Данные подгружаете из FTDNA или GedMatch?

Оффлайн Sarkhan Bashirov

  • Сообщений: 359
  • Страна: ru
  • Рейтинг +91/-0
  • Y-ДНК: E-PF6747*
  • мтДНК: J2a1a1
Решил опробовать эту программу.
Почему-то у меня если выбрать центровку показывает не все матчи.





Попробуйте нажать правой кнопкой на белом поле -> Масштаб по умолчанию :)
Не помогает... Из 8 матчей только 3 показывает


Но программа сама по себе интересная, спасибо)

P.S. Отредактировал свое первое сообщение, где по ошибке выложил одну и ту же картинку дважды

Странно, очень странно(
А пробовали и центровку, и стандартизацию? Данные подгружаете из FTDNA или GedMatch?
Пробовал оба варианта, данные загрузил из FTDNA.
Еще хотел бы узнать какую полезную и практическую информацию дает кластеризация?

Оффлайн Daemon2017Автор темы

  • Сообщений: 2159
  • Страна: ru
  • Рейтинг +1045/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Пробовал оба варианта, данные загрузил из FTDNA.
Еще хотел бы узнать какую полезную и практическую информацию дает кластеризация?

 :( А из FTDNA тоже только 3 человек грузит?

О практической пользе:
1) Возможность, не тестируя родителей, разделить совпаденцев на материнскую и отцовскую линии. Хотя-бы приблизительно. Единственный вопрос, который Вам останется выяснить - какой из кластеров кому принадлежит  ;D
1.1) Если протестировано много родни по боковым линиям, то можно довольно точно соотносить каждый из малых кластеров с соответствующей предковой линией.
2) Мы используем МГК (Метод главных компонент) - он минимизирует расстояние между наиболее похожими объектами. В данном случае это позволяет выделять людей с наиболее сходными родственными связями. Пользы мало, но придает наглядности.
3) Возможность, используя косвенные данные, определять принадлежность того или иного совпаденца.

3-й пункт звучит сложно, так что попробую описать на пальцах:
Представьте ситуацию: есть Вы (А) - по семейной легенде Ваш предок (прабабушка) был незаконнорожденным ребенком одного очень благородного рода. Вы видите у себя в совпаденцах человека (С), который 100% по документам является потомком этого рода через прямую мужскую линию и носит фамилию этого рода.

Чтобы удостовериться, что родство с этим человеком у Вас действительно через эту линию (а не с какой-то другой стороны, где у Вас даже семейных легенд нет, а может и вообще по материнской линии (С), которая ни разу не благородная), Вы берете и заказываете тест своему троюродному брату (В), потомку той самой прабабушки, которая незаконнорожденная дочка этого благородного дядьки.

Звезды сложились так, что (В) досталось больше ДНК от других предковых линий, а поэтому у него вообще нет (С) в списке совпаденцев. Вы опускаете руки и не знаете по какой еще линии может быть пересечение с (С).

Вы запускаете нашу программу и видите, что (В) и (С) находятся в одном кластере (это становится возможным благодаря учету косвенной информации о других совпаденцах) и это говорит о том, что и (А), и (В) являются родичами (С) по той самой линии прабабушки, которая была незаконнорожденным ребенком предка (С). Легенда подтверждена  ;)

Оффлайн Sylvester

  • Сообщений: 1641
  • Страна: ru
  • Рейтинг +570/-0
  • FTDNA:290147 YFull:YF64174 GEDmatch:T532939
  • Y-ДНК: I1-Y16803 Varangians (SWE>RUS)
  • мтДНК: N1a1a1a1a2 (RUS,KAZ,BGR,HUN)
Цитировать
Главным нововведением является возможность работать с совпаденцами из FTDNA. Если у Вас в профиле 100 совпаденцев, то в нашей программе Вы увидите 100. Если совпаденцев 500 - увидите все 500.

А как программа определяет на каком расстоянии находятся матчи друг от друга при загрузке их из FTDNA? По какому принципу они объединяются в кластеры?

По матчам из FTDNA (237 матчей) у меня вот такая картинка получилась:


И еще вопрос про загрузку из gedmatch. Загрузил файл из матрицы 99*99 матчей. Правильно ли то, что TMRCA у всех матчей показывает 99 ? Или у меня формат файла неверный получился?

Оффлайн Sarkhan Bashirov

  • Сообщений: 359
  • Страна: ru
  • Рейтинг +91/-0
  • Y-ДНК: E-PF6747*
  • мтДНК: J2a1a1
Пробовал оба варианта, данные загрузил из FTDNA.
Еще хотел бы узнать какую полезную и практическую информацию дает кластеризация?

 :( А из FTDNA тоже только 3 человек грузит?

О практической пользе:
1) Возможность, не тестируя родителей, разделить совпаденцев на материнскую и отцовскую линии. Хотя-бы приблизительно. Единственный вопрос, который Вам останется выяснить - какой из кластеров кому принадлежит  ;D
1.1) Если протестировано много родни по боковым линиям, то можно довольно точно соотносить каждый из малых кластеров с соответствующей предковой линией.
2) Мы используем МГК (Метод главных компонент) - он минимизирует расстояние между наиболее похожими объектами. В данном случае это позволяет выделять людей с наиболее сходными родственными связями. Пользы мало, но придает наглядности.
3) Возможность, используя косвенные данные, определять принадлежность того или иного совпаденца.

3-й пункт звучит сложно, так что попробую описать на пальцах:
Представьте ситуацию: есть Вы (А) - по семейной легенде Ваш предок (прабабушка) был незаконнорожденным ребенком одного очень благородного рода. Вы видите у себя в совпаденцах человека (С), который 100% по документам является потомком этого рода через прямую мужскую линию и носит фамилию этого рода.

Чтобы удостовериться, что родство с этим человеком у Вас действительно через эту линию (а не с какой-то другой стороны, где у Вас даже семейных легенд нет, а может и вообще по материнской линии (С), которая ни разу не благородная), Вы берете и заказываете тест своему троюродному брату (В), потомку той самой прабабушки, которая незаконнорожденная дочка этого благородного дядьки.

Звезды сложились так, что (В) досталось больше ДНК от других предковых линий, а поэтому у него вообще нет (С) в списке совпаденцев. Вы опускаете руки и не знаете по какой еще линии может быть пересечение с (С).

Вы запускаете нашу программу и видите, что (В) и (С) находятся в одном кластере (это становится возможным благодаря учету косвенной информации о других совпаденцах) и это говорит о том, что и (А), и (В) являются родичами (С) по той самой линии прабабушки, которая была незаконнорожденным ребенком предка (С). Легенда подтверждена  ;)
Из ФТДНА при центровке грузит 3 матча, при стандартизации все 8. Из Гедматча не загружал так как при вставке в Excel все копируется в одно поле.
1) То есть можно стопроцентно сказать что один кластер по одной линии, другой - по другой и не может быть такого? А если представить что кто-то из матчей имеет родство с мной и по отцовской и по материнской то как тогда измениться расположение матча по сравнению с ситуацией, если бы с матчем было родство по одной линии?
2) Кстати заметил, что две пары моих матчей, указанные в левом кластере близко друг к другу являются матчами друг для друга. Можно ли прикинуть у меня с каждой парой родство по общей линии или они между собой родственники по другой линии, нежели со мной? Деления в программе показывают удаленность от того, чьи матчи кластеризованы или они просто для наглядности.
3) Этот пункт интересен конечно же, но в моем случае неактуален)

Оффлайн Daemon2017Автор темы

  • Сообщений: 2159
  • Страна: ru
  • Рейтинг +1045/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Пробовал оба варианта, данные загрузил из FTDNA.
Еще хотел бы узнать какую полезную и практическую информацию дает кластеризация?

 :( А из FTDNA тоже только 3 человек грузит?

О практической пользе:
1) Возможность, не тестируя родителей, разделить совпаденцев на материнскую и отцовскую линии. Хотя-бы приблизительно. Единственный вопрос, который Вам останется выяснить - какой из кластеров кому принадлежит  ;D
1.1) Если протестировано много родни по боковым линиям, то можно довольно точно соотносить каждый из малых кластеров с соответствующей предковой линией.
2) Мы используем МГК (Метод главных компонент) - он минимизирует расстояние между наиболее похожими объектами. В данном случае это позволяет выделять людей с наиболее сходными родственными связями. Пользы мало, но придает наглядности.
3) Возможность, используя косвенные данные, определять принадлежность того или иного совпаденца.

3-й пункт звучит сложно, так что попробую описать на пальцах:
Представьте ситуацию: есть Вы (А) - по семейной легенде Ваш предок (прабабушка) был незаконнорожденным ребенком одного очень благородного рода. Вы видите у себя в совпаденцах человека (С), который 100% по документам является потомком этого рода через прямую мужскую линию и носит фамилию этого рода.

Чтобы удостовериться, что родство с этим человеком у Вас действительно через эту линию (а не с какой-то другой стороны, где у Вас даже семейных легенд нет, а может и вообще по материнской линии (С), которая ни разу не благородная), Вы берете и заказываете тест своему троюродному брату (В), потомку той самой прабабушки, которая незаконнорожденная дочка этого благородного дядьки.

Звезды сложились так, что (В) досталось больше ДНК от других предковых линий, а поэтому у него вообще нет (С) в списке совпаденцев. Вы опускаете руки и не знаете по какой еще линии может быть пересечение с (С).

Вы запускаете нашу программу и видите, что (В) и (С) находятся в одном кластере (это становится возможным благодаря учету косвенной информации о других совпаденцах) и это говорит о том, что и (А), и (В) являются родичами (С) по той самой линии прабабушки, которая была незаконнорожденным ребенком предка (С). Легенда подтверждена  ;)
Из ФТДНА при центровке грузит 3 матча, при стандартизации все 8. Из Гедматча не загружал так как при вставке в Excel все копируется в одно поле.
1) То есть можно стопроцентно сказать что один кластер по одной линии, другой - по другой и не может быть такого? А если представить что кто-то из матчей имеет родство с мной и по отцовской и по материнской то как тогда измениться расположение матча по сравнению с ситуацией, если бы с матчем было родство по одной линии?
2) Кстати заметил, что две пары моих матчей, указанные в левом кластере близко друг к другу являются матчами друг для друга. Можно ли прикинуть у меня с каждой парой родство по общей линии или они между собой родственники по другой линии, нежели со мной? Деления в программе показывают удаленность от того, чьи матчи кластеризованы или они просто для наглядности.
3) Этот пункт интересен конечно же, но в моем случае неактуален)

Если хотите - киньте в ЛС таблицу - разберусь, что там не так)

1) Ну не 100%, но что-то около того. Как я уже говорил, минимизируется расстояние между наиболее похожими, а наиболее похожие - это, как раз, родня по общей линии. Если родство сразу по двум линиям (и удаленность равная) - почти наверняка этого совпаденца подвесит посередке между чисто отцовскими и чисто материнскими.
2) Это можно сделать через Браузер Хромосом в ФТДНА. Если добавите туда этих двоих и увидите, что у них бОльшая часть совпадений в Вами - они 100% родня между собой по той же линии, что и с Вами. А если результат другой - то тут неопределенность: может быть они родственны между собой по другой линии, а может быть и по общей с Вами, но так сложилось, что они получили разные участки ДНК от общего предка. Деления просто для наглядности :)

Еще выявили опасную штуку, которая не наблюдалась при работе с Гедматчевскими файлами: люди, которые не родственны никому, кроме владельца кита, создают особый кластер. Естественно, родней они не являются. В грядущей версии таких людей будем либо выделять отдельным цветом, либо вообще убирать.

Оффлайн Daemon2017Автор темы

  • Сообщений: 2159
  • Страна: ru
  • Рейтинг +1045/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Цитировать
Главным нововведением является возможность работать с совпаденцами из FTDNA. Если у Вас в профиле 100 совпаденцев, то в нашей программе Вы увидите 100. Если совпаденцев 500 - увидите все 500.

А как программа определяет на каком расстоянии находятся матчи друг от друга при загрузке их из FTDNA? По какому принципу они объединяются в кластеры?

По матчам из FTDNA (237 матчей) у меня вот такая картинка получилась:


И еще вопрос про загрузку из gedmatch. Загрузил файл из матрицы 99*99 матчей. Правильно ли то, что TMRCA у всех матчей показывает 99 ? Или у меня формат файла неверный получился?


Для определения расстояния можно использовать 2 подхода:
1) определение TMRCA по сумме общей ДНК, как это делает GedMatch
2) определение TMRCA по длине наибольшего общего куска

На данный момент мы используем 1-й подход (x - сумма общей ДНК в сМ), чтобы не ломать совместимость с GedMatch:
y = -0,722*ln(x) + 6,8657
R² = 1
В ближайших версиях добавим и 2-й.

А для кластеризации мы используем МГК (англ. PCA) - он минимизирует расстояние между наиболее похожими объектами. Соответственно, выходит 2 большие группы "схожести".

Неплохой результат :) Главное, при работе с закачкой из FTDNA, помнить об "одиночках". Если в ФТДНА нажать на такого человека и выбрать "In common with" - не отобразится ни одного общего совпадения. Из-за несовершенности нашего алгоритма этих людей группирует в отдельный кластер, что совершенно неправильно - их вообще не должно быть на поле.

По гедматчу - проверил, это мы напортачили ;D Пока прикручивали ФТДНА - отвалился Гедматч. Исправим в следующей версии.

Оффлайн Sylvester

  • Сообщений: 1641
  • Страна: ru
  • Рейтинг +570/-0
  • FTDNA:290147 YFull:YF64174 GEDmatch:T532939
  • Y-ДНК: I1-Y16803 Varangians (SWE>RUS)
  • мтДНК: N1a1a1a1a2 (RUS,KAZ,BGR,HUN)
Спасибо за пояснения.
Я правильно понял, что после того как я в программе ввожу логин/пароль к FTDNA, программа скачивает список моих матчей и затем по каждому матчу выполняет запрос "In common with"?

Оффлайн Daemon2017Автор темы

  • Сообщений: 2159
  • Страна: ru
  • Рейтинг +1045/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Спасибо за пояснения.
Я правильно понял, что после того как я в программе ввожу логин/пароль к FTDNA, программа скачивает список моих матчей и затем по каждому матчу выполняет запрос "In common with"?

Не за что ;)

Да, примерно так - получаем матрицу связей каждого Вашего совпаденца с остальными. Если связи нет - ставим там 99 поколений.
Только что выкатил версию 0.1.0 - исправил работу с Gedmatch и убрал сетку координат, чтобы она никого не смущала.

Спасибо Вам за обнаружение бага :)

Оффлайн Sarkhan Bashirov

  • Сообщений: 359
  • Страна: ru
  • Рейтинг +91/-0
  • Y-ДНК: E-PF6747*
  • мтДНК: J2a1a1
Пробовал оба варианта, данные загрузил из FTDNA.
Еще хотел бы узнать какую полезную и практическую информацию дает кластеризация?

 :( А из FTDNA тоже только 3 человек грузит?

О практической пользе:
1) Возможность, не тестируя родителей, разделить совпаденцев на материнскую и отцовскую линии. Хотя-бы приблизительно. Единственный вопрос, который Вам останется выяснить - какой из кластеров кому принадлежит  ;D
1.1) Если протестировано много родни по боковым линиям, то можно довольно точно соотносить каждый из малых кластеров с соответствующей предковой линией.
2) Мы используем МГК (Метод главных компонент) - он минимизирует расстояние между наиболее похожими объектами. В данном случае это позволяет выделять людей с наиболее сходными родственными связями. Пользы мало, но придает наглядности.
3) Возможность, используя косвенные данные, определять принадлежность того или иного совпаденца.

3-й пункт звучит сложно, так что попробую описать на пальцах:
Представьте ситуацию: есть Вы (А) - по семейной легенде Ваш предок (прабабушка) был незаконнорожденным ребенком одного очень благородного рода. Вы видите у себя в совпаденцах человека (С), который 100% по документам является потомком этого рода через прямую мужскую линию и носит фамилию этого рода.

Чтобы удостовериться, что родство с этим человеком у Вас действительно через эту линию (а не с какой-то другой стороны, где у Вас даже семейных легенд нет, а может и вообще по материнской линии (С), которая ни разу не благородная), Вы берете и заказываете тест своему троюродному брату (В), потомку той самой прабабушки, которая незаконнорожденная дочка этого благородного дядьки.

Звезды сложились так, что (В) досталось больше ДНК от других предковых линий, а поэтому у него вообще нет (С) в списке совпаденцев. Вы опускаете руки и не знаете по какой еще линии может быть пересечение с (С).

Вы запускаете нашу программу и видите, что (В) и (С) находятся в одном кластере (это становится возможным благодаря учету косвенной информации о других совпаденцах) и это говорит о том, что и (А), и (В) являются родичами (С) по той самой линии прабабушки, которая была незаконнорожденным ребенком предка (С). Легенда подтверждена  ;)
Из ФТДНА при центровке грузит 3 матча, при стандартизации все 8. Из Гедматча не загружал так как при вставке в Excel все копируется в одно поле.
1) То есть можно стопроцентно сказать что один кластер по одной линии, другой - по другой и не может быть такого? А если представить что кто-то из матчей имеет родство с мной и по отцовской и по материнской то как тогда измениться расположение матча по сравнению с ситуацией, если бы с матчем было родство по одной линии?
2) Кстати заметил, что две пары моих матчей, указанные в левом кластере близко друг к другу являются матчами друг для друга. Можно ли прикинуть у меня с каждой парой родство по общей линии или они между собой родственники по другой линии, нежели со мной? Деления в программе показывают удаленность от того, чьи матчи кластеризованы или они просто для наглядности.
3) Этот пункт интересен конечно же, но в моем случае неактуален)

Если хотите - киньте в ЛС таблицу - разберусь, что там не так)

1) Ну не 100%, но что-то около того. Как я уже говорил, минимизируется расстояние между наиболее похожими, а наиболее похожие - это, как раз, родня по общей линии. Если родство сразу по двум линиям (и удаленность равная) - почти наверняка этого совпаденца подвесит посередке между чисто отцовскими и чисто материнскими.
2) Это можно сделать через Браузер Хромосом в ФТДНА. Если добавите туда этих двоих и увидите, что у них бОльшая часть совпадений в Вами - они 100% родня между собой по той же линии, что и с Вами. А если результат другой - то тут неопределенность: может быть они родственны между собой по другой линии, а может быть и по общей с Вами, но так сложилось, что они получили разные участки ДНК от общего предка. Деления просто для наглядности :)

Еще выявили опасную штуку, которая не наблюдалась при работе с Гедматчевскими файлами: люди, которые не родственны никому, кроме владельца кита, создают особый кластер. Естественно, родней они не являются. В грядущей версии таких людей будем либо выделять отдельным цветом, либо вообще убирать.
Спасибо за ответ! Касаемо второго пункта, посмотрел Браузер Хромосом. Одна пара матчей имеет общие участки на двух хромосомах (т.е. мы все родня по одной линии?), а вторая вообще не имеет. Насчет Гедматча напишу в ЛС.
Еще хотел бы уточнить такой момент. Возможно вопрос покажется глупым, но все же. При кластеризации (при числе кластеров равном 2) один кластер выделенное синим, другой красным. Или там разделение несколько иное и один кластер тот, что слева, а правой - справа?


Оффлайн Daemon2017Автор темы

  • Сообщений: 2159
  • Страна: ru
  • Рейтинг +1045/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Спасибо за ответ! Касаемо второго пункта, посмотрел Браузер Хромосом. Одна пара матчей имеет общие участки на двух хромосомах (т.е. мы все родня по одной линии?), а вторая вообще не имеет. Насчет Гедматча напишу в ЛС.
Еще хотел бы уточнить такой момент. Возможно вопрос покажется глупым, но все же. При кластеризации (при числе кластеров равном 2) один кластер выделенное синим, другой красным. Или там разделение несколько иное и один кластер тот, что слева, а правой - справа?

Схемы родства может быть всего 2:


Да, выходит, что первая пара родичей - как на верхней картинке, а вторая - в неопределенном состоянии. Все таки FF - не полный геном и нельзя говорить категорически о том, что "если пересечения нет, то не родня."

По второму вопросу не совсем понял - можно поподробнее или с картинкой?
Автоматическая кластеризация - это маленькая помощь исследователю, не более. Ожидать от нее фантастики не стоит :) Исследователь должен сам видеть границу, разрыв между двумя кластерами. Это можно делать как по расположению точек, так и по фамилиям/регионам происхождения предков совпаденцев.

Оффлайн Sarkhan Bashirov

  • Сообщений: 359
  • Страна: ru
  • Рейтинг +91/-0
  • Y-ДНК: E-PF6747*
  • мтДНК: J2a1a1
Спасибо за ответ! Касаемо второго пункта, посмотрел Браузер Хромосом. Одна пара матчей имеет общие участки на двух хромосомах (т.е. мы все родня по одной линии?), а вторая вообще не имеет. Насчет Гедматча напишу в ЛС.
Еще хотел бы уточнить такой момент. Возможно вопрос покажется глупым, но все же. При кластеризации (при числе кластеров равном 2) один кластер выделенное синим, другой красным. Или там разделение несколько иное и один кластер тот, что слева, а правой - справа?

Схемы родства может быть всего 2:


Да, выходит, что первая пара родичей - как на верхней картинке, а вторая - в неопределенном состоянии. Все таки FF - не полный геном и нельзя говорить категорически о том, что "если пересечения нет, то не родня."

По второму вопросу не совсем понял - можно поподробнее или с картинкой?
Автоматическая кластеризация - это маленькая помощь исследователю, не более. Ожидать от нее фантастики не стоит :) Исследователь должен сам видеть границу, разрыв между двумя кластерами. Это можно делать как по расположению точек, так и по фамилиям/регионам происхождения предков совпаденцев.
Вот собственно картинка. Один кластер это выделенное красным, а второй - синим, не так ли?


Остальное все понял)

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.