АвторТема: yMeter - Web-приложение для определения количества шагов и отличающихся маркеров  (Прочитано 4714 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн Daemon2017Автор темы

  • Сообщений: 2249
  • Страна: ru
  • Рейтинг +1114/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Снова попробовал то же самое - результат тот же.

Хм, странно: в логах ошибок нет( Можете кинуть Ваш набор образцов почтой или в ЛС?

Да, довольно много гаплотипов присутствуют в разных проектах и потому дублируются. В том числе просьба предусмотреть, если и сам опорный гаплотип будет сидеть в стоге сена.
Для того чтобы эксель не превращал полиндромные маркёры в даты (когда 8-9 вдруг становится 08.сен и т. п.) в таких ячейках перед значением ставил апостроф '.
Возможно, это влияет на что-то. (Но повторюсь - в настройках ставлю отключение полиндромов, т. е. по идее там может быть вписана абсолютно любая буквенно-численная дичь)

Сделано!
Хм, да, если палиндромы отключены, то кавычки ничего не сломают, т.к. маркер будет отброшен. Выходит, что дело еще в чем-то.

Оффлайн Farroukh

  • Maternal Y-DNA: R1b-FTD83033
  • ...
  • Сообщений: 17543
  • Страна: az
  • Рейтинг +6197/-17
  • Paternal Mt-DNA: M9a1b1
    • Azerbaijan DNA Project
  • Y-ДНК: E-Y37518
  • мтДНК: F2f1
Думаю, я понял причину. В выборке были кореша, у которых были полиндромные значения в типично однокопийных DYS19! То есть там, где у нормальных людей стоит одна цыфирь, у этих идёт целый паровоз как в DYS464 (DYS19abcd)!
Плюс к тому же система падает от недостатка памяти если закинуть несколько десятков тысяч гаплотипов. В моём случае реально скормить больше 800 гаплотипов за раз не получается.
« Последнее редактирование: 09 Март 2024, 20:25:32 от Farroukh »

Оффлайн Daemon2017Автор темы

  • Сообщений: 2249
  • Страна: ru
  • Рейтинг +1114/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Думаю, я понял причину. В выборке были кореша, у которых были полиндромные значения в типично однокопийных DYS19! То есть там, где у нормальных людей стоит одна цыфирь, у этих идёт целый паровоз как в DYS464 (DYS19abcd)!
Плюс к тому же система падает от недостатка памяти если закинуть несколько десятков тысяч гаплотипов. В моём случае реально скормить больше 800 гаплотипов за раз не получается.

Хм, такую ситуацию я предусмотрел - алгоритм умеет с ней работать ???


В логах вижу записи:
09 мар. 20:20:48.651 ValueError: invalid literal for int() with base 10: '10.ноя'
09 мар. 20:18:38.142 ValueError: invalid literal for int() with base 10: '10.ноя'
09 мар. 20:16:44.651 ValueError: invalid literal for int() with base 10: '10.ноя'
09 мар. 20:16:07.542 ValueError: invalid literal for int() with base 10: '10.ноя'
т.е. где-то просачиваются буквы и точки помимо цифр - с таким алгоритм не знает, что делать и падает :(
Я разрешаю работать до 30 сек над одним запросом - этого достаточно для 150к образцов. Памяти выделяю 128 Мб, но если надо чуть больше, то Яндекс выделяет еще - больше 156 Мб пока не съедалось. Но все эти лимиты, при надобности, можно поднять.

Оффлайн Farroukh

  • Maternal Y-DNA: R1b-FTD83033
  • ...
  • Сообщений: 17543
  • Страна: az
  • Рейтинг +6197/-17
  • Paternal Mt-DNA: M9a1b1
    • Azerbaijan DNA Project
  • Y-ДНК: E-Y37518
  • мтДНК: F2f1
Ясно, буду вычищать сконвертированные в даты полиндромы.

Оффлайн Daemon2017Автор темы

  • Сообщений: 2249
  • Страна: ru
  • Рейтинг +1114/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Ясно, буду вычищать сконвертированные в даты полиндромы.

Это боль :( Я махнул рукой на Excel и вставляю в Google Spreadsheets https://docs.google.com/spreadsheets/ - он не делает никаких преобразований без моего разрешения, так что не приходится делать ручную работу.

Оффлайн Farroukh

  • Maternal Y-DNA: R1b-FTD83033
  • ...
  • Сообщений: 17543
  • Страна: az
  • Рейтинг +6197/-17
  • Paternal Mt-DNA: M9a1b1
    • Azerbaijan DNA Project
  • Y-ДНК: E-Y37518
  • мтДНК: F2f1
Вычистил все ошибочные ячейки. Палиндромы отключил. Тем не менее, баг повторяется - расчёт не выполняется :(

UPD: Кажется, причина та же - палиндромы в типично одиночных маркёрах. Просьба прописать отключение всех палиндромов (а не только DYS385, DYS459, YCAII, CDY, DYF395S1, DYS413, DYS464. палиндромит иногда DYS19, DYS425 и др.)
Опцию "Ограничить ответ только N ближайшими образцами (0 - без ограничений)" заменить на "Ограничить ответ образцами с дистанцией не менее... (0 - нулевая дистанция)". Если делать как есть (оставлять 0, то система перебирает и упорядочивает всю многотысячную выборку от ближнего к дальнему)
« Последнее редактирование: 12 Март 2024, 19:02:38 от Farroukh »

Оффлайн Daemon2017Автор темы

  • Сообщений: 2249
  • Страна: ru
  • Рейтинг +1114/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Вычистил все ошибочные ячейки. Палиндромы отключил. Тем не менее, баг повторяется - расчёт не выполняется :(

В логах вижу 4 раза новую ошибку
Цитировать
/ymeter/utils.py:44: DtypeWarning: Columns (3) have mixed types. Specify dtype option on import or set low_memory=False.
которая происходит в самом начале работы в строке:
df = pd.read_csv(StringIO(csv), sep=',', header=None, names=ftdna_strs_order, index_col=0)
Ругается на нарушение формата ввода - в одной колонке (#3, т.е. DYS19, кажется) встретились и число, и слово (123cd и "12" это слова, а не числа). Попробовал воспроизвести - не получается: нужно больше данных о том, какие галки поставлены и что за данные отправляются ???

UPD: Кажется, причина та же - палиндромы в типично одиночных маркёрах. Просьба прописать отключение всех палиндромов (а не только DYS385, DYS459, YCAII, CDY, DYF395S1, DYS413, DYS464. палиндромит иногда DYS19, DYS425 и др.)
Не, такая палиндромность устраняется стабильно, но на более позднем этапе - тут даже прочитать входные данные не удалось.

Опцию "Ограничить ответ только N ближайшими образцами (0 - без ограничений)" заменить на "Ограничить ответ образцами с дистанцией не менее... (0 - нулевая дистанция)". Если делать как есть (оставлять 0, то система перебирает и упорядочивает всю многотысячную выборку от ближнего к дальнему)
Т.е. хотите, чтобы оставлялись не N ближайших, а те, кто имеет менее N отличающихся маркеров? Звучит осмысленно - FTDNA тоже не показывает на 12 маркерах совпаденцев, отличающихся более чем на 1 (кажется) маркер. Могу попробовать сделать.
« Последнее редактирование: 13 Март 2024, 00:14:15 от Daemon2017 »

Оффлайн Farroukh

  • Maternal Y-DNA: R1b-FTD83033
  • ...
  • Сообщений: 17543
  • Страна: az
  • Рейтинг +6197/-17
  • Paternal Mt-DNA: M9a1b1
    • Azerbaijan DNA Project
  • Y-ДНК: E-Y37518
  • мтДНК: F2f1
Цитировать
Попробовал воспроизвести - не получается: нужно больше данных о том, какие галки поставлены и что за данные отправляются 
Если ввести гаплотипы только на Y12 (включает DYS19) то всё работает. Буду сегодня за компом - вывешу прямо тут.

Оффлайн Daemon2017Автор темы

  • Сообщений: 2249
  • Страна: ru
  • Рейтинг +1114/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Цитировать
Попробовал воспроизвести - не получается: нужно больше данных о том, какие галки поставлены и что за данные отправляются
Если ввести гаплотипы только на Y12 (включает DYS19) то всё работает. Буду сегодня за компом - вывешу прямо тут.

Добро!

Оффлайн Farroukh

  • Maternal Y-DNA: R1b-FTD83033
  • ...
  • Сообщений: 17543
  • Страна: az
  • Рейтинг +6197/-17
  • Paternal Mt-DNA: M9a1b1
    • Azerbaijan DNA Project
  • Y-ДНК: E-Y37518
  • мтДНК: F2f1
Гаплотипы тут. В качестве опорного брал гаплотип 144638

Оффлайн Daemon2017Автор темы

  • Сообщений: 2249
  • Страна: ru
  • Рейтинг +1114/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Т.е. хотите, чтобы оставлялись не N ближайших, а те, кто имеет менее N отличающихся маркеров? Звучит осмысленно - FTDNA тоже не показывает на 12 маркерах совпаденцев, отличающихся более чем на 1 (кажется) маркер. Могу попробовать сделать.

Готово: теперь ограничение не по числу образцов, а по их удаленности - как в ФТДНА.

Гаплотипы тут. В качестве опорного брал гаплотип 144638
Спасибо!
У меня всё работает: 6к образцов разжевал и без ограничения по удаленности, и с ограничением. Попробовал откатиться на старую версию - тоже все работает. Может у Вас теперь тоже нормально обрабатывается?


Оффлайн Farroukh

  • Maternal Y-DNA: R1b-FTD83033
  • ...
  • Сообщений: 17543
  • Страна: az
  • Рейтинг +6197/-17
  • Paternal Mt-DNA: M9a1b1
    • Azerbaijan DNA Project
  • Y-ДНК: E-Y37518
  • мтДНК: F2f1
Похоже, просто падает память (out of memory)

Оффлайн Daemon2017Автор темы

  • Сообщений: 2249
  • Страна: ru
  • Рейтинг +1114/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Похоже, просто падает память (out of memory)

Не, я и больше тысяч закидывал - нормально разжевывается. На 6к еще остается свободная ОЗУ:
REPORT RequestID: e88ccea0-5701-4ead-b95f-068b0e49270d Duration: 4690.875 ms Billed Duration: 4700 ms Memory Size: 256 MB Max Memory Used: 200 MB Queuing Duration: 0.046 ms Function Init Duration: 4673.150 ms

Оффлайн Farroukh

  • Maternal Y-DNA: R1b-FTD83033
  • ...
  • Сообщений: 17543
  • Страна: az
  • Рейтинг +6197/-17
  • Paternal Mt-DNA: M9a1b1
    • Azerbaijan DNA Project
  • Y-ДНК: E-Y37518
  • мтДНК: F2f1
Который раз пытаюсь сравнить эталонный Y111 с группой из менее 50 гаплотипов. Ничего не считает :(

Оффлайн Daemon2017Автор темы

  • Сообщений: 2249
  • Страна: ru
  • Рейтинг +1114/-18
  • Y-ДНК: R1a-Y35174
  • мтДНК: V7-a2a2a2b*
Который раз пытаюсь сравнить эталонный Y111 с группой из менее 50 гаплотипов. Ничего не считает :(

В логах видна ошибка в самом начале работы: на стадии чтения входных данных, т.е. нарушен формат ввода. Возможно, что в строку ввода Эталон не передан ID кита.
Тела запросов я не прихраниваю, чтобы партнеры из ЕС не беспокоились, так что без информации об эталоне и образцах ничего не смогу сделать( Нужен хотя бы скриншот, а лучше - весь текст.

 

© 2007 Молекулярная Генеалогия (МолГен)

Внимание! Все сообщения отражают только мнения их авторов.
Все права на материалы принадлежат их авторам (владельцам) и сетевым изданиям, с которых они взяты.