Коротко поясню второй пункт. Для простоты всё даю без ноу-коллов. Т.е., полагаем, что значения маркеров во всех сравниваемых гаплотипах прочитаны.
Допустим, сравниваем только два гаплотипа и имеем по значению какого-то маркера СС у первого и ТТ у второго тестированных. Ясен перчик, что в этом случае в сгенерированном файле получим среднее значение СТ.
Нет закавык, если у обоих СС, или ТТ, или СТ. Эти же значения будут и в выходном файле.
А что делать, если у одного СС, а у другого СТ? Или, чтобы было нагляднее, рассмотрим три сравниваемых генома со значениями СС, СС, СТ?
Для этого и нужна возможность ввести порог частоты второго по распространённости значения. Скажем, 25% и выше. Или 30. Или 40.