Мое мнение - нужно использовать комбинированный подход. Как я понял, вы его и использовали (но устанавливали разные весовые коэффициенты для snp и str).
Касательно дерева только по snp - нереально, т.к. бОльшая часть подопытных недоисследована до конца, а данных по str на порядки (?) больше.
Поправьте, если неправ