以上结果来自 祖先。 您可以在这里看到4%美拉尼西亚语。 这在南亚人中很常见。 这不是方法中的错误。 而是,这是用于生成混合物轮廓的方法的自然结果。
基本上这是怎么回事:
1)你有数据。 在这种情况下,数据是您自己的基因型,以及代表世界遗传变异并被分类为离散种群的一组个体的基因型。
2)您有一个或一组模型。 这些模型具有不同的参数。
3)查看所拥有的数据,然后选择最能解释给定模型数据的参数。
如果您有100,000个或更多的标记,那么对于个体而言,这是足够的基因型数据。 这些模型本身风格化(例如,HWE种群的随机交配集),但在许多情况下与实际情况足够接近,可以提供良好的结果。 例如,通过这些方法,经常将Ashkenazi犹太人分配为〜100%Ashkenazi犹太人。
再说一次,阿什肯纳兹犹太人是一个很好的测试案例。 这是大约500到1,000年前经历瓶颈的人口,并且在这个时期的大部分时间里一直是内婚的。 此外,由于不同氏族血统的近亲繁殖,它的结构也不是很完美。 尽管阿什肯纳兹犹太人已经实行表亲婚姻和un侄女婚姻,但您在犹太人基因组中看到的纯合性运行并不像中东或南亚那样普遍表明其近交人口很高。 相反,有许多中等长度的片段在个体之间因血统而相同。
Ashkenazi犹太人口很简单,实际上是一个非常清晰独特的人口群体。 可以肯定的是,当您在训练数据集中创建一个Ashkenazi犹太人参考面板时,它与您所测试的个体非常匹配。
当您要为不太清晰和不同的种群生成聚类和祖先分配时,就会出现问题。 为什么南亚人通常会以美拉尼西亚人或波利尼西亚人的身份出现? 这篇帖子是由Facebook帖子提示的,一位祖先的南亚客户有兴趣看到她拥有波利尼西亚血统。 现实情况是,她几乎可以肯定没有波利尼西亚血统。
事实是,许多DTC基因组学公司使用的南亚人参考面板不够多样化,无法捕获南亚的遗传多样性。 南亚血统中有一个元素,即“南印度祖先”或ASI,它与整个南欧亚大陆以及大洋洲的居民有着深厚的血统。 混合物分析方法正在参考面板中搜索可以解释个体遗传变异的基因型组合。 由于南亚培训集不足以解释所有南亚差异 这些算法使用最接近“鬼群”的可用代理来填充变量的平衡。
该方法受约束并以两件事为条件:
1)输入的数据通常不够用。
2)被迫用来在个体中生成组合的一组人口(模型中用于解释数据的参数值)通常是不足或人为的。
我最后的意思是 许多遗传簇在分类学上是不等价的。 “南亚”血统比“梅拉尼西亚”血统更加多样化和分散。 这就是为什么美拉尼西亚血统可以解释南亚血统,但通常不能解释相反的原因。
如果你和我能看到比参考基因组设置的细节丰富得多的事实数据发生了什么,似乎应该可以重新设计模型以克服其中的一些问题(也许还有其他问题,例如韩国-前面讨论过的日本问题)。
例如,如果您首先根据已发布的数据使用 ANI-ASI 数据集训练模型会怎样?
更一般地说,您能否训练一个模型,该模型具有所有主要发达人群的共识大图人口历史,而不是直接从原始基因组进行分析,而无需这种中介?
感谢您的澄清!我不得不向很多人解释,仅仅因为他们有波利尼西亚,并不意味着他们有波利尼西亚血统。虽然这个类别对于波利尼西亚人来说非常适合,但那些东南亚血统的人会选择一些波利尼西亚人。菲律宾人得到了大约32% - 40%,中国人得到了10% - 12%,我听到一个越南人说他得到了波利尼西亚的15%。
当我听说原住民背景以及南亚地区也有一些这样的情况时,我认为这与美拉尼西亚类别是一样的。
很抱歉,我去年错过了您在 FTDNA 会议上的演讲,不得不在出发前几个小时取消行程。我肯定会喜欢的!仍在等待“大洋洲”类别的回归。