扎克·阿杰马尔(Zack Ajmal)一直在服用他的 参考3数据集 漫步在 哈拉帕祖先项目。 或者,更准确地说,他一直在驱动计算机以处理ADMIXTURE结果,从而提高了K的后一个值。 因为它是 哈拉帕 祖先项目扎克(Zack)的人口过多地吸引了南亚人。 他设法掌握了 重建印度历史中的数据集。 如果您还记得,本文表明,脱离祖先结构推断算法的南亚成分实际上可能是两个古代种群(“北印度祖先”(ANI)和“南印度祖先”(ASI))的稳定混合体。 ANI是可以很容易地与其他西欧亚人进行比较的人口。 没有“纯”的ASI群体,但是安达曼群岛的土著人民是最接近的群体,它们与几万年前的大陆ASI人口不同。
在K = 11(即11个推断的祖先人口)的情况下,扎克似乎已经迷失了对这种南亚混合模型的期望模式。 让我 引用他:
现在,让我们使用Onge分量在10%到50%之间的所有参考人群,并使用上面的公式计算其ASI百分比。 结果在电子表格中。 有几个人口的南印度祖先人口比任何Reich等人群体都高,其中Paniya最高,为67.4%。
%ASI和%Onge(一个Andaman组)之间的r平方为0.994。 这意味着前者的99.4%的变化可以通过后者的变化来解释。 %ASI始终高于Onge。 为什么? 安达曼岛民和ASI的最后共同祖先在数万年前就开始分歧了。 二烯 观察到的ADMIXTURE需要良好的参考人群,并且Onge与大陆ASI人群的上一个共同祖先相距甚远,以至于它不是这个古老群体的完美代表。 但是似乎低估是系统地朝着同一方向倾斜的,因此可以解释这两种趋势之间的良好契合。
Zack自然在这些推断的祖先种群之间生成了Fsts的成对矩阵。 请记住,Fst中的值显示了两个种群中遗传变异的比例,可以在两个种群之间进行划分,但不能在两个种群之间进行划分。 因此,这是对遗传距离的粗略衡量。
这是矩阵。 我重命名了一些人口:
亚洲人 | 安达曼 | E亚洲 | 亚洲西南 | 欧洲 | 西伯利亚 | W非洲 | 巴布亚 | 美洲印第安人 | 科伊桑/侏儒 | 非洲人 | |
亚洲人 | 0 | 0.165 | 0.121 | 0.09 | 0.071 | 0.134 | 0.184 | 0.21 | 0.175 | 0.261 | 0.15 |
安达曼 | 0.165 | 0 | 0.122 | 0.161 | 0.152 | 0.144 | 0.224 | 0.209 | 0.207 | 0.304 | 0.304 |
E亚洲 | 0.121 | 0.122 | 0 | 0.152 | 0.137 | 0.067 | 0.216 | 0.205 | 0.139 | 0.294 | 0.187 |
亚洲西南 | 0.09 | 0.161 | 0.152 | 0 | 0.048 | 0.163 | 0.179 | 0.235 | 0.208 | 0.257 | 0.143 |
欧洲 | 0.071 | 0.152 | 0.137 | 0.048 | 0 | 0.143 | 0.186 | 0.223 | 0.178 | 0.261 | 0.148 |
西伯利亚 | 0.134 | 0.144 | 0.067 | 0.163 | 0.143 | 0 | 0.232 | 0.228 | 0.141 | 0.311 | 0.203 |
W非洲 | 0.184 | 0.224 | 0.216 | 0.179 | 0.186 | 0.232 | 0 | 0.286 | 0.281 | 0.123 | 0.059 |
巴布亚 | 0.21 | 0.209 | 0.205 | 0.235 | 0.223 | 0.228 | 0.286 | 0 | 0.29 | 0.367 | 0.26 |
美洲印第安人 | 0.175 | 0.207 | 0.139 | 0.208 | 0.178 | 0.141 | 0.281 | 0.29 | 0 | 0.364 | 0.252 |
科伊桑/侏儒 | 0.261 | 0.304 | 0.294 | 0.257 | 0.261 | 0.311 | 0.123 | 0.367 | 0.364 | 0 | 0.133 |
非洲人 | 0.15 | 0.195 | 0.187 | 0.143 | 0.148 | 0.203 | 0.059 | 0.26 | 0.252 | 0.133 | 0 |
上面的南亚人口是 与您之前看到的组件有很大的不同。 它似乎比ANI更重要。 这很好地提醒我们,我们为这些祖先组提供的标签是助记符,不应将它们视为字面意义和具体含义。 我个人觉得Fst矩阵难以阅读,因此我生成了许多多维比例尺图,说明了与矩阵的关系。 可以通过混合和匹配总体来实现清晰度,这就是我所做的。 另外,我只显示维度1和维度2。 请记住,维度1是权重更大的维度。
不要将这些视为所有现代人口都来自其中的真正的具体人口。 这XNUMX个总体是满足算法要求的抽象。 但是,我确实认为,考虑到这一警告,存在一些暗示性的模式。
首先,与其他西欧亚群体相比,“西南亚人”部分与“非洲西非人”的关系并不那么紧密。 但实际上我们知道,西南亚人口 ,那恭喜你, 更接近非洲人。 这是怎么回事? 西南非洲的人口有非洲的混合物。 而且,这种混合物最近才到,它很容易消失。 这与正常的南亚模态成分形成对照,后者表明混合后需要更长的时间,这种时间足够彻底,从彼此的遗传背景中挑出两个祖先群体并不容易。 裂变和融合是任何地理上广泛的物种历史的正常组成部分。 ADMIXTURE将捕获融合的早期部分。 但是经过足够长的时间后,融合变成了它自己独特的元素。
您在PCA的欧亚大陆上看到了常规的东西向划分,但在这些地块上也看到了南北向次生分量的证据。 安达曼人口比西欧亚大陆更靠近东亚欧亚大陆,但它们也占据着自己的位置,突出了南北轴线。
最后, 与“西南亚人”相比,南亚/ ANI人口似乎更接近“欧洲人”。 这太有趣了。 但是在这里,您必须非常小心并记住,这些“纯”祖先成分本身可以在较高的K值处或当您适当限制数据集时分解成取代基元素(非洲人和近交群体倾向于在ADMIXTURE中生猪簇)。 如果您阅读过所有基因组博客,就会知道“欧洲”和“亚洲西南”组件本身在仔细检查后会分开。 “西南亚”部分通常分为北部和南部分支。 就遗传距离而言,北部分支通常比南部分支更靠近其他“欧洲”群体。 以下是一些按欧亚比例分类的西欧亚族群:
南亚% | |
伊朗人 | 30% |
Lezgins(高加索语) | 29% |
格鲁吉亚人(高加索人) | 26% |
Adygei(高加索语) | 24% |
亚美尼亚 | 22% |
土耳其人 | 21% |
叙利亚人 | 19% |
德鲁兹 | 18% |
黎巴嫩 | 17% |
撒玛利亚人 | 16% |
巴勒斯坦的 | 15% |
塞浦路斯人 | 14% |
沙特 | 14% |
也门人 | 14% |
俄语 | 8% |
托斯卡纳 | 7% |
匈牙利 | 7% |
犹他州白人 | 7% |
奥卡迪亚人 | 5% |
英国的 | 5% |
法语 | 5% |
意大利语 | 5% |
芬兰 | 4% |
还要注意,西南亚人与欧洲人之间的距离小于欧洲人与南亚人之间的距离。 处理K或将数据集限制在西欧亚组中,可能会显示出更细粒度的关系。