自Zack Ajmal首次与我联系以来,已经有10个月的时间了 哈拉帕祖先项目。 我有两个想法。 一方面,我确实认为对南亚某些地区的采样不足存在一个主要问题。 但是,似乎1000个基因组将很快解决这个问题。 事实证明 1000个基因组 速度比我预期的要慢一些(我认为印度样本的兴盛是政治问题而不是科学问题)。 因此,我很高兴Zack刚开始时就开始了该项目。
在这一点上,他击中了 边际收益递减区 当涉及到参与者时。 从他的样本中查看,他有100多位非混血南亚血统的非创始人(我不是创始人,因为我的父母都在数据库中)。 我决定将个人修剪成这种选择,并以他的许多参考人口为偏见,偏向南亚人,看看我能找到什么。 我使用了他的K = 11 ADMIXTURE跑法,因为这对于南亚人来说似乎很有帮助。 你可以找到文件 点击此处.
Zack项目的一个有趣方面是,他开始在某个点收集Y和mtDNA单倍群。 不足为奇的是 R1a1a。 多年以来,这种父系标记已被建议与 印度伊朗人,尽管最近有研究人员建议,实际上这是一个非常古老的单倍群,在欧洲分支和南亚分支之间有着明显的区别。 Zack在他的数据库中有56个具有Y和mtDNA信息的人。 这些必须是男性。 他有14个人具有mtDNA信息,而没有Y信息。 这些人可能是女性(显然可能有男性只输入他们的mtDNA信息,但是考虑到大多数结果来自23andMe,这似乎不太可能)。 其中有27位男性是R1a1a。 29个不是。 具有R1a1a的人的平均“昂热”比例为24%。 没有? 24%。 “南亚”的相应值分别为56%和55%。 在这种可能偏斜的样本中,R1a1a似乎并不能很好地预测祖先的变化。
我们如何看待mtDNA。 Haplogroup M已本地化至南亚。 将总体除以M而不是M,您将获得以下值:
不是M,南亚= 55%
不是M,Onge = 23%
M,南亚= 56%
M,昂热= 23%
单亲标记似乎没有那么多,这与我的直觉相吻合。 至少要达到这种分析规模。 因此,让我们看一下常染色体基因组。 总遗传变异。 如果您一直在关注HAP,那么以下内容将不是新闻,对于那些还没有这样做的人,我想我会生成一些图。
在HAP数据中可以明显看出南亚人口的双向混合作用。 “昂热”是指与安达曼岛民相似的元素。 “ S.Asian”似乎有些复杂,但与西欧亚有很强的亲和力。 轴是NW-SE,从上种姓到下种姓,正如您所期望的那样。
欧亚大陆有两个组成部分,没有被分解为“东南亚”,“西南亚”和“欧洲”。 这些名字是不言而喻的。 有趣的是,南印度人,特别是非婆罗门上流社会的种姓中,“ SW.Asian”倾向较高。 相比之下,东北印第安人中的“西南亚人”要少得多,而“欧洲人”则成比例地多。 当您查看参考集中的人口时,这一点更加明显。
还有一些有趣的种姓/区域模式。
当您将区域从考虑中删除时,有趣的是婆罗门在南亚人口中有些“居中”。
相反,旁遮普语是您期望地理预测的地方。 这是人均国内生产总值只有巴基斯坦人为南亚人的问题,这在某种程度上是有问题的。 他们不太代表南亚人。
至少在大多数情况下,校正区域时沿种姓轴的差异会变得更加清晰。
旁遮普在这里有点不典型。 考虑到雅特(Jatts)等团体的独特性,我现在更愿意在过去2,000年中将移民归功于此。
不那么令人兴奋的是, 看起来许多基因组博客项目正在失去活力。 我现在很忙,所以我无法维持AAP,尽管我们很快就会有另一个Merina。 但我怀疑它会显示 对于这些努力而言,收集新数据有多么重要。 可以从同一数据集中获得的汁液太多。 现在,我们依靠研究小组和1000个基因组以及爱好者。 在不久的将来,基因型将不会成为限制因素。 我认为您会看到业余祖先基因组学的复兴。