一段时间以来,我一直在研究1000个基因组南亚数据。 这是一个有趣的练习, 因为与其他南亚数据集不同,它是相对通用的,带有最少的种族/种姓标签。 这很重要,因为与1000个基因组所采样的其他人群不同,例如在非洲,欧洲和东亚,南亚数据显示的基因结构超出了他们的民族语言认同。 例如,在1000个基因组中的“泰卢固语”和“泰米尔语”数据都包含明显属于婆罗门的个体。 这是显而易见的,因为这些人位于南亚北部群体的边缘,而不是他们的民族语言同胞。 因此,结合使用Estonion Biocentre数据,HGDP以及一些朋友和我的家人,我对1000个基因组南亚人的划分比原始下载中的划分更为精细。
上面的PCA很难确定,因为我重新标记了太多的组。 但是我已经把谱系文件(删除了我的朋友)放在了新标签上 Dropbox。 我通过“ ANI-ness”将古茹拉提和旁遮普族的人口从数字上移到最低,例如,Gujurati_ANI_1是最高的ANI。 我分别标记了大量的Patel,因为它们很明显(Zack Ajmal发现Harappa项目的Patel恰好位于这群相关个人的中间)。 此外,泰米尔人,泰卢固人和孟加拉国人口中的某些人似乎被定为种姓或达利特人。 我把它们弄坏了。 我还删除了一些离群值(例如,泰卢固语中的一个人可能是种姓,一半是婆罗门,一半是非婆罗门,所以我删除了它们,而孟加拉国的一个人可能是孟加拉婆罗门或类似的东西)。
1000个基因组给我一些惊喜。 从拉合尔采样的“旁遮普语”非常多样。 许多人在HGDP中与Pathans聚在一起(顺便说一下,有两个Pathan聚类,因此我怀疑其中一个是“ Pathanized”,因此我删除了这些聚类)。 但是还有其他人,例如Punjabi_ANI_4,与更一般的南亚人没有什么不同。 我怀疑这些是 穆哈吉尔 或多或少地被种族融合的人(或1000个基因组刚刚将拉合尔的每个人都标记为旁遮普语)。 孟加拉人祖先非常同质。 与泰米尔人或泰卢固语人不同,下层种姓的人没有多少不同,婆罗门也不多(我找到了一个)。 在孟加拉国的样本中,有一些个体非常独特……他们与预定的种姓聚在一起,并且没有太多的东亚血统。 我相信,由于最近的事实,这些人在过去几个世纪中都是来自印度的移民,他们很可能仍是印度教徒,并保持种姓制(他们中的两个人有相邻的身份证,因此可能一起被采样了吗?)。
右边是一个代表性的TreeMix(您可以看到其余所有内容 Dropbox)。 孟加拉国预定的种姓个体在印度北部达利特人Chamars旁边的树上。 1000个基因组中的泰卢固语样本与我从爱沙尼亚生物中心数据集获得的Velamas最相似。 Velamas是来自Andhra Pradesh的中间种姓,因此很可能代表了从1000个Genomes Telugus样本中取样的群体。 在大多数运行中,孟加拉国的样本在某种程度上接近Patels或Gujurati_AN_4,但具有丰富的东亚血统。 在我父母的PCA上,他们都是东孟加拉邦东部地区的科米利亚,是孟加拉国抽样调查中最东亚的国家之一。 我还计划了一个朋友,他的家人在西孟加拉邦有着很深的渊源,他们是Kayasthas。 您可以看到他正好在Bangaldeshis和其他南亚人之间。 这表明孟加拉国的东亚集团非常锋利。 它实际上并没有在该地区之外持续存在。 此外,这些数据似乎并未支持在南亚拥有广泛的南亚人血统的想法……只有孟加拉人和布卢索人(都具有东亚血统)已转向东亚人。 ANI-ASI直线对于其他所有人来说确实足够。
最后,我想分析南亚样本中的近交。 我使用了plink的纯合功能默认运行。 原始结果在第一个Dropbox链接中。 我邀请您自己检查一下。 在左侧,您会看到整个基因组中以KB单位表示的纯合性总运行。 请注意,古茹拉提派特尔移至右侧,但它们的窗口狭窄。 相反,孟加拉国人在左边,但有一些离群的人。 帕特尔人是印度教的一族,因此很可能有很多中等长度的IBD道。 但是他们之间没有亲密关系的婚姻。 相比之下,孟加拉人似乎根本没有进行过许多内婚制,大概是因为他们是穆斯林,而据我所知,孟加拉国人中的种姓意识很弱(我的姓氏姓氏意识很模糊,但没有人真正在乎),但其中一些人是近亲之间的婚姻。
第二个显示纯合运行的平均长度,因此对最近的近亲繁殖更有益。 您会看到泰米尔人的分布平坦,因为有很多人长期奔波。 表弟婚姻和叔叔侄女婚姻在历史上一直是南印度印度教徒的习俗。 旁遮普样品也具有长期的纯合性。 巴基斯坦的穆斯林与孟加拉的穆斯林之间的差异似乎是,中东表亲婚姻的模式在巴基斯坦人中更为普遍。 我不知道为什么会有这种区别。 而且,与南亚大部分地区的印度教徒不同,班加尔德斯人似乎没有什么群落一级的遗传结构。 的论点 孟加拉国边界上的伊斯兰教伊斯兰的力量在孟加拉国这一地区是由于其在穆斯林时期相对较新的定居和组织,而且它是一个非结构化的边境社会,这些遗传结果似乎得到了大致的支持。
我要注意的最后一件事是,我很感谢爱沙尼亚生物中心发布的原始数据,但是许多样本似乎显示出很少的族裔关联。 我不确定这是标签问题还是其他问题,但是我丢掉了很多人(例如,北方邦婆罗门州的北方邦婆罗门)。 但是对于南亚人来说,在使用该数据集时应保持谨慎,而无需仔细检查(相比之下,非南亚人从来没有从该数据集中引起我这个问题)。
无论如何,请下载 data 并在有用时使用它。 这些ID与您在1000个基因组和HGDP等中可以识别的ID相同。对于K = 4,我也将ADMIXTURE文件放在其中。