自从我开始 非洲祖先计划 感兴趣的主要来源之一是家庭因东北非洲而欢呼的个人。 更具体地说,是非洲之角,埃塞俄比亚,厄立特里亚和索马里。 问题似乎在于23andMe的“祖先绘画”算法使用西非约鲁巴族作为参考人群,而东非人通常没有被很好地建模为西非人的派生类。 因此,举例来说,据我分析,努比亚人在祖先绘画中占“欧洲人”的比例超过50%。 再说一次,按照这种方法,我也是55-60%的“欧洲人”! 因此,我们不应过多地考虑这些判断。 显然有什么问题了,感谢Genome Bloggers 迪内克斯·庞蒂科斯(Dienekes Pontikos) 我们知道问题出在哪里: 非洲之角的人口几乎没有与“约鲁巴河”等西非人有联系的独特“班图”元素。 此外,更仔细的检查表明,这些人群中存在的“欧亚”成分也非常特殊,几乎完全来源于类似阿拉伯的来源。 当将西欧亚人分开时,北欧人和阿拉伯人是最遥远的对,甚至不包括最近的撒哈拉以南非洲混合人群,也就不足为奇了。 对于具有东部非洲背景的人来说,HapMap犹他州的欧洲裔美国人样本和尼日利亚的约鲁巴人不是最理想的选择。 相比之下,非裔美国人是西非人和北欧人的混合体,因此祖先绘画算法对其具有几乎完美的参考人群。 非裔美国人的结果可能不是很详尽和丰富,但是他们提供结果的谷物水平可能相当准确。
尽管我很乐意为东北非洲裔人们提供比23andMe更详细的结果,但这是我从事该活动的动机之一 非洲祖先计划 是为了获得一个数据集,这将使我自己能够探索非洲东部的基因组变异。 在过去的100,000年中,该地区是非非洲“源”人群的有力候选者,并且在过去2,000至3,000年中,该地区的人口周转速度很快。 我的数据集还不足以实现我的雄心壮志。 但是我现在有5个无关的索马里人。 据我所知,对使用厚标记SNP芯片的索马里基因组没有太多探索,为什么不呢? 在极端欠采样的情况下,N = 5优于N = 0。
在继续介绍方法和结果之前,我想指出一下,我存放了大部分文件 点击此处。 这是一个约25 MB的压缩文件夹,其中包含图像,扩展名以及ADMIXTURE和EIGENSOFT的原始输出。 我希望读者以此为邀请,在自己周围开玩笑。
由于我的工作重点是非洲之角,所以与我平时的工作相比,人口覆盖范围相对有限。 从HapMap中,我选择了约鲁巴岛,马塞族和卢希亚。 我将Masai重命名为“ Nilotic Kenya”,将Luhya重命名为“ Bantu Kenya”。 这 Behar等。 数据集具有相当数量的埃塞俄比亚人,外邦人和犹太人。 读者通过ID有用地标记了各个种族。 我本来要这样做的,但是因为这项繁琐的工作为我完成了,所以我更有动力去做一些事情,而不是推迟这项工作! 从Behar等人。 我还带了一些阿拉伯人口,以及格鲁吉亚人,立陶宛人和白俄罗斯人。 我将后两个人口合并为“波罗的海”。 在条形图中,叙利亚人和约旦人被转换为“黎凡特人”。 我离开了沙特人,也门人和也门犹太人。 最后,我从AAP添加了一些人员: 来自非洲之角的所有未婚祖先的人,以及我的努比亚人。 在下面的显示中,AAP成员与Behar等人中合适的种族组合:奥罗莫斯人,阿姆哈拉人和提格里。 我原样离开的埃塞俄比亚犹太人(Beta以色列)。 为了混合使用,我还从Henn等人那里带来了Sandawe。 索马里人全部来自AAP。 他们似乎没有亲戚关系(近亲通常形成自己的集群)。
我试图以一种临时的方式来平衡我的人口。 我只花了约30卢布,却决定增加更多的马赛人,因为他们似乎是混血儿,而不是参考人群,我想补充他们的变化。 根据Zack Ajmal在他对参考数据集的评论中,我删除了密切相关的个人。 合并数据集后,我留下了〜210,000个SNP,而丢失率不到0.1%。 我在ADMIXTURE中将其从K = 2扩展到K = 8,并且还生成了EIGENSOFT中遗传变异的前六个独立维度。 我还从推断出的祖先种群的ADMIXTURE中获取了Fst值,并生成了遗传距离的MDS表示形式(尽管可以在附件文件夹中找到原始文件)。
以下是几种不同类型的地块。 MDS和PCA应该相当简单。 但是对ADMIXTURE条形图有一些解释。 每K有XNUMX个。第一,按人口平均的结果。 其次,细粒度显示所有人群中的所有个体。 第三,细粒度显示感兴趣的人群。 请注意,在第二组图中,我不按人口标记所有个人,因为它不可读。 但是它们按字母顺序排列,因此您应该能够看到人口的起点和终点。
在我什至没有查看结果并进行讨论之前,有一个明显的问题跳出来: Masai数据集中有密切相关的个人或氏族,我需要在以后的运行中删除。 尽管这些人要求获得较高的K,但这并不会影响其他人群之间的关系,因此我决定先发布此内容,然后再对其进行完善。 这是一种学习经验。 您可以看到,这些人也在MDS和PCA中形成了自己的集群。 至少使用不同的方法可以系统地重现该问题。
(请注意:有些图片比显示的要大,因此,如果您想为细粒度图看到更好的标签, 获取图像URL并单独查看)
[zenphotopress相册= 287排序=排序顺序号= 50]
Masai在K = 6时“崩溃”的事实确实存在问题,因为这里可能丢失了一些信息。 但是,一些即时观察:
1)索马里人像埃塞俄比亚人一样,对班图人的扩张几乎没有任何影响。 这与努比亚人相反,努比亚人可能通过中间团体或通过与被奴役并带到苏丹的班图斯直接接触而拥有更多的西非血统。
2)当您分解西欧亚血统时,埃塞俄比亚人和索马里人的贡献几乎完全来自阿拉伯南部的一个祖先部分。 由于地理原因,这是有道理的,但是当您查看“北部”混合成分的比例时,即使在也门犹太人中,比例也没有反映在非洲之角群体中。 一个与此相符的假设可能是,类似阿拉伯人的群体之间的混合事件发生在南部阿拉伯人在基因上更加孤立并且与北部人口不同的时候。 我怀疑在骆驼之前这几乎是肯定的,更不用说伊斯兰教了。 有趣的是,就像努比亚人与西非的亲密关系一样,他们也与欧洲的亲密关系也更多。 努比亚人的血统比埃塞俄比亚人和索马里人的血统更为国际化,这在历史上并不令人惊讶。
3)外加剂估算值有一个粗略的等级顺序。 在非洲方面,它来自索马里>奥罗莫> Beta以色列〜阿姆哈拉>提格里。 尽管样本量很小,所以我们应该谨慎。 Amhara似乎变化最大。 有人可能会怀疑,作为近来埃塞俄比亚的传统核心族裔的阿姆哈拉(Amhara)已将其他群体吸收了。 如果您看一下PCA,索马里人实际上是PC 2上最“东非”的群体。还要注意其他埃塞俄比亚人和马赛人分别对阿拉伯人和班图人的线性分布。 这暗示了东非底物和其他人群之间发生了某种古老的混合事件。 我将这个人口称为“东非祖先”(AEA)。
4)桑达威与其他团体的关系很有趣。 似乎Sandawe与AEA有关,但有些微。 请注意,在整个东非桑达威以外的地区,“桑达威”成分的比例通常较低。 尽管埃塞俄比亚人和索马里人的祖先没有班图人的面貌,但他们可能拥有“祖先桑达威”(AS)。
在修正Masai数据集之前,我不想多说(我可能会求助于Dienekes的一些“技巧”以及监督的跑步)。 但是总的来说,我想说非洲之角的闪族和库奇族人的民族志要早于班图人的扩张。 我将对此进行更多的研究,但是它们似乎并没有像南亚人那样容易地产生“埃塞俄比亚-索马里”星团。 这可能是因为在这些分析中,它们从来都不是很多。 或者,可能是由于混合事件最近发生的可能性,使得潜在的人口没有像南亚人那样被蒙蔽。 目前,我倾向于后者。 像在南亚一样,我认为埃塞俄比亚人的家庭的民族发生不是一个“一次性”的混杂事件。 建议您在该地区有两个主要的语言族,闪族语和库希族语。
图片来源: 维基媒体