无监督 ADMIXTURE 的最佳案例场景?
搜寻文字 区分大小写 确切的词 包括评论
列表 书签
关于ADMIXTURE的一大优点是,总体元素通过程序的逻辑从数据中摆脱出来。 最糟糕的是,然后将其留给 您 使元素有意义。 使用ADMIXTURE并避免过多的解释性模糊的一种有用方法是,当您非常了解混合事件确实发生在非常不同且相距甚远的人口群体之间时,找出X祖先群体贡献的各个比例。 在某种程度上,整个新世界在这个过程中都是一个很好的实验室。 考虑一个来自多米尼加共和国或波多黎各的人。 他们的祖先很有可能会分为三个部分:
– 一个非洲人
–一个美洲印第安人
–欧洲的
这三个要素是从地理位置非常不同的位置采样的。 祖先群体已经分离了数万年,几乎没有基因流过它们。 这意味着“源”群体的等位基因频率应该相对不同(最大 第一时间)。 将 ADMIXTURE 生成的抽象祖先种群之间推断的等位基因频率映射到已知源种群的具体等位基因频率是相当简单的。
所以这是一个实验。 我有40个人具有非同寻常的非洲混合气。 他们中的大多数是非裔美国人,尽管其中一些人是拉丁美洲人,还有一些是埃塞俄比亚人或索马里人。 少数族裔也有非洲血统,但远高于“噪音”门槛。 让我们从HapMap中抽取四个人口:约鲁巴人,犹他州白人,马赛人和北京人。 我合并了数据(去除有问题的个人),并添加上述 40 个人。 我修剪了数据集,以便在个体中丢失不超过 0.5% 的给定 SNP。 我留下了大约 120,000 个标记。
然后,我进行了两次ADMIXTURE运行:有监督和无监督。 在有监督的运行中,HapMap种群是“纯净的”,而在无监督的运行中,HapMap种群也有其祖先。 以下是无监督运行中HapMap种群的种群细分:
(从重新发布 探索/ GNXP 经作者或代表的许可)
关注@razibkhan
这很有趣,当大卫运行无监督选项时,他对我的结果与你的非常相似。 然而,当他运行监督选项时,我得出 99% 的西非(他知道这是某种类型的统计错误,但他认为这是由于我对他正在使用的一个或多个样本具有某种特殊的亲和力,即其他非裔美国人往往没有)。 从具有更高 K 分区的更详细结果来看,我似乎只是比平均水平具有更多的富拉尼和侏儒亲和力。
在 K=3 监督下,Horn Africa 样本似乎比 23andMe 在祖先绘画中暗示的具有更多的约鲁巴语(非洲代理)亲和力(通常低于 30%)。 也许 23andMe 使用非常小的窗口大小将细分市场分为非洲-欧洲-亚洲。