Unz评论•另类媒体选择
美国主流媒体大都排除了有趣,重要和有争议的观点
 玩笑基因表达博客
飞翼成图
通过电子邮件将此页面发送给其他人

 记住我的信息



=>

书签 全部切换变革理论添加到图书馆从图书馆中删除 • B显示评论下一个新评论下一个新回复了解更多
回复同意/不同意/等等 更多... 这个评论者 这个线程 隐藏线程 显示所有评论
同意不同意谢谢LOL轮唱
这些按钮可将您的公开协议,异议,感谢,LOL或巨魔与所选注释一起注册。 仅对最近使用“记住我的信息”复选框保存姓名和电子邮件的频繁评论者可用,并且在任何八个小时的时间内也只能使用三次。
忽略评论者 关注评论者
搜寻文字 区分大小写  确切的词  包括评论
列表 书签

如果您要使用ADMIXTURE,则确实需要阅读 原始纸, 基于模型的快速估计无关亲戚的祖先 (没有门,所以没有任何借口)。 虽然是2000年的乔纳森·普里查德(Jonathan Pritchard)最初的论文, 利用多基因座基因型数据推断种群结构,可能就足够了。 不幸的是,这些基于模型的条形图存在问题: 人们很难过分地调整自己的生活。 我们称之为“柏拉图的复仇”。 但实际上柏拉图只详细说明了一个很明显的标准问题:我们喜欢在绝对类别中思考。 这是“是否存在种族”讨论中的大部分问题。 您总是需要超越柏拉图式建筑的思想,而柏拉图式建筑必然是社会性的。

那真是太好了 PCA。 它是数据中基础变化的直观表示,并且聚类未预先指定。 不幸的是,将参数固定为K = 5对大多数人来说意味着实际上有5个实际人口。 而且“大多数人”甚至包括很多遗传学家。

因此,我将做一个实验,摆脱基于模型的聚类,并使用 混合树 探索数据。 当然,这应该使我们确保我们阅读了 原始纸, 从全基因组等位基因频率数据推断种群分裂和混合。 我已经这样做了,三个要素对我产生了影响:

–“这种高斯模型最初是由Cavalli-Sforza和Edwards [1]提出的,并且Nicholson等人[33]概述了该模型的动机, 如果两个种群之间的遗传漂移量很小 (最多在与有效人口数量相同的时间尺度上),然后扩散近似为Wright-Fisher模型……”

–“我们不对等位基因频率在零和一处的边界建模,也没有考虑新的突变。 这意味着该模型对于祖先种群中频率的等位基因将是最准确的。=

–“对每个父母人口的贡献进行加权; 如果我们假设混合发生在一代人中……。=

我从上面得到的是什么。 首先,当心人口高度分散(它们可能会产生“长枝”)。 其次,最好做一些次要的等位基因频率过滤器,以便获得中间比例(0.05的常见比例就足够了)。 最后,很多混合不是一个单一的事件。 因此,这可能会在树中引入一些失真(或至少会误导天真的人类的表示形式)。

这第一篇文章是一个试用版。 我不打算回答任何问题,而只是探索。 我有一个数据集(不幸的是,有些数据不是公开的,所以这次我不会发布Dropbox链接),该数据集大多偏向北欧人。 我使用PCA去除了离群值的个体,并在特定国家的质心周围生成了一些合理的簇(即,根据他们的知识,国家簇是那些祖先都来自给定国家的个体)。

这些群集是:

– E_Africa(HapMap Masai,已删除了一些异常值)
–英格兰(我选择了与爱尔兰人远离的人,而不是德国人)
–芬兰
–德国(我选择的个人基本上是北德;从荷兰到萨克森)
–爱尔兰
–意大利(这些人是意大利南部;从罗马人到那不勒斯,但不包括西西里岛)
– Mbuti_Pygmies(HGDP)
–莫扎比(HGDP,一些离群值去除)
– N_Amerindian(HGDP,皮马和玛雅人;一些离群值删除)
– S_Amerindian(HGDP,苏瑞和卡里亚塔纳;一些离群值被清除)
– NE_Asia(HapMap和日文和韩文的私人数据)
– N_India(HapMap和1000个基因组古吉拉特语和旁遮普语)
– N_WestAsia(亚美尼亚人和土耳其人)
–巴布亚(HGDP)
–波兰(从此数据中删除所有犹太人)
–苏格兰(试图删除离爱尔兰和英语太近的人;这并不容易)
–东南亚(1000个Dai族和越南人基因组)
–印度南部(1000个泰米尔和泰卢固族基因组)
–西班牙(1000个基因组和私人数据)
–瑞典
– S_WestAsia(私人数据,沙特人和科威特人,从具有最近非洲血统的人那里删除)
– W_Africa(约鲁巴和埃桑1000个基因组)
–雅库特(HGDP)

合并的数据集有290,000个SNP。 它的缺失是0.25%(0.0025)。 但是数据集中有5,000多人,这可能掩盖了失踪人口分布中的一些主要偏见(例如,少量的HGDP巴布亚人可能有很多这样的偏见)。 因此,我决定删除数据中所有缺失的所有SNP。 剩下约40,000个标记。 这意味着这些标记中的所有40,000都作为呼叫出现在数据中的所有5,000个人中。 对于PCA 40,000实际上是相当不错的,所以这里是前6个…。


电脑1电脑2PC3PC4PC5PC6 维度的大小分别为:245、142、34、27、16和12。前两个形成了我们都熟悉的“机翼”形状,分别代表了非洲与其他所有国家,然后是西方与非洲欧亚大陆东部。 这些不是一成不变的。 请记住,PCA所做的是提取独立的维度,以解释数据的变化。 如果您使用特定类型的变体使数据过载,则它可能会更改排名顺序。 或者,如果您引入一个非常近交的群体,那么他们的组成部分将非常重要。 这些方法取决于您对如何解释自己放入其中的数据不感到愚蠢。 不幸的是,当您对数据没有太多预知时,很容易变得愚蠢……这就是您进行分析的原因!

由于您无法阅读PCA图,因此应单击它们。 他们会弹出一些更具可读性的内容。 PC 3将欧亚大陆从北向南分开。 这是一个比西到东小得多的尺寸。 我认为这很符合直觉。 第四个PC将美洲印第安人的团体分开。 确实,这是Surui轴与非Suurui轴的比较。 我非常喜欢PC 5和PC 6,因为它们更明显地显示了不同的欧洲集群。 问题是,从全球范围来看,欧洲几乎没有遗传变异。 但是较低的组件开始捕获它。 我不会说谎,ggplot的默认配色方案令人困惑。 我告诉你,其余两个人口是印第安人,北印第安人比南印第安人更靠近欧洲人。 右上角是巴布亚人。 我喜欢事后想到的这种方式的一种方式是,印第安人指的是“幽灵人口”。 他们不是巴布亚人,但与巴布亚人有一定的亲和力……。

接下来,我决定运行TreeMix。 首先是完整的290,000 SNP数据集。 然后是40,000,这是0%的缺失。 我每运行10次,然后输出一次。 我将它们设置为5个迁移。 除了以下内容,我将不加评论: 我对TreeMix的问题是,当我看到期望的迁移优势时,我会感到放心,但不知道该如何处理那些令人惊讶的事情。 原因是该算法不会说谎,但只能处理其中的数据和假设。 当乔·皮克雷尔(Joe Pickrell)首次提出TreeMix结果时,从美洲印第安人到欧洲人都有一条奇怪的箭头。 没有人真正知道该怎么做,尽管这并不完全令人惊讶(类似的东西很好地显示在ADMIXTURE地块中,而我早在2005年就在Noah Rosenberg的微卫星结构工作中看到了这一点)。 事实成立之后,我们现在就可以理解它了。 TreeMix尽力向我们展示了“北欧祖先”的影响。 新世界的美洲印第安人在这一祖先中所占比例最高,北欧人民在旧世界中所占比例最高。 因此,它吸引了从前者到后者的迁移优势。 当您将Malta(或Yamnaya)数据放入TreeMix时,“虚假边缘”消失了……。

 

FinalPool300KOut.9 FinalPool300KOut.10 FinalPool300KOut.5 FinalPool300KOut.6 FinalPool300KOut.7 FinalPool300KOut.8 FinalPool300KOut.1 FinalPool300KOut.2 FinalPool300KOut.3 FinalPool300KOut.4
这是40,000个标记的TreeMix输出

决赛水池GenoM5Out.8

决赛水池GenoM5Out.9

决赛水池GenoM5Out.10

决赛水池GenoM5Out.5

决赛水池GenoM5Out.6

决赛水池GenoM5Out.7决赛水池GenoM5Out.2

决赛水池GenoM5Out.3

决赛水池GenoM5Out.4

决赛水池GenoM5Out.1

 
• 类别: 科学 •标签: 混合树 
隐藏10条评论发表评论
忽略评论者...跟随仅认可
修剪评论?
  1. 漂亮的图表。

    我很高兴你从波兰样本中删除了所有犹太人,并不是说我对犹太人有任何反对意见。 但似乎 23andMe 在几年前首次推出他们的祖先服务时未能做到这一点,因此他们让西西里人、希腊人和土耳其人聚集在他们 PCA 的“波兰”广场上。 很草率。 最后我看到 PCA 还在。

    顺便说一句,我认为 qpGraph 比 TreeMix 更上一层楼。 它刚刚在 GitHub 上发布,但它需要 NAG C 库,这显然要花很多钱。 我可能会得到它,我们会看到。

    https://github.com/DReichLab/AdmixTools

    • 回复: @拉齐布·汗(Razib Khan)
    @戴维斯基

    回复:犹太人和波兰人。 好吧,如果你有一大群美国人说他们的所有四个祖父母都出生在波兰、立陶宛或俄罗斯,那么大约 1/4 到 1/2 将是德系犹太人。 所以你必须立即清除它(匈牙利,捷克/斯洛伐克,较小程度的罗马尼亚和德国也是如此)。

    , @拉齐布·汗(Razib Khan)
    @戴维斯基

    嗯。 那太蹩脚了。 是的,我刚刚克隆并尝试编译,我也错过了...

  2. @戴维斯基
    漂亮的图表。

    我很高兴你从波兰样本中删除了所有犹太人,并不是说我对犹太人有任何反对意见。 但似乎 23andMe 在几年前首次推出他们的祖先服务时未能做到这一点,因此他们让西西里人、希腊人和土耳其人聚集在他们 PCA 的“波兰”广场上。 很草率。 最后我看到 PCA 还在。

    顺便说一句,我认为 qpGraph 比 TreeMix 更上一层楼。 它刚刚在 GitHub 上发布,但它需要 NAG C 库,这显然要花很多钱。 我可能会得到它,我们会看到。

    https://github.com/DReichLab/AdmixTools

    回复:@Razib Khan,@Razib Khan

    回复:犹太人和波兰人。 好吧,如果你有一大群美国人说他们的所有四个祖父母都出生在波兰、立陶宛或俄罗斯,那么大约 1/4 到 1/2 将是德系犹太人。 所以你必须立即清除它(匈牙利,捷克/斯洛伐克,较小程度的罗马尼亚和德国也是如此)。

  3. Semi OT:Razib,你有没有看过这些替代结构的方法,以绕过数据集/速度限制:

    TeraStructure -http://biorxiv.org/content/early/2015/05/28/013227(软件- https://github.com/premgopalan/terastructure) – “在多达 2K 个人的数据集上,TeraStructure 在速度和准确性方面都与现有技术相匹配。 在多达 10K 个体的模拟数据集上,TeraStructure 的速度是现有方法的两倍,并且在恢复潜在种群结构方面具有更高的准确性。 ”

    快速结构——
    http://biorxiv.org/content/early/2013/12/02/001073 – “我们在模拟数据上测试变分算法,并使用来自 CEPH-人类基因组多样性小组的基因型数据进行说明。 变分算法几乎比 STRUCTURE 快两个数量级,并达到与 ADMIXTURE 相当的精度……fastSTRUCTURE,可在线免费获得 http://pritchardlab.stanford.edu/structure.html”

    从他们的模拟数据来看,TeraStructure 似乎最有效。 如果您有任何意见,请对您的看法感兴趣。

    FastPCA 又如何—— http://biorxiv.org/content/early/2015/04/16/018143https://github.com/gabraham/flashpca

    • 回复: @拉齐布·汗(Razib Khan)
    @马特_

    fastSTRUCTURE 很快。 与 ADMIXTURE 没有太大区别。 无法让 fastPCA 工作。 我最终大量使用了 chris chang 的 plink ~2 PCA 功能。 它很快。 (EIGENSOFT smartPCA 用于更复杂的东西)。 没听说过teraSTRUCTURE。 会检查出来。

  4. @马特_
    Semi OT:Razib,你有没有看过这些替代结构的方法,以绕过数据集/速度限制:

    TeraStructure -http://biorxiv.org/content/early/2015/05/28/013227(软件 - https://github.com/premgopalan/terastructure) -“在多达 2K 个人的数据集上,TeraStructure 匹配在速度和准确性方面现有的最新技术。在高达 10K 个体的模拟数据集上,TeraStructure 的速度是现有方法的两倍,并且在恢复潜在种群结构方面具有更高的准确性。

    快速结构 -
    http://biorxiv.org/content/early/2013/12/02/001073 - "We test the variational algorithms on simulated data, and illustrate using genotype data from the CEPH-Human Genome Diversity Panel. The variational algorithms are almost two orders of magnitude faster than STRUCTURE and achieve accuracies comparable to those of ADMIXTURE...fastSTRUCTURE, is freely available online at http://pritchardlab.stanford.edu/structure.html"

    从他们的模拟数据来看,TeraStructure 似乎最有效。 如果您有任何意见,请对您的看法感兴趣。

    FastPCA 怎么样 - http://biorxiv.org/content/early/2015/04/16/018143 - https://github.com/gabraham/flashpca

    回复:@Razib Khan

    fastSTRUCTURE 很快。 与 ADMIXTURE 没有太大区别。 无法让 fastPCA 工作。 我最终大量使用了 chris chang 的 plink ~2 PCA 功能。 它很快。 (EIGENSOFT smartPCA 用于更复杂的东西)。 没听说过teraSTRUCTURE。 会检查出来。

  5. @戴维斯基
    漂亮的图表。

    我很高兴你从波兰样本中删除了所有犹太人,并不是说我对犹太人有任何反对意见。 但似乎 23andMe 在几年前首次推出他们的祖先服务时未能做到这一点,因此他们让西西里人、希腊人和土耳其人聚集在他们 PCA 的“波兰”广场上。 很草率。 最后我看到 PCA 还在。

    顺便说一句,我认为 qpGraph 比 TreeMix 更上一层楼。 它刚刚在 GitHub 上发布,但它需要 NAG C 库,这显然要花很多钱。 我可能会得到它,我们会看到。

    https://github.com/DReichLab/AdmixTools

    回复:@Razib Khan,@Razib Khan

    嗯。 那太蹩脚了。 是的,我只是克隆并尝试编译,但我也错过了……

  6. 23andme 有(至少从 2013 年开始) 尝试 区分祖先国家特征中的犹太人和非犹太人。 我认为 Davidski 是对的,尽管他们已经很久没有更新他们的 PCA(又名全球相似度图),而且它通常毫无价值。

    问题是有些人没有将他们的基因组标记为犹太人,他们仍然以各种东欧血统出现。 此外,我认为 23andme 数据库中对犹太人的估计:东欧元甚至比 Razib 建议的还要高……对于乌克兰和摩尔多瓦等国家,我猜它接近 100%。

    也许“阿什肯纳兹”这个词有问题? 我从来没有听过一个犹太人用这个词来形容自己(许多人,尤其是前苏联犹太人,甚至不知道这是什么意思)。 大多数人会说我是俄罗斯犹太人、匈牙利犹太人或德国犹太人等,所以他们自然会将这些国家标记为他们祖父母的故乡,而忽略德系犹太人的绰号。

    当然,正确弄清楚这一切是 23andme 的责任,而不是他们的用户的责任。

  7. 感谢您的分析和逐步解释您的方法。 很棒的东西。

    我对 10 种不同的树之间的差异感到有些困惑。 是否有一些与每棵树相关的置信度; 它们是按概率降序排列的吗?

    我不会撒谎,ggplot 的默认配色方案令人困惑。

    就好像它是故意设计来激怒色盲的人一样。 要读取 PCA,我必须将图像导入 Photoshop 并使用吸管工具查看 RGB 值是否匹配……叹息。 如果可能且容易,我谦虚地请求在未来的运行中为图例添加形状。 🙂

  8. 谢谢,Razib 的这项工作。 令我惊讶的是,到目前为止还没有人推测树木和其中的迁徙边缘。 所以让我这样做。 考虑下面的树。

    从 W_Africa 到 Mozabite 以及从 E_Africa 到 S_WestAsia 的迁移边缘是预期的并且不显着。 从美洲印第安人节点到芬兰的迁移边缘可以解释为芬兰人的东北亚混合物。 从 Biaka_Pygmies 到巴布亚的迁移边缘可以解释为巴布亚丹尼索瓦人混合物的结果。 这棵树上没有丹尼索瓦人,所以比亚卡俾格米人代替了他们。

    一个奇怪的迁移边缘是从 Mbuti_Pygmies 到东亚和大洋洲节点的迁移边缘。

    没有吠叫的狗是没有任何迁移到 N_India 或 S_India 的边缘。 人们将 ANI 解释为从西亚迁徙的农民和/或从草原入侵的印欧人或两者兼而有之的结果。 这应该是在过去的几千年里发生的。 因此,我们应该看到来自西亚或欧洲或两者的移民优势。 相反,相对于西欧亚大陆和东欧亚大陆,N_India 和 S_India 在树中都占据了相当基本的位置。 就好像东方和西方都发生了印度外移民。

    这或许可以解释从 Mbuti_Pygmies 到东亚节点的奇怪迁移边缘。 非洲外移民的第一个目的地可能是通过快速沿海移民的印度。 沿海迁移可能非常迅速,以至于一些移民到达东亚而没有在印度留下任何后代。 这将是从 Mbuti_Pygmies 到东亚的迁移边缘。

  9. 巴拉吉,

    从姆布提俾格米人到东亚和大洋洲节点的迁移边缘可能反映了过量的古代混合物。

  10. “从姆布提俾格米人到东亚和大洋洲节点的迁移边缘可能反映了过量的古老混合物。”

    美国国家骨髓捐赠计划拥有来自 27978 名“东南亚人”的 HLA 单倍型数据。 在所呈现的 1 个中,#2 和 #100 最高频率的单倍型是:-

    A*33:03-B*44:03-C*07:01-DRB1*07:01-DQB1*02:01 [2.52%]

    和:-

    A*33:03-B*58:01-C*03:02-DRB1*03:01-DQB1*02:01 [1.68%]

    进入东南亚可能不是太古老,因为单倍型相对于世界其他地区是不平衡的。

    我没有非洲俾格米人的单倍型数据,但是这两种单倍型成分的 I 类 HLA 等位基因频率暗示了非洲俾格米人和东南亚人之间的关系。

    A*33:03
    巴卡侏儒 25.00% [世界高峰频率]

    早*44:03
    巴科拉侏儒 9.44%
    姆本泽勒侏儒 7.26%
    巴卡侏儒 5.00%

    早*58:01
    巴卡侏儒 15.00%
    巴科拉侏儒 4.08%
    姆本泽勒侏儒 2.78%

    [没有数据可提供给姆布提俾格米人。]

    在东南亚人中达到顶峰的两种单倍型在俾路支省、巴基斯坦、印度、孟加拉国和缅甸也以显着的频率出现。

    A33-B44- 单倍型似乎通过埃及离开非洲进入黎凡特,而 A33-B58- 似乎通过非洲之角离开非洲进入阿拉伯南部。

    两种单倍型都出现在不同的非洲人群中,但喀麦隆似乎两者都有。

评论被关闭。

通过RSS订阅所有Razib Khan评论