大约十三年前,我表达了以下观点: 一旦我们对特征的遗传基础有了更好的了解,对种群结构的了解就将成为一种好奇心。 一个曾经是统计遗传学家的朋友告诉我,这不太可能。 我们不可能捕捉到即使在高度遗传的复杂性状上也能很好地预测所有结果的能力,而不能简单地丢弃种群结构信息。 其中一些不是由于遗传学造成的。 不同的人群可能会面临不同的环境条件。 例如,了解CEU白色欧美数据集中的哪些人在练习摩门教徒,哪些人不在,这是有用的,因为摩门教徒倾向于导致许多行为上的修改。
但是,人们对人口结构的某些担忧与以下事实有关: 遗传背景很重要,而且我们不太可能对遗传相互作用和依赖性的性质一无所知。 我的意思是,如果我们有强烈的因果信号,将疾病风险与遗传变异相关联, 这种风险仍然取决于整个基因组中其他遗传变异的依赖性。 这些差异是人口历史的结果,可以通过考虑人口结构在某种程度上“控制”。 用更简单的语言 在挪威人中预测结果的信号在尼日利亚人中可能无法预测相同的结果。 这可能是由于其他变体的频率不同而引起的,这些变体不是直接因果关系,而是与因果信号交互作用,因果信号在群体之间有所不同。
最近,我有点乐观。 我没有紧跟文献,但是像 GWAS结果的高跨种族可复制性暗示常见的因果变量,让我想知道是否对遗传背景的关注没有过度。
新的预印本, 1000个基因组人口的群体遗传史和多基因风险偏向,建议我们应该担心。 或者,更确切地说,我们应该认识到遗传背景对某些类型的变体和疾病所施加的限制。 特别是, 稀有变种的出现时间越浅,它们在各个人群中的携带就越少, after,人口分化。 因此,如果您在欧洲人中有一个低频主要影响因果变量,那么在其他人群中发生的可能性就低得多。
上面的直方图显示了来自预印本的出色案例研究。 身高的遗传结构及其 基因组 对于欧洲人来说,最清楚的依据是。 例如,我们知道许多区分北欧人和南欧人的基因座,而且我们知道选择在过去5,000年中导致了这两种人群之间的分歧。 但是正如您所看到的 预测的身高似乎只是跟欧洲人的遗传距离有关。 SAS =南亚人,而AMR =来自美洲的混合人群。 EAS和AFR是东亚人和非洲人。 实际上,非洲人的身高几乎与欧洲人一样高(根据欧洲参考人口的不同,更短或更短),并且比东亚人高。 由于欧洲队列研究的因果变量在与共同人口历史记录成比例的方向上是可移植的,因此这里的预测是不正确的。 南亚人与欧洲人有着相对古老的人口统计学历史,而来自美洲的许多混合族群则把欧洲人作为其最近的创始人口之一。 但是在这两种情况下,因果变量都可能在发散之前在祖先群体中隔离,因此结果没有重大差异。
预印本不只是对GWAS的重新分析。 他们使用本地祖先反卷积方法展示了如何从遗传变异的模式推断历史(尽管像往常一样,不应将其视为福音,因为当前使用的方法存在偏差)。 主要的带回家很简单: 人口结构是真实的,并且在功能上具有真实的后果。
关注的不是欧洲人的稀有变异,而是相反–其他群体中的稀有变异不太可能出现在欧洲人中,因此不太可能通过研究欧洲人来理解,因此基于欧洲人的预测将忽略其他群体中重要的方差。 正确的?
是的。 从根本上讲,这是在2000年代已广为人知的确定性偏差问题的下一个阶段。
回复:@Razib Khan
是的。 从根本上讲,这是在2000年代已广为人知的确定性偏差问题的下一个阶段。
我希望您拥有可以可视化PC3以及PC1和PC2的软件。
我所服务的公司有能力从世界各地引进非常优秀的知识分子,而且我注意到,这似乎包括数量惊人的高个子,健壮的东亚人。 而且我的理解是,在过去的几个世纪中,欧洲人的种群数量一直在稳步上升,这可能是由于营养改善和疾病减少所致。 这让我想知道如何在不了解环境影响的情况下混淆结果,从而可以比较人群中身高的遗传贡献。 有简单的解释吗?