髓: 遗传变异越稀有,该变异就越有可能是特定于特定人群的。 包括有关当前技术中遗漏的这些遗传变异的分布的信息,可以大大提高统计推断的准确性。
几天之前 我顺便提到 an 刊文 in 纽约时报 该论文报告了一篇论文的结果,该论文说明了稀有等位基因上可能存在明显分化的种群。 我的意思是说某些遗传变异以非常低的频率出现。 事实证明,其中许多是低频变体 私立 与特定人群相比,与跨越不同人群的更高频率变体形成鲜明对比。 该参考论文的一位作者提出的解释是,频率较高的变体大概可以追溯到人口在世界范围内变得地理多样化之前的时间。 更高频率下的共享变体就是共享过去历史的阴影。 相比之下,稀有变体反映了最近发生的事件,从而缩小了所影响事件的范围。
我现在已经读过有问题的论文, 人口历史和人口中罕见的等位基因共享。 从我所能收集到的 纽约时报 这篇文章实际上是对讨论中强调的一些问题的阐述。 在方法和结果方面,论文的“实质”实际上是技术性的,并且深深地嵌入到数学统计语言中。 例如:
经过进一步考虑,我决定就现场频谱计算的详细信息,以纯正的英语为您提供我笨拙的阐述。 毕竟,本文中有足够的兴趣点可以让我更有效地运用我的语言才能。 一,摘要:
高通量测序技术可实现人类基因组变异的总体水平调查。 在这里,我们检查了整个大陆人群的联合等位基因频率分布,并提出了一种将全基因组,低覆盖率数据和目标高覆盖率数据的互补方面进行组合的方法。 我们将这种方法应用于“千人基因组计划”试点阶段生成的数据, 包括来自HapMap欧洲,亚洲和非洲小组的2个样品的全基因组4-179x覆盖率数据,以及来自800个种群的697个个体的XNUMX个基因的外显子的高覆盖率靶序列。 我们使用从这些数据中获得的现场频谱来推断非洲,欧洲和亚洲人后裔的非洲外模型的人口统计参数,并通过基于折刀的方法来预测将要发生的遗传多样性的数量。随着样本数量的增加而被发现。 我们预测,在每个种群中找到约100,000个测序染色体后,每个种群中发现的非同义编码变体数量将达到1,000,而相同数目的同义变体将需要约2,500条染色体。 除此之外,由于近期人口增长较快,预计欧洲和亚洲小组人口中的隔离地点数量将超过非洲小组。 总体而言,我们发现大多数人类基因组可变位点都很罕见,并且在不同人群之间几乎没有共享。 我们的结果强调指出,由于稀有性和较高的群体差异性,跨不同人群的特定稀有遗传变异的疾病关联复制必须克服统计能力的降低。
第一个数字说明了该论文中最清晰但最不令人惊讶的发现之一:两个不同群体之间的稀有等位基因没有重叠。 在此小组中,他们正在比较北京(CHB)和尼日利亚(YRI)的约鲁巴语的中文。 他们专注于稀有等位基因,这些稀有等位基因由样本中15个样本中的100个或更少的变体定义。 两种种群的结合产生了约3,300个等位基因,但只有 这些人口中约有200个相交。 换句话说,这些人群中约有90%以上是等位基因。 这立即提示您这些遗传变异的特殊性,因为您应该知道,在任何随机多态性基因中,种群变异之间的差异要远小于此。 直方图上的相交区域特别是“平坦”,而在直方图上则是“凉爽” 热图。 相比之下,图表的“边缘”由每个相应种群专有的等位基因定义,在计数上显示出广泛的分布(请注意,与中度罕见的等位基因相比,非常罕见的等位基因要多得多)。
本文的一个重要方面是 他们综合了“高覆盖率”和“低覆盖率”测序工作的结果。 前者在基因组的实际状态方面是非常准确的,但通常具有很强的针对性和狭窄性(在本文中,他们专注于一组外显子组,即实际上编码蛋白质的基因组区域)。 相反,后者覆盖了更广泛的基因组范围(在这种情况下为完整基因组),但可能不那么准确。 当人们着眼于低频变体时,可以立即想象出这个问题: 数据中的错误以及样本量的限制可能会导致等位基因膨胀或遗漏。 当涉及高频等位基因时,错误就少了,因为这里和那里的错误都不会改变定性评估。 无论如何,通过将在基因组深层覆盖区域中发现的稀有变体与在较薄层覆盖的项目中产生的估计的低估值进行比较,作者生成了参数,使他们能够将私人等位基因的比例作为频率跨度的函数进行投影人口。
在左侧,您会看到由其方法生成的折线图上的一系列序列。 在x轴上,您有次要的等位基因频率(基因座上的罕见变体)。 对于y轴,您拥有两个群体中共享的等位基因比率。 对我而言,值得注意的是,即使两个密切相关的种群在非常低的频率上也往往会产生很大的差异! 我认为中文数据需要一些解释。 丹佛的华人几乎可以肯定偏向华南样本。 从历史上看,美国华人是广东话的不成比例,而较新的移民浪潮往往是福建人,无论是直接来自福建还是来自台湾的福建人(在台湾居多)。 尽管可能是国际主义者,但北京华人显然将从该国北部采样更多。 PCA地块上显示出这种差异,在北京和丹佛的中国样本中,显示了从人口到他们的北部和南部的距离,如果后者是从中国南部的人口中获得的话,您会期望这些距离。
甚至在密切相关的人群中也不会共享非常罕见的等位基因的事实 也有 当您想到它时当然会感到惊讶(事后看来,一切都是如此明显!)。 例如,大约在1,500年前的汉代,在中国王朝之间的第一个王朝时期(这段不统一的时期,持续了三个世纪),汉人居住的地区很多。 公元1000年左右的宋朝,长江流域和以南的省份在人口统计学上明显超过了黄河流域。 如果不考虑迁徙,这平均需要大约1,000年的时间,即40个世代(假设25年)才能出现新的遗传变异,这些变异可能分别属于中国北方和南方的汉人。 当然,推定人群中也适用相同的过程,而且还会有家族的私人等位基因。 也就是说,家族血统所特有的最近起源的遗传标记(更广泛的解释是我们已经知道了 串联重复,但这里我们只关注单核苷酸多态性,即一个碱基对的变化)。
最后,让我们看看他们的主要人口统计发现,该发现在 纽约时报。 他们估计,在他们的数据集中,亚洲人和非洲人的最后共同祖先大约是距今约50,000年。 这绝对不足为奇。 正如他们所指出的,这完全与考古记录相吻合。 令人着迷的是信心:在45%的区间内为69至95万年。 对于我来说,这似乎恰好是狭义的,他们通过使用带有较大间隔的噪声较大的数据集来检查较早的估计来确认这一点。 这是他们从数据中推断出的粗略的人口统计模型:
CEU指犹他州白人,CHB指北京中国人,JPT指日本人,YRI指约鲁巴。 您可以看到,他们对欧洲人和亚洲人最后一个共同祖先的估计约为BP 23万年,与其他计算结果相符,尽管就我个人的口味而言偏低。 这 N 指人口规模,而树的性质说明了非非洲的瓶颈,其次是人口膨胀与 相对 在过去约100,000年中,非洲的人口数量保持不变。
真正的好东西来自讨论。 这是我突然想到的东西: “应该强调的是,由于我们使用一个西非人口作为非洲小组,因此我们的模型所描述的分歧可能早于实际的非洲以外事件发生。” 在讨论中,反复指出它们的结果对许多情况都敏感。 例如,他们的使用人口有限,而且他们的人口历史历史模型显然不像以前那样复杂。 因此,这些结果也许应该被视为重要的指导,是即将发生的事情的指针,而不是放下心怀抱负的实质性标志。 考虑到他们所拥有的人口和可用的数据,此处概述的方法似乎非常有用,但是仍然受到人口集合和数据性质的限制(在不久的将来将被消除)。
最后,在医学遗传学上有实际的回报。 纽约时报 准确地反映出可以从中得出的推论: 如果许多常见的疾病是由于许多罕见的变异引起的,那么对细粒度的人类变异有更好的了解就显得尤为重要。。 已发现在一个种群中通过全基因组关联在一个种群中发现的风险等位基因在其他种群中通常可以很好地预测,但是如果这些更常见的变体是我们共同祖传遗产的一部分,那么它们对遗传背景应该相对稳健。 对于许多罕见的变体可能并非如此,这反映了近代历史的特殊性。 如果医学在基因组意义上真正是个人的,那么它似乎将比10年前所希望的更依赖于上下文。
引文: Simon Gravel,Brenna M.Henn,Ryan N.Gutenkunst,Amit R.Indap,Gabor T.Marth,Andrew G.Clark,Fuli Yu,Richard A.Gibbs,《 1000个基因组计划》和Carlos D.Bustamante(2011) 。 人口历史和人类之间罕见的等位基因共享PNAS: 10.1073 / pnas.1019276108