您可能听说过或读过 遗传变异最多的是 中 种族,不是 之间 比赛。 我认为,这种主张导致了毫无根据的推断。 经常放在下面 “李文汀的谬论”,基本直觉是,如果大多数变异都存在于种族之内,那么种族作为一个分类单位就没有效用或实质性依据。 这是有争议的。 用通俗易懂的英语来说,尽管大多数遗传变异都可能在种族内(即无法诊断种族身份),但变异 横过 种族是非常系统的,因为这种差异反映了深厚的人口历史。 用这种思维方式,人口或种族子结构只是对种族主义技巧的反映。 树 这是由历史塑造的。
但是这些讨论最终基于 统计, F ST。 ˚F ST 通常被认为是美国进化遗传学家开创的固定指标之一 塞沃尔·赖特(Sewall Wright)。 赖特的F ST 目的是捕获由于群体亚结构而引起的遗传变异的相对数量。 关于人类中的全部遗传变异,仅通过查看人口子结构就可以推断出其中的15%(F ST 〜0.15),而余额并非归因于人口结构。 但这是一个 价值。 在 rs1426654 in SLC24A5 比较欧洲人和非洲人时,几乎所有的变化都是 之间 人群,因为等位基因频率是不相交的。 但是,如果我告诉你莱特的F ST 比您想象的要羊毛呢?
这里的问题是 测量遗传距离不同于测量加速度或长度。 加速度是与材料实体具有一阶关系的清晰定义的现象,而长度是混凝土对象的物理属性。 人口遗传学试图做的是形式化和渲染抽象现象,这些抽象现象的最终依据不受人类先入为主的观念的束缚,也不受人类直觉的欢迎,并且可以嵌套在其他抽象的构造中。 在大多数情况下,真正的“遗传距离”是人类能够轻松概念化变异模式的一种方式,变异是复杂历史过程的结果。 通常,种群遗传学家的兴趣不是分类学本身,而是分类可以推断出的历史事件。
赖特的F ST 很有用,因为它为您提供了一个数字。 而且,由于其年代久远,因此使用单个标记数据也很容易计算,就像在1960年代分子革命之前流行的那样。 今天,我更喜欢遗传关系的可视化,例如可以在主成分分析中找到,或者可以使用显式人口模型聚类的无处不在的条形图(例如, 混合物 or 结构)。 但是,如果您要提交供同行评审的论文,则可能仍会要求您提供F ST,这表示这仍是一个相关的统计信息。*
这就是为什么在 基因组研究 对于在这一领域工作的科学家来说非常重要, 估计和解释F ST :稀有变体的影响。 我与我进行了简短的交谈 Gaurav Bhatia,第一作者,在ASHG 2012上,所以我在等待这份预印本出来。 在文字中 作者提供了有关使用和计算F的“最佳实践”的明确指南。 ST. 这是必需的。 我本人已避免使用F ST 很大程度上是因为我已经看到了不同的方法会产生不同的结果。 是的,在质上是连贯的, 但这并不能使人放心 ST 声称数量精确。
问题似乎是F ST 出现在更早的前基因组时代,并且在全基因组中存在密集的SNP数据偏差,畸变和不同F之间的不一致 ST 框架开始出现。 作为实验结果,作者指出: 最近的一篇论文 声称F ST 使用0.10个基因组数据对人类而言<1000。 这低于从HapMap3推断的值。 为什么? 一种可能是,丰富的1000Genomes数据丰富了罕见的变异,这些变异很可能是在种群与共同祖先分离之后出现的。 这是有问题的,因为F的许多变体 ST 基于共同祖先的差异,因此应该评估共有变异(作者观察到,高度杂合的等位基因偏向私人等位基因可能反而导致F极低 ST)。 由于考虑到共享和不同的人口历史的重要性,作者建议在可能的情况下确定一组外的SNP(如果不能,则确定确定策略,并取样不同的基因组区域,以了解可能的偏倚或扭曲) 。
此外,样本大小不均等也存在问题,以及使用合并的SNP来计算单个距离值并取结果的平均值。 他们将后者称为“比率平均值”(方差成分之间的比率),并得出结论认为这将低估F 英石, 这就是上面的1000个基因组论文中所发生的。 相反,他们建议对SNP的平均方差的比率进行偏差较小。 这是F的前基因组起源 ST 显示,因为在标记数很少的时代这不是问题。 但是,利用来自1000个基因组的大量数据,这些失真会被放大,并导致对种群生物学历史的真正混淆。
最后,他们对F的形式提出了明确的建议 ST 使用:
哈德逊估算器>堰和科克汉姆>内
所有这些表明,即使在已建立的科学领域中,检查您的房屋也很重要。 太频繁了 ST 只是一个黑匣子,您必须检查的元素之一。 但这是一个应该带有细微理解的工具。
附录: Alkes Price的软件 页面有一些很好的资源。 并且有一个新版本的 本征软件! 我知道这个周末我要做什么…。
引文: 基因组研究,估计和解释FST:稀有的影响
变体,Gaurav Bhatia1,Nick Patterson2,Sriram Sankararaman,Alkes L. Price。 doi:10.1101 / gr.154831.113
*在F中 ST 作为更广泛的人口遗传工具包的一部分,它在许多情况下仍然有用。