-Unz评论

好友，您可以保留遗传距离统计信息吗？

拉齐布汗 •20年2013月XNUMX日

•1,000字

RSS

塞沃尔·赖特（Sewall Wright）
信用： 威斯康星大学麦迪逊分校

您可能听说过或读过 遗传变异最多的是中种族，不是之间比赛。 我认为，这种主张导致了毫无根据的推断。经常放在下面 “李文汀的谬论”，基本直觉是，如果大多数变异都存在于种族之内，那么种族作为一个分类单位就没有效用或实质性依据。这是有争议的。用通俗易懂的英语来说，尽管大多数遗传变异都可能在种族内（即无法诊断种族身份），但变异横过种族是非常系统的，因为这种差异反映了深厚的人口历史。用这种思维方式，人口或种族子结构只是对种族主义技巧的反映。树这是由历史塑造的。

但是这些讨论最终基于统计, F _ST。 ˚F _ST 通常被认为是美国进化遗传学家开创的固定指标之一塞沃尔·赖特（Sewall Wright）。赖特的F _ST 目的是捕获由于群体亚结构而引起的遗传变异的相对数量。关于人类中的全部遗传变异，仅通过查看人口子结构就可以推断出其中的15％（F _ST 〜0.15），而余额并非归因于人口结构。但这是一个价值。在 rs1426654 in SLC24A5 比较欧洲人和非洲人时，几乎所有的变化都是之间人群，因为等位基因频率是不相交的。但是，如果我告诉你莱特的F _ST 比您想象的要羊毛呢？

引文： Patterson，Nick，Alkes L. Price和David Reich。 “人口结构与特征分析”。 PLoS Genetics 2.12（2006）：e190。

这里的问题是 测量遗传距离不同于测量加速度或长度。加速度是与材料实体具有一阶关系的清晰定义的现象，而长度是混凝土对象的物理属性。人口遗传学试图做的是形式化和渲染抽象现象，这些抽象现象的最终依据不受人类先入为主的观念的束缚，也不受人类直觉的欢迎，并且可以嵌套在其他抽象的构造中。在大多数情况下，真正的“遗传距离”是人类能够轻松概念化变异模式的一种方式，变异是复杂历史过程的结果。通常，种群遗传学家的兴趣不是分类学本身，而是分类可以推断出的历史事件。

赖特的F _ST 很有用，因为它为您提供了一个数字。而且，由于其年代久远，因此使用单个标记数据也很容易计算，就像在1960年代分子革命之前流行的那样。今天，我更喜欢遗传关系的可视化，例如可以在主成分分析中找到，或者可以使用显式人口模型聚类的无处不在的条形图（例如， 混合物 or 结构）。但是，如果您要提交供同行评审的论文，则可能仍会要求您提供F _ST，这表示这仍是一个相关的统计信息。*

这就是为什么在 基因组研究 对于在这一领域工作的科学家来说非常重要，估计和解释F _ST ：稀有变体的影响。我与我进行了简短的交谈 Gaurav Bhatia，第一作者，在ASHG 2012上，所以我在等待这份预印本出来。在文字中 作者提供了有关使用和计算F的“最佳实践”的明确指南。 _ST. 这是必需的。我本人已避免使用F _ST 很大程度上是因为我已经看到了不同的方法会产生不同的结果。是的，在质上是连贯的， 但这并不能使人放心 _ST 声称数量精确。

问题似乎是F _ST 出现在更早的前基因组时代，并且在全基因组中存在密集的SNP数据偏差，畸变和不同F之间的不一致 _ST 框架开始出现。作为实验结果，作者指出：最近的一篇论文声称F _ST 使用0.10个基因组数据对人类而言<1000。这低于从HapMap3推断的值。为什么？一种可能是，丰富的1000Genomes数据丰富了罕见的变异，这些变异很可能是在种群与共同祖先分离之后出现的。这是有问题的，因为F的许多变体 _ST 基于共同祖先的差异，因此应该评估共有变异（作者观察到，高度杂合的等位基因偏向私人等位基因可能反而导致F极低 _ST）。由于考虑到共享和不同的人口历史的重要性，作者建议在可能的情况下确定一组外的SNP（如果不能，则确定确定策略，并取样不同的基因组区域，以了解可能的偏倚或扭曲）。

此外，样本大小不均等也存在问题，以及使用合并的SNP来计算单个距离值并取结果的平均值。他们将后者称为“比率平均值”（方差成分之间的比率），并得出结论认为这将低估F _英石，这就是上面的1000个基因组论文中所发生的。相反，他们建议对SNP的平均方差的比率进行偏差较小。这是F的前基因组起源 _ST 显示，因为在标记数很少的时代这不是问题。但是，利用来自1000个基因组的大量数据，这些失真会被放大，并导致对种群生物学历史的真正混淆。

最后，他们对F的形式提出了明确的建议 _ST 使用：

哈德逊估算器>堰和科克汉姆>内

所有这些表明，即使在已建立的科学领域中，检查您的房屋也很重要。太频繁了 _ST 只是一个黑匣子，您必须检查的元素之一。但这是一个应该带有细微理解的工具。

附录： Alkes Price的软件页面有一些很好的资源。并且有一个新版本的 本征软件！我知道这个周末我要做什么…。

引文： 基因组研究，估计和解释FST：稀有的影响
变体，Gaurav Bhatia1，Nick Patterson2，Sriram Sankararaman，Alkes L. Price。 doi：10.1101 / gr.154831.113
*在F中 _ST 作为更广泛的人口遗传工具包的一部分，它在许多情况下仍然有用。

• 类别：科学 •标签：第一时间, 人口遗传学

德斯蒙德·图图（Desmond Tutu），西班牙人和遗传距离

拉齐布汗 •21年2010月XNUMX日

•600字 • 2 Comments

RSS

自从我们一直在谈论第一时间相当数量的时候，我认为最好将其放在一些具体的图形视图中。首先，回顾遗传背景下的Fst可以衡量可归因于群体差异的遗传变异的比例。举一个“玩具”的例子，如果您将瑞典大村庄的人口随机分为两组，并计算其Fst，则应为〜0，因为如果从定义中随机选择非结构化人口，则不会引起注意之间的人口差异。相反，如果将瑞典村庄与日本村庄进行比较，则每个族群的遗传变异很大一部分将是不同的。实际上，大约10％的遗传变异将发生在两组之间。许多基因将提供极为丰富的信息，因此，如果您知道给定个体的等位基因状态，则可以高度肯定地预测该个体来自哪个种群（例如， SLC24A5 和雷达）。一小套祖先信息丰富的等位基因将产生一系列具有极高确定性的条件概率（对于这两个种群而言，大约10个基因就足够了，对于“政府工作”来说可能是三个）。

但是，以这种观点来看，并显示遗传变异在各地之间有何不同，尽管我将大陆规模的Fst值与南部非洲一个小区域的值进行了比较。我从中获得的第一个I的Fst值欧洲人口精细结构调查及其在疾病关联研究中的应用，第二个来自南部非洲的完整Khoisan和Bantu基因组。在这种情况下，班图人是德萨蒙德·图图（Desmond Tutu），他来自科萨部落，在班图斯人到来之前就居住在南非的非班图人中有很多混杂。

首先，以表格格式：

	西班牙	瑞典	俄罗斯	日本
法国总部办公室	0.0008	0.0023	0.0037	0.1116
西班牙		0.0047	0.0059	0.1118
瑞典			0.0025	0.1095
俄罗斯				0.1057
日本

	KB1	NB1	TK1	MD8	德斯蒙德·图图
KB1		0.021	0.024	0.022	0.08
NB1			-0.007	0.006	0.091
TK1				0.016	0.088
MD8					0.061

第二，两个相邻的条形图。在前景中，我只是将西班牙与其他欧亚人口进行比较，而在背景中，戴斯蒙德·图图（Desmond Tutu）是这四个布什人的参考。

FinalscreenbushFinal

在某些方面，这种比较夸大了非洲基因的变异。布什曼人和班图人的起源非常不同，因为后者仅在最后一个时期才分布在东部和南部非洲 2,000 年。布什曼－班图人的文化鸿沟是严重的不连续性之一，尽管存在基因流动，但在某种程度上还是遗传的。但是在这种情况下，还有其他因素会抑制Fst。首先，图图人本人是科伊桑人的部分血统（除了布什曼人还有其他族群），因此他的遗传距离可能比祖鲁部落中的某个人小，祖鲁部落与土著居民的交往较少，是祖鲁人的一部分。距离人口统计“前进波”的边缘稍远一些。其次，基因芯片是针对欧亚人群的，大概是因为它们没有寻找到而错过了非洲特别是布什曼人的特定变体。

上周我对这些问题的困惑表明，我认为很难将这些深奥而又实质性的模式映射到人类类别上。但是，经常会在最可靠的照明路径上与困难作斗争。

• 类别：科学 •标签：非洲遗传学, 布须曼人, 第一时间, 基因, 基因组学