科比 是一位杰出的职业篮球运动员。 他父亲是一个 “旅人”。 同样的, 巴里债券 和 小肯·格里菲(Ken Griffey Jr.) 他们都超过了父亲成为棒球选手。 两者的 阿奇·曼宁(Archie Manning) 儿子们 优于 四分卫 关于他们的父亲。 这并不完全令人惊讶。 尽管父母和后代的性状之间存在相关性,但这种相关性并不完美。
请注意,尽管我在上面的引号中加入了tripman 在大联盟运动会上,任何专业水平的成功都意味着极高的才华和专注力。 科比·布莱恩特(Kobe Bryant)的父亲是该年龄段前500名最佳篮球运动员之一。 他的儿子排在前十名之列。这在职业体育界是一个很大的认识到的差异,但是在任何给定时间打篮球的所有人群中,差异都不是很大。
更奇怪的是,这与现实的关系如何? 回归均值。 这是一个非常笼统的统计概念,但出于我们的目的,我们对它在定量遗传学中的应用感到好奇。 人们经常误解我的想法,并把它当作是 仿生的 几代人回归到一些理想值的趋势。
回到篮球的例子: 迈克尔·乔丹是职业比赛历史上最伟大的篮球运动员,有两个儿子,分别是 谦虚 人才 最好。 他们中的任何一个都承认,任何一个人进入职业联赛的可能性似乎都很低。 实际上,据我回忆,他们都是迈克尔·乔丹(Michael Jordan)的儿子,因此受到了特别的关注和考虑。 当然,仍然值得一提的是,他们俩都有才能跻身I部NCAA球队名单。 这对于走在街上的年轻人来说并不常见。 但是这里的已实现人才的范围是值得注意的。 相似地, 乔·蒙塔纳(Joe Montana)的儿子 一直在大学橄榄球队附近弹跳,以寻找名册。 再次,这表明有很高的才华,能够合理地加入Division I足球队的名单。 但是对于每一个科比·布莱恩特来说,都有很多内特·蒙塔纳斯。 在美国,已经有足够的职业运动员世代来说明对均值的回归。
那么它是怎样工作的? 几年前,一个朋友告诉我,最好的想法是 二元分布,其中两个随机变量是加性遗传变异和环境遗传变异。 更清晰? 对于许多人来说,也许不是。 具体来说,让我们回到旧的备用数据库: 身高的定量遗传学。
对于发达社会的身高,我们知道人口中80%的性状变异可以用人口中的基因变异来解释。 即,该性状的遗传度为0.80。 这意味着父母与后代之间在这一特征上的对应度很高。 父母长高或矮短是后代长高或矮小的体面预测指标。 但是遗传性并不完美。 有一个随机的“环境”成分变化。 我将环境因素放在引号中,因为这实际上只是意味着它是随机的噪声效应,我们无法在加性或优势成分中捕捉到这种情况(这种情况可能就是为什么个体中的同性恋取向大多是生物学植根的,即使其在整个人群中也是如此遗传性适中)。 它可能是生物学的,例如发育随机性或基因与基因的相互作用。 关键是,这是为我们预测父母后代的结果的能力增加了随机性的组成部分。 这是我们认知的一面镜子。
回到身高,左边的图显示了男性理想的身高正态分布。 我将平均值设置为70英寸或5英尺10英寸。 标准偏差为2.5, 这意味着,如果您从数据集中随机采样了任意两个雄性,那么差异的最可能值将是2.5英寸 这只是与平均值的平均偏差(它是离散度的量度)。 显然,男性的身高取决于父亲的身高,但是母亲也很重要(也许是由于产妇的影响!)。 在这里,我们必须注意,身高存在明显的性别差异。 您如何处理这个问题? 其实,这很容易。 只需将父母的身高转换为性别控制的标准差单位即可。 例如,如果您是男性的5英尺和7.5英寸,则比平均值低1个标准偏差单位。 如果您是同一身高的雌性,则比平均值高1.4个标准差单位(假设雌性平均身高为5英尺4英寸,标准差为2.5英寸)。 如果身高接近100%的可遗传性,则可以将两个育儿值以标准差为单位取平均值,以获得对后代的期望值(以标准差为单位)。 在这种情况下,后代应该比平均值高0.2个标准偏差单位。
但是身高是 并非〜100%可遗传。 父母的基因型值不能解释变异的环境因素(至少对我们有影响的遗传因素是加性成分)。 如果身高大约是80%的可遗传性,那么您可以期望后代回归到总体均值的1/5。 对于上面的示例,后代的期望值为0.16标准偏差单位,而不是0.20。
让我们更具体一点。 想象一下,您抽样了许多对夫妇,它们的中父母表型值比身高均值高0.20个标准差单位。 这意味着,如果将父亲和母亲转换为标准差单位,则它们的平均值为0.20。 因此,一对可能是0.20和0.20,另一对可能是2.0和-1.6标准偏差单位。 雄性后代身高的预期分布是什么?
1)中父母值自然地被约束为没有方差(尽管正如我在上面指出的那样,由于它是一个平均值,所以选定的父母方可能有较大的方差)
2)雄性后代的身高分布略高于平均水平
3)它仍然是一个分布。 后代的期望值是一个特定值,但是环境和遗传变异仍然会产生一系列结果(例如,孟德尔分离和重组)
4)回归到总体均值
我只展示了男性。 在后代中显然会有雌性。 如果将雌性和雄性交配,结果将是什么? 回想一下,女性的身高将显示相同的平均值,比原始人口平均值高出0.16个单位。 这是很多人感到困惑的地方 (坦率地说,那些人的智力在某种程度上更接近平均值!)。 他们认为,随后的交配将导致进一步回归到均值。 不! 相反,后代的期望值将是0.16个单位。 为什么?
因为通过选择过程,您已经创建了一个新的遗传种群。 选择过程在确定给定个体特征值的确切因果基础上是不完善的。 换句话说,由于身高不能完全遗传,因此您选择的一些高个子会因环境原因而变高,并且不会将该特征传递给后代。 但是身高是80%左右的可遗传性,这意味着使用表型对基因进行过滤的过程将会非常好,并且随后种群的遗传构成将与原始父母种群有所不同。 换句话说,个人“回归”的参考人口现在已经改变。 环境变化仍然存在,但回归锚定的附加遗传成分现在不再相同。
这就是为什么我指出,从生物学的角度来看,回归到均值并不是神奇的。 没有选定的个体自然回归或还原为具有固定特征的种群。 相反,总体在理解我们周围的统计相关性方面是有用的抽象。 选择的过程是根据总体趋势来确定的,因此我们需要将一组个人归为总体。 但是,我们真正关心的是遗传变量,这些遗传变量是整个种群变异的基础。 这些变量可以通过选择很容易地更改。 显然,如果变量是静态且不变的,则向均值的回归将表现出神奇的向理想状态的回归特性。 但是,如果这是事物的事情,那么自然选择的进化将永远不会发生!
因此,在定量遗传学中,向均值回归是一种有用的动态,一种启发式方法,可以使我们做出一般性的预测。 但是,我们不应忘记它实际上是由生物过程驱动的。 我看到人们在谈论动力学时会产生许多混乱,这似乎是因为人们忘记了生物学,并坚持这一原理,就好像这是一种没有思想的口头禅一样。
这就是为什么存在另一面的原因:即使杰出个人的后代很可能会退回到均值, 与街上的任何随机人士相比,他们比父母更有可能比其他人更出色! 让我们回到高处使其具体化。 科比(Kobe Bryant)身高6英尺6英寸。 他的父亲是6英尺9英寸。 我不知道他母亲的身高,但她的哥哥是一个篮球运动员,身高为6英尺2英寸。 让我们用他作为她的代理人(他们是兄弟姐妹,因此并不完全不合适),然后将每个人都转换为标准差单位。
神户的父亲:比平均值高4.4个单位
神户:比平均值高3.2个单位
神户的母亲:比平均值高1.6个单位
如果使用高于科比父母后代预期值的值,则该孩子的平均数要比平均值高2.4个单位。 科比有点超出预期值(假设科比的母亲比一般女性高,这可能是从照片上得出的)。 但这是重要的一点: 与父母相比,他拥有这个身高的几率要高得多。 使用理想的正态分布(“肥尾”会稍微扭曲该分布),一个人成为科比身高的几率约为1分之一。 但是在父母的陪伴下,他身高的几率接近1,500分之一。换句话说,科比的亲戚将他1英尺5英寸的几率提高了6倍! 仍然有不利于他的机会,但是死神相对而言在他的方向上负重。 以此类推,在不久的将来,我们将看到更多的职业运动员的孩子由于天赋和养育而成为职业运动员。 但是,我们将继续看到,大多数职业运动员的孩子都没有成为职业运动员所需的才能。
图片来源: 维基百科上的数据