人类是二倍体生物。 我们从每个父母那里继承了每个基因的两个副本(这里是男性的例外,他们只有一个从母亲那里继承的X染色体,而在从父亲那里继承的Y染色体上却缺少许多补偿性基因)。 我们自己的父母每个基因都有两个副本,一个副本是从每个父母那里继承而来的。 因此,一个人可以将两对祖父母的孙子建模为四个祖先祖父母的基因的镶嵌图。 但是,在任何给定的地点,祖父母与孙子女之间的关系都不是确定的。 相反,它是由概率定义的。 举一个具体的例子,考虑一个有四个祖父母的人,其中三个是中国人,其中一个是瑞典人。 想象一下,瑞典人蓝眼睛。 然后,可以在控制蓝与非蓝眼颜色差异的位点上合理假设,其中一个祖父母对“蓝眼”等位基因是纯合子,而其他祖父母对“棕眼”等位基因是纯合子。 给定的孙子携带“蓝眼”等位基因并成为杂合子的概率是多少? 每个人在给定的位置都有两个“插槽”。 我们知道,在这些狭缝中的一个上,个体仅具有棕色眼睛等位基因的可能性。 因此,它们的变异概率仅在另一个插槽上起作用,该插槽是从我们知道是杂合子的亲本遗传而来的。 那个父母反过来可能会给他们的后代贡献一个蓝眼等位基因,或一个棕色眼等位基因。 因此,任何给定的孙子都有50%的可能性是杂合子,而他们有50%的可能性是纯合子。
现在我们知道,人类基因组由大约3亿个A,G,C和T碱基对组成。在最古老的经典进化遗传模型中,可以将这些碱基对中的每一个独立地遗传。 换句话说,进化是独立概率的博弈。 但是这种理想化并不是具体的现实。 左侧是人类雄性核型的可视化图像,人类基因组(不包括mtDNA)表现为23个染色体对的集合。 由于上述约3亿个碱基对在这些染色体中具有物理位置,因此现实是某些碱基对是一起遗传的。 也就是说,由于它们的物理链接,它们的继承模式是关联的。 您看到的核仁明显是二倍体。 每个染色体分为两个对称的同源物,每个同源物均从每个亲本继承(除23个性染色体外)。 染色体数目也大致对应于大小的等级顺序。 为了让您感觉到差距,第1号染色体具有250,000,000个碱基和4,200个基因,而第22号染色体具有1,100个基因和50,000,000个碱基(Y染色体仅有450个基因,而X染色体上只有1,800个基因)。
在上面的玩具示例中,眼睛的颜色轨迹位于染色体上。 具体来说, 15号染色体。 每个人将从其父母那里继承15份副本。 但是,不能保证每个兄弟姐妹都会继承祖父母辈的同一个副本。 让我们对此进行示意性说明。 在下面,您会看到四种可能的组合,它们涉及一个人的父母从其父母那里继承的染色体。 因此,此处的“父”和“母”是父母代的参考,因此每个都有两个。 那些是从我斜体的父母母亲那里继承下来的。
祖父母合并的可能结果 |
|
|
母亲 |
|
|
|
|
父系 |
产妇 |
|
|
父亲 |
父系 |
父系 父系 |
父系 产妇 |
|
|
产妇 |
产妇 父系 |
产妇 产妇 |
|
|
结果如下:
左上角的细胞:祖父的染色体+祖父的染色体
右上角细胞:祖父的染色体+祖母的染色体
左下角细胞:祖母的染色体+祖父的染色体
右下角细胞:祖母的染色体+祖父的染色体
例如,如果在15号染色体上,两个兄弟姐妹的特征是左上角的细胞,那么我们可以说它们是100%的“血统相同”(IBD)。 这只是意味着他们的基因来自完全相同的祖先。 另一方面,如果一个兄弟姐妹的特征是左上角的单元格,另一个是右下角的单元格,那么它们将是0%IBD! 换句话说,在理论上,如果使用这种模型,同胞如果连续不断地从祖父母那里继承不同的同系物,那么常染色体上的同胞可能是0%IBD(这对23号染色体是不可能的。雄性必然从中继承相同的Y。他们的父亲,而两位女性 必须 与他们的父亲共享相同的X)。
如果您具有生物学背景,那么您就会知道这是错误的,因为这个故事还有更多内容。 重组 意味着事实上,您不会始终继承祖父母染色体的完整副本。 相反,在减数分裂过程中,一个人的染色体经常“混合并匹配”其链,从而形成新的镶嵌体。 因此,由于继承了两个减数分裂事件(配子形成期间导致一个人的父母,以及在父母配子形成过程中的另一次)。 如果您仍然感到困惑,则以下3分钟的指导视频可能会有所帮助。 旁白具有信息,因此,如果您听不懂,则蓝色=父系染色体片段,红色=母系染色体片段。 在视频播放的一半左右,尤其要注意重组。
http://www.youtube.com/watch?v=kVMb4Js99tA&feature=related
这个流程 由于在同一染色体区域上的物理连锁,与变异体遗传的条件依赖性相矛盾。 换句话说,尽管理论上仍然可行,但无需重组即可 非常 不同的,现实的重组打破了许多关联,并降低了实现的方差。 在上图中,就兄弟姐妹对的遗传距离而言,下界异常值大约介于半兄弟姐妹(0.25)和全兄弟姐妹(0.50)的相关系数与全兄弟姐妹的关联系数〜0.35左右之间(上限为0.65)。
任何给定的基因座,兄弟姐妹的IBD的方差为1/8。 由于期望值约为0.50,因此您可以推断出,在特定基因上,同胞兄弟姐妹之间存在很大偏差。 当您考虑到兄弟姐妹在单基因孟德尔性状上差异很大时,这是有道理的。 但是整个基因组呢? 因为现在您还有更多的“抽奖” “大数律” 倾向于减少方差。 右图显示了IBD按染色体的标准偏差。 请记住,期望值为〜0.50。 观察到较长的染色体具有较低的偏差。 这是由于整个基因组中重组速率的变化。 从抽象的孟德尔模型,到可以理解基因组各区域重组速率差异的观点,我们已经走了很长一段路。 IBD的总基因组标准偏差为0.036,这与预测〜0.04的较旧理论模型相近。 这意味着,如果您随机抽取两个全兄弟姐妹并比较总基因组IBD的程度,则最高可能性是它们与0.50相差0.036。 假设正态分布意味着70%的兄弟姐妹将落在0.536和0.464的相关系数区间内。 约有95%的下降将出现两个标准偏差0.428和572。约99.8%的下降将出现在三个标准偏差(39.2至61.8)之内。
我从中得出数字和统计数字的论文是 通过全兄弟姐妹之间的全基因组血统身份共享进行遗传假设的无假设估计。 引文以及后续论文都非常有趣。 它显示了现代基因组学是如何从字面上吞没整个经典定量遗传学的见解的。 自然是一者,抽象最终映射到具体事物上。 长期以来,我一直以为我应该回顾这篇论文及其见解,因为对兄弟姐妹的比较可能会成为理解许多性状遗传基础的未来途径。 但是我有一个更个人的理由来研究这个问题。
本周,我的许多家人“在线”使用了23andMe系统。 回顾:
RF =父亲
RM =母亲
RS1 =兄弟1(女)
RS2 =兄弟2(男性)
稍后将是另一位男性RS3。 但是他的数据还没有加载。
23andMe具有与疾病风险和血统信息相关的许多功能。 前者对我没有太大兴趣,因为我的家庭足够大,我对自己面临的风险有很好的认识。 23andMe告诉我,在我广泛的血统书中,常见各种疾病的风险更大。 它也告诉我,我患家族中未知疾病的风险更大。 而且,它告诉我,我在整个血统书中常见的疾病风险较小。 最后,它告诉我,我患谱系中不常见的疾病的风险较小。 您得到图片。 对于大多数人来说,这里没有太多的附加值。 我什至都没有触及过 “比值比(统计学用”.
关于祖先,我有 获得了一些价值。 我怀疑我在附近 队伍的尽头 在这方面,除非我认真对待 DYI 遗传学。 我参与了 哈拉帕祖先项目 与其说是我的家庭,不如说是更多地了解变异的区域性模式。
因此,我们处于下一个阶段: 看我自己家庭的模式。 您在上方看到的屏幕截图来自 “家庭继承”,并逐条显示RS2和RF染色体之间的IBD。 我的兄弟姐妹和我的父亲。 如您所见,它们在整个基因组中是“完全相同的”。 在每个基因中,父亲都会在常染色体上贡献一个拷贝。 这里没有差异。 总的2.86 GB值也是您所期望的,大约有3亿个碱基对,并且不包括X和Y以及“无呼叫”。 我可以告诉你,我和父亲表现出与哥哥一样的亲密关系。 相比之下,我姐姐分享了更多细分受众群。 那是因为她有我父亲的X染色体。 与我们母亲的关系也符合预期。 一旦您解释了第23号染色体上的性别差异,我们与父母都同样平等。
以下是家庭继承的屏幕截图,根据我们的基因组比较了三个兄弟姐妹。 请记住,一半相同(浅蓝色)的重量是完全相同(深蓝色)的一半。
[nggallery ID = 30]
这是顶线。 我共享的段的长度与RS1和RS2的一半相同,分别为2.26 GB和2.27 GB。 但是,虽然我的RS0.60完全相同,为1,但我的RS0.86完全相同,为2。 这是更加令人惊讶的部分:RS1和RS2的共同点比我对它们中的任何一个都少得多。 半相同为2.09 GB,完全相同为0.5。
但这还不是全部。 23andMe有一个 “相对发现者” 特征。 主要目的是找到您不认识的亲戚。 与我所听到的大多数其他人相比,到目前为止,我没有任何近亲。 可能数据库中的大多数孟加拉人来自我自己的直系亲属! (尽管有一些印度孟加拉人,但我在数据库中只发现了另一位孟加拉国人,以便与他们“共享”基因)。尽管可以将自己的家庭也包括进来。 您将获得两个不同的值,即DNA共享的百分比和共享段的数量。 前者基本上似乎是IBD的代理。 我有一个欧洲人血统的人,他们有许多“亲戚”,他们拥有0.1-1%的基因组。 一个要求联系的人确实是一个非常遥远的表亲(他的姓氏与祖父母的姓氏相同)。 无论如何,上面的矩阵显示了我一家人到目前为止的结果。 我的父母没有亲戚; 他们不共享任何片段或DNA IBD。 相反,我们与父母的IBD约为50%(请记住,父亲对儿子没有贡献X染色体)。 但是看看同级比较。 特别是,RS1和RS2仅共享其DNA的42%! 这与先前的结果一致。 我和RS1比预期的要近一点。 我和RS2有点不同。 有趣的是,虽然RS2和我共有49个网段,但RS1和RS2共有55个网段。 为什么会有差异? 大概RS1和RS2会加载较小染色体上的片段数。 在上面的图片中这似乎很清楚。
这在哪里离开我们? 我们凭直觉知道兄弟姐妹的性格各不相同且成簇。 这些数据和方法说明了在不久的将来父母将如何确定总基因组含量水平上哪些同胞聚在一起! 正如我之前说过的,RS2和我在身体上特别相似,远比我们两个人都更像RS1。 这可能与我们从基因组学上发现的东西有关吗? 我相信是这样。 物理外观由许多不同基因之间的许多不同变体控制,因此表型可能很好地反映了整个基因组的特征。 这可以推广到其他定量特征。
最后,这对我们对家庭遗传遗传的研究具有明显的含义。 古典遗传技术不得不 承担 兄弟姐妹之间的相关系数为0.50。 偏离这一预期将把误差引入到遗传力的估计中,并可能掩盖了对性状遗传结构的理解。 但是现在我们可以校正与0.50值的偏差,从而更好地了解诸如行为等复杂性状的遗传基础。
引文: P.,Visscher,Medland,S.,Ferreira,M.,Morley,K.,Zhu,G.,Cornes,B.,Montgomery,G。和Martin,N。(2006)。 通过全兄弟姐妹之间的全基因组血统鉴定通过遗传无继承性估算PLoS遗传学,2(3)DOI: 10.1371 / journal.pgen.0020041