-Unz评论

RSS

关注@razibkhan

作者 筛选？ ❌

没有发现

◄►书签◄❌►▲ ▼全部切换总目录▲▼添加到图书馆从图书馆中删除 • B显示评论下一个新评论下一个新回复了解更多

回复同意/不同意/等等更多... This Commenter This Thread Hide Thread Display All Comments

同意不同意谢谢LOL轮唱

这些按钮可将您的公开协议，异议，感谢，LOL或巨魔与所选注释一起注册。仅对最近使用“记住我的信息”复选框保存姓名和电子邮件的频繁评论者可用，并且在任何八个小时的时间内也只能使用三次。

电邮评论忽略评论者关注评论者

缩短预期间隔

拉齐布汗 •6年2011月XNUMX日

•1,800字 • 8 Comments

RSS

髓：遗传变异越稀有，该变异就越有可能是特定于特定人群的。包括有关当前技术中遗漏的这些遗传变异的分布的信息，可以大大提高统计推断的准确性。

几天之前我顺便提到 an 刊文 in 纽约时报 该论文报告了一篇论文的结果，该论文说明了稀有等位基因上可能存在明显分化的种群。我的意思是说某些遗传变异以非常低的频率出现。事实证明，其中许多是低频变体私立与特定人群相比，与跨越不同人群的更高频率变体形成鲜明对比。该参考论文的一位作者提出的解释是，频率较高的变体大概可以追溯到人口在世界范围内变得地理多样化之前的时间。更高频率下的共享变体就是共享过去历史的阴影。相比之下，稀有变体反映了最近发生的事件，从而缩小了所影响事件的范围。

我现在已经读过有问题的论文，人口历史和人口中罕见的等位基因共享。从我所能收集到的 纽约时报 这篇文章实际上是对讨论中强调的一些问题的阐述。在方法和结果方面，论文的“实质”实际上是技术性的，并且深深地嵌入到数学统计语言中。例如：

经过进一步考虑，我决定就现场频谱计算的详细信息，以纯正的英语为您提供我笨拙的阐述。毕竟，本文中有足够的兴趣点可以让我更有效地运用我的语言才能。一，摘要：

高通量测序技术可实现人类基因组变异的总体水平调查。在这里，我们检查了整个大陆人群的联合等位基因频率分布，并提出了一种将全基因组，低覆盖率数据和目标高覆盖率数据的互补方面进行组合的方法。我们将这种方法应用于“千人基因组计划”试点阶段生成的数据， 包括来自HapMap欧洲，亚洲和非洲小组的2个样品的全基因组4-179x覆盖率数据，以及来自800个种群的697个个体的XNUMX个基因的外显子的高覆盖率靶序列。 我们使用从这些数据中获得的现场频谱来推断非洲，欧洲和亚洲人后裔的非洲外模型的人口统计参数，并通过基于折刀的方法来预测将要发生的遗传多样性的数量。随着样本数量的增加而被发现。我们预测，在每个种群中找到约100,000个测序染色体后，每个种群中发现的非同义编码变体数量将达到1,000，而相同数目的同义变体将需要约2,500条染色体。除此之外，由于近期人口增长较快，预计欧洲和亚洲小组人口中的隔离地点数量将超过非洲小组。总体而言，我们发现大多数人类基因组可变位点都很罕见，并且在不同人群之间几乎没有共享。 我们的结果强调指出，由于稀有性和较高的群体差异性，跨不同人群的特定稀有遗传变异的疾病关联复制必须克服统计能力的降低。

第一个数字说明了该论文中最清晰但最不令人惊讶的发现之一：两个不同群体之间的稀有等位基因没有重叠。在此小组中，他们正在比较北京（CHB）和尼日利亚（YRI）的约鲁巴语的中文。他们专注于稀有等位基因，这些稀有等位基因由样本中15个样本中的100个或更少的变体定义。两种种群的结合产生了约3,300个等位基因，但只有 这些人口中约有200个相交。 换句话说，这些人群中约有90％以上是等位基因。这立即提示您这些遗传变异的特殊性，因为您应该知道，在任何随机多态性基因中，种群变异之间的差异要远小于此。直方图上的相交区域特别是“平坦”，而在直方图上则是“凉爽” 热图。相比之下，图表的“边缘”由每个相应种群专有的等位基因定义，在计数上显示出广泛的分布（请注意，与中度罕见的等位基因相比，非常罕见的等位基因要多得多）。

本文的一个重要方面是 他们综合了“高覆盖率”和“低覆盖率”测序工作的结果。 前者在基因组的实际状态方面是非常准确的，但通常具有很强的针对性和狭窄性（在本文中，他们专注于一组外显子组，即实际上编码蛋白质的基因组区域）。相反，后者覆盖了更广泛的基因组范围（在这种情况下为完整基因组），但可能不那么准确。当人们着眼于低频变体时，可以立即想象出这个问题： 数据中的错误以及样本量的限制可能会导致等位基因膨胀或遗漏。 当涉及高频等位基因时，错误就少了，因为这里和那里的错误都不会改变定性评估。无论如何，通过将在基因组深层覆盖区域中发现的稀有变体与在较薄层覆盖的项目中产生的估计的低估值进行比较，作者生成了参数，使他们能够将私人等位基因的比例作为频率跨度的函数进行投影人口。

在左侧，您会看到由其方法生成的折线图上的一系列序列。在x轴上，您有次要的等位基因频率（基因座上的罕见变体）。对于y轴，您拥有两个群体中共享的等位基因比率。 对我而言，值得注意的是，即使两个密切相关的种群在非常低的频率上也往往会产生很大的差异！ 我认为中文数据需要一些解释。丹佛的华人几乎可以肯定偏向华南样本。从历史上看，美国华人是广东话的不成比例，而较新的移民浪潮往往是福建人，无论是直接来自福建还是来自台湾的福建人（在台湾居多）。尽管可能是国际主义者，但北京华人显然将从该国北部采样更多。 PCA地块上显示出这种差异，在北京和丹佛的中国样本中，显示了从人口到他们的北部和南部的距离，如果后者是从中国南部的人口中获得的话，您会期望这些距离。

甚至在密切相关的人群中也不会共享非常罕见的等位基因的事实也有当您想到它时当然会感到惊讶（事后看来，一切都是如此明显！）。例如，大约在1,500年前的汉代，在中国王朝之间的第一个王朝时期（这段不统一的时期，持续了三个世纪），汉人居住的地区很多。公元1000年左右的宋朝，长江流域和以南的省份在人口统计学上明显超过了黄河流域。如果不考虑迁徙，这平均需要大约1,000年的时间，即40个世代（假设25年）才能出现新的遗传变异，这些变异可能分别属于中国北方和南方的汉人。当然，推定人群中也适用相同的过程，而且还会有家族的私人等位基因。也就是说，家族血统所特有的最近起源的遗传标记（更广泛的解释是我们已经知道了串联重复，但这里我们只关注单核苷酸多态性，即一个碱基对的变化）。

最后，让我们看看他们的主要人口统计发现，该发现在 纽约时报。他们估计，在他们的数据集中，亚洲人和非洲人的最后共同祖先大约是距今约50,000年。这绝对不足为奇。正如他们所指出的，这完全与考古记录相吻合。令人着迷的是信心：在45％的区间内为69至95万年。对于我来说，这似乎恰好是狭义的，他们通过使用带有较大间隔的噪声较大的数据集来检查较早的估计来确认这一点。这是他们从数据中推断出的粗略的人口统计模型：

CEU指犹他州白人，CHB指北京中国人，JPT指日本人，YRI指约鲁巴。您可以看到，他们对欧洲人和亚洲人最后一个共同祖先的估计约为BP 23万年，与其他计算结果相符，尽管就我个人的口味而言偏低。这 N 指人口规模，而树的性质说明了非非洲的瓶颈，其次是人口膨胀与相对在过去约100,000年中，非洲的人口数量保持不变。

真正的好东西来自讨论。这是我突然想到的东西： “应该强调的是，由于我们使用一个西非人口作为非洲小组，因此我们的模型所描述的分歧可能早于实际的非洲以外事件发生。” 在讨论中，反复指出它们的结果对许多情况都敏感。例如，他们的使用人口有限，而且他们的人口历史历史模型显然不像以前那样复杂。因此，这些结果也许应该被视为重要的指导，是即将发生的事情的指针，而不是放下心怀抱负的实质性标志。考虑到他们所拥有的人口和可用的数据，此处概述的方法似乎非常有用，但是仍然受到人口集合和数据性质的限制（在不久的将来将被消除）。

最后，在医学遗传学上有实际的回报。 纽约时报 准确地反映出可以从中得出的推论： 如果许多常见的疾病是由于许多罕见的变异引起的，那么对细粒度的人类变异有更好的了解就显得尤为重要。。已发现在一个种群中通过全基因组关联在一个种群中发现的风险等位基因在其他种群中通常可以很好地预测，但是如果这些更常见的变体是我们共同祖传遗产的一部分，那么它们对遗传背景应该相对稳健。对于许多罕见的变体可能并非如此，这反映了近代历史的特殊性。如果医学在基因组意义上真正是个人的，那么它似乎将比10年前所希望的更依赖于上下文。

引文： Simon Gravel，Brenna M.Henn，Ryan N.Gutenkunst，Amit R.Indap，Gabor T.Marth，Andrew G.Clark，Fuli Yu，Richard A.Gibbs，《 1000个基因组计划》和Carlos D.Bustamante（2011）。人口历史和人类之间罕见的等位基因共享PNAS： 10.1073 / pnas.1019276108

• 类别：科学 •标签：进化, 基因, 基因组, 基因组学, 人类进化, 人类遗传学, 人类基因组学, 统计遗传学

协会与进化

拉齐布汗 •9年2011月XNUMX日

•3,700字 • 1 Comment

RSS

在这个领域中，我进行了密切追踪的两个主要研究途径是全基因组关联研究（全球风电系统），试图在性状/疾病与特定的遗传标记之间建立联系，并查询可塑造人类基因组变异结构的进化参数。通常与特定的性状/疾病有特定的关系。所谓的演化参数，是指随机的和确定性的力。突变，迁移，随机漂移和自然选择。这两个角度显然是相连的。两者都关注与更广泛的进化原理相关的现象： 终极存在理由，复制。 随机力（例如随机遗传漂移）反映了繁殖过程中一代又一代基因采样的误差，而通过自然选择进行适应是生殖适应性随遗传性状的变化而变化的结果。这两种力量都与GWAS（和连锁映射).

由于GWAS在确定特定疾病的致病遗传因素方面具有相关性，因此经常出现在新闻中。例如，精神分裂症。但是它们在非疾病环境中也很有用。人类色素沉着由于最近的许多关联研究，该字符的遗传结构得到了很好的阐明。这常见疾病-常见变异在色素沉着方面取得了令人瞩目的成果；看来一些常见的变体负责该特征的大部分变化。但这是例外，而不是规则。

GWAS的承诺与具体的有形结果之间存在这种脱节的原因是： 许多重要的性状/疾病可能是多基因的和定量的。 这意味着表型的变化受许多基因之间的变化控制，并且变化本身表现出逐渐的连续性（可以将其建模为值的正态分布的连续性）。 GWAS检测跨基因和较小边际效应特征的相关变异的能力明显受到限制。相比之下，似乎大约有六个基因可以解释色素沉着的群体差异之间的大多数。一 SNP 能够解决欧洲人和非洲人之间阴影差异的25-40％。该SNP在欧洲人中固定，在非洲人和东亚人中几乎不存在，并且在祖先和派生变体中隔离开来，例如南亚人和非裔美国人。相反，尽管诸如精神分裂症和高度基本上是遗传性的，该性状在群体水平上的许多变异可以通过基因变异来解释。在任何给定位置的效应大小可能很小，或者可以通过较大的低频效应变异之和来累积变异。换句话说，许多效果不大的常见变体，或众多独特的大效果的稀有变体.

基因结构的这些细微差别与所讨论特征的可能进化弧线无关。导致性状或疾病发生频率高的适应模型之一是，新突变迅速“扫视”固定或几乎固定。换句话说，在正向选择的驱动下，该位点等位基因群体中的频率从约0％转变为约100％。这种快速 “硬扫” 还会导致与最初偏爱的突变体相邻的基因组区域中相关变体的“搭便车”，从而产生高连锁不平衡在基因组中单倍型跨基因座的相关等位基因块。在以下情况下，这样的模型似乎确实可行一些变体导致色素沉着的多样性。但是，在许多变体与性状变异之间的强关联与通过适应性驱动的积极选择的特征之间的这种巧妙的衔接在许多情况下并不容易实现。

关于什么可以驱动特定等位基因的高频率，还有其他的进化可能性。人口瓶颈和近交可以仅通过偶然机会提高变体的出现频率。这可能是在特定人群中隐性表达或以准孟德尔形式表达的许多特征和疾病的起源。现在让我们将这种随机可能性设置在一边。简单选择基于奇异新突变的正选择模型并不能充分挖掘自然选择的优势。另一个模型是基于固定遗传变异的“软扫掠”模型。考虑例如具有0.50的遗传力的性状。性状值的50％的变异可以用基因的变异来解释。与特质值相关的选择可以迅速改变特质在人群中的分布，如育种者方程。但是在该模型中不需要新的突变，相反，现存等位基因的频率会随时间变化。实际上，随着比例的变化，将出现曾经很少在同一个人中一起发现的罕见等位基因的新颖组合，从而提供了一代中的平均性状价值的可能性。 t + n代 可能不在特质值范围内 t = 0.

随着时间的流逝，对数量性状的这种选择理论上会耗尽其自身的燃料，遗传变异。但是通常这在实际中是行不通的，因为这样的性状受新突变的背景水平的影响，平衡选择。在中位表型附近稳定选择，以及频率依赖性和变化的环境压力，可能会产生一种情况，在这种情况下，适应永远不会超出瞬态通量而达到新的平衡。永恒种族的元素是生命的核心红皇后假说，其中病原体和宿主参与进化战争，宿主免疫反应受到负频率依赖性的影响。随着等位基因频率的增加，其相对适应性也会下降。随着频率的降低，其适应性也随之提高。

自然地，这种复杂的进化模型受偶然性的影响，其通用性较弱，只有在简单的硬扫掠模型不再足够时才具有吸引力。但是，某些性状的遗传结构似乎是高度合理的，这些性状似乎受到了“缺少遗传力”将需要更多巴洛克式的进化模型来解释其最终出现和持久性。中的新论文 PLoS遗传学 通过查看GWAS中涉及的SNP变异模式来解决这种复杂性。人均国内生产总值数据集。人类基因组多样性项目人群中的全基因组关联研究SNP：选择是否会影响具有特质关联的未关联SNP？一，摘要：

全基因组关联研究（GWAS）已经确定了2,000多个性状-SNP关联，并且这一数目还在继续增加。 GWAS专注于对人体健康有潜在影响的特征，包括许多免疫，代谢，心血管和行为表型。鉴于复杂性状的多基因性质，选择可能会通过改变许多相关基因座的等位基因频率而对其产生影响，这一可能性有待实证研究。 在这里，我们使用等位基因频率变化的38种不同测量方法和8个iHS分数来表征1,300个全球分布人群中的53多个GWAS SNP。 我们应用这些相同的技术来评估按性状关联分组的SNP。我们发现与色素沉着，血压，传染病和自身免疫性疾病特征相关的SNPs组在某些地理位置表现出异常的等位基因频率模式和升高的iHS分数。我们还发现，在欧亚大陆和东亚，GWAS SNP在等位基因频率变化和iHS方面的得分普遍较高。总的来说，我们相信我们的结果为选择一些导致多个相关基因座等位基因频率发生变化和/或iHS分数升高的复杂性状提供了证据。由于GWAS SNP共同表现出较高的等位基因频率测量值和iHS评分，因此对复杂性状的选择可能相当广泛。 我们的发现与这种选择是正面的还是负面的最一致，尽管很难区分两者的相对贡献。 我们的结果还表明，在欧亚样品中鉴定出的性状-SNP关联可能在非洲，大洋洲和美洲不存在，这可能是由于连锁不平衡模式的差异所致。该观察结果表明，非欧亚和非东亚样本人群应包括在未来的GWAS中

现在作者总结：

自然选择通过改变基因组多态性的等位基因频率来发挥其影响。与有害性状相关的等位基因频率降低，而与有益性状相关的等位基因变得更常见。在一个简单的情况下，选择作用于一个单一多态性所控制的性状。在这种多态性下，等位基因频率的较大变化可以消除种群中的有害表型或修复有益的表型。然而，许多表型，包括2型糖尿病，克罗恩病和前列腺癌等疾病，以及诸如身高，体重和头发颜色等生理特征，都由多个基因组位点控制。通过影响单个关联多态性的等位基因频率或通过改变许多关联多态性的等位基因频率，选择可以对此类性状起作用。为了寻找后者的病例，我们组装了具有共同性状关联的基因组多态性组，并研究了其在全球53个分布人群中的等位基因频率，以寻找地理空间中等位基因行为的共性。我们发现与血压相关的变异往往与纬度相关，而与艾滋病毒/艾滋病进展相关的变异与经度相关。我们还发现证据表明，选择可能正在全球范围内发挥作用，以增加等位基因的频率，从而提高自身免疫性疾病的风险。

在本文中，跳到这些方法可能会有用。尽管我确信作者并没有打算这样做，但有时您会感到仿佛您正在跟随狂欢节招标操纵的大理石。由于我不熟悉统计的某些术语，因此仅对方法进行简单的提及就不够详细了。无论如何，这里的关键是他们专注于 与GWAS中的性状差异相关的SNP集，并将其与在53个人口的HGDP数据集中发现的总SNP进行比较。 请注意，并非GWAS中的所有SNP都在HGDP SNP面板中。但是对于一般性的问题，单核苷酸多态性的交集就足够了。此外，他们还产生了SNP的另一个子集，这些子集很可能与性状变异有关。这些是具有相关功能的其他SNP在1 MB以内的SNP，或者是在多个GWAS中发现的SNP。

论文中有四个主要统计数据：Delta，Fst，LLC和iHS。 Fst和iHS很熟悉。 Fst衡量一组人口之间的人口差异之间的程度。 Fst高意味着大量的人口结构，而Fst〜0意味着基本上没有人口结构。 iHS是一项基于基因组连锁不平衡模式检测自然选择可能性的测试。基本上，对于本文而言，重要的是iHS倾向于擅长检测中等频率的等位基因，而这些频率仍可能通过扫描。这与较早的EHH测试相反，后者仅检测几乎完成的扫描。如果作者专注于多基因性状和柔毛扫频，则出现在EHH上的可能性很低，因为这是基于硬扫频，几乎完整的扫频而来的。 LLC根据纬度和经度来衡量性状的遗传变异之间的相关性。据推测，这对于抽出那些受到生态压力驱动的特征是有用的（一般意义上的一个明显例子是，随着生物体从温暖到寒冷的气候发展，整个分类群的面积/体积比的变化是一致的）。最后，Delta会测量整个人群中的等位基因频率差异。 Delta的符号仅是所比较的等位基因频率在比较的第一群体或第二群体中是否较高的函数。

在进行比较时，作者并没有简单地以成对的方式对所有53个人群进行比较。相反，他们经常汇集大陆或区域集团。左侧是表1的一部分。它显示了用于生成Delta值的总体以及如何将其汇总。这 HGDP人口以一种非常直接的方式按区域进行细分。但也请注意，有些比较是在区域内的人口与生活方式不同的人口之间进行的。我认为本文中突出显示的比较是为了在这种探索性尝试中最大程度地压缩信息性汁液而进行的。据我所知，在HGDP数据集中，欧亚人口中没有专职的狩猎采集者，因此无法进行农业学家和狩猎采集者之间的比较。非洲数据集中有这样的比较。作者通过将GWAS SNP与HGDP数据集中的随机SNP进行比较来生成p值。特别是，他们正在寻找HGDP数据集的独特性特征。

这种独特性是可以预期的。与疾病和值得注意的特征有关的SNP集不可能是整个基因组中SNP的代表性子集。记住中性模型分子进化的意义意味着我们应该期望基因组内的大多数遗传变异将归因于随机力。图1的面板A显示，实际上，来自GWAS的SNP确实表现出与HGDP面板中的SNP总数不同的模式。请注意，GWAS SNP的次要等位基因频率（MAF）的分布有些偏向更高的值。如果GWAS的逻辑是针对“常见变异”的，而这种变异会在人群中足够频繁地产生一种足够强大的效应，以至于研究被赋予样本量，那么偏向于更常见变异（更高的MAF）是可以理解的。

左侧是一些具有低p值的SNP和特征（即，它们偏离了预期，超出了您对随机噪声的预期）。毫不奇怪，他们发现与色素沉着相关的SNP在所有的种群分化和变异测量中都倾向于强烈显示。 rs28777位于 SLC45A2，这是区分欧洲人与非欧洲人的场所。 rs1834640在 SLC24A5，从而将欧洲人+中东人+中亚/南亚人与其他人群区分开来。 rs12913832是与“蓝眼睛”相关的变体。也就是说，它是欧洲人的蓝眼睛和非蓝眼睛颜色差异相关的标志之一。

鉴于色素沉着是目前技术已充分阐明的少数几个特征之一，应该预料到，旨在检测种群内和种群内遗传变异的更微妙和彻底的方法应首先偶然发现这些标记。作者指出，“与SNP相关的SNP和研究组 色素沉着和免疫学特征占我们分析中有意义的大部分。” 长期以来一直在寻找色素沉着和疾病相关基因座周围的选择特征的趋势。

在低p值的模式中从地理上也很明显的一种模式是欧亚群体趋于富集的趋势。如图2所示。GWAS研究中的大多数SNP均来自欧洲的研究人群。因此，在评估的SNP集合中可能存在偏差，这对欧洲人和相关人群特别有用。此外，欧亚人离开祖传非洲环境时可能受到不同的选择压力约150-50,000年BP在任何情况下，出于医学分析的目的，作者的确发现使用东亚人群的SNP产生了一些不同结果要比使用欧洲人群的结果好。尽管一些研究表明SNP在人群中具有广泛的适用性，但是毫无疑问，非欧洲人群中的许多变异都没有被发现，因为GWAS研究并不特别针对非欧洲人群。考虑：

…然而，我们的结果表明，GWAS中与色素沉着相关的SNP几乎在欧洲，中东和中亚地区都显示出异常的等位基因频率模式。这向我们表明，可能存在SNP，可能在除 SLC45A2，IRF4，TYR，SLC24A4，HERC2，MC1R， 和 知识产权协会，与非欧亚人口的色素沉着有关，但尚未被GWAS识别。需要使用非欧洲受试者进行的针对色素沉着性状的GWAS，以进一步探索这种可能性。

人们发现，在HGDP人群中，有两种主要的特征/疾病类别也有系统地不同：

–与高血压相关的变异似乎随着纬度的降低而降低

–传染性和自身免疫性疾病SNPs得分较高。具体来说，与欧洲人相关的一些与HIV相关的SNP似乎具有抗药性

第一组特征自然会来自GWAS衍生的SNP，因为如此大量的医学研究已开始识别风险，治疗高血压和其他循环系统疾病。一致的模式，其中 地理而不是祖先预测变化 是外生选择压力的绝佳证明。地球的物理性质使得随着哺乳动物从赤道扩散开来，它们的体形将因不同的生态参数集而发生变化。西伯利亚人口有适应冷压力，而且在身体形态上似乎存在一致的跨类群转移，以使哺乳动物之间的热辐射最大化或最小化。

在第二种情况下，您对疾病再次产生抵抗力，以及多效性，因此遗传变化会产生多种下游后果。通常，这在时间上是同时发生的。考虑驯服的银狐。但是有时您会改变过去，由于不同的选择压力而在后来产生了后续后果。免疫学反应具有多种用途也就不足为奇了，因此，即使欧洲人没有对艾滋病毒产生抗药性作为普遍的选择压力，类似的压力似乎也导致了具有普遍效用的抗药性反应，并且如今已针对艾滋病毒进行了特定用途。选择通常可能是一种钝器，将自身置入具有多种后果的相互作用网络中，同时在最大程度地提高本地适应性的过程中同时重塑许多特征。当您具有以下特质时，这一点最明显镰状细胞病，这仅仅是因为杂合性的适应性优势如此之大。但是毫无疑问，当涉及到许多特征时，副产物更加微妙，或者对我们而言似乎是神秘的。我们仍然不知道为什么雷达在东亚人中被驱使的频率更高（较少的体味和浓密的直发似乎是难以置信的选择目标）。

就像自然选择对基因和性状的协方差的影响可能是直率的和粗鲁的一样，自然选择的放松可能会消除令人窒息的恶习。考虑一下血压的可能性：也许北欧亚人的血压较低的原因是放宽了对与较高值相关的其他相关性状的选择，从而使该特定维度的适应性最大化。同样，非裔美国人的镰状细胞疾病发生率低于其约80％的西非血统，因为没有消除杂合子的地方性疟疾选择压力，这允许从基因库中清除等位基因。

尽管如此，作者的确得出以下结论：

尽管我们采用了广泛的方法，但我们仅发现了可能是对单一选择压力的多基因反应的几个例子。我们确实使用了严格的显着性标准，这可能意味着可以在研究组中找到一些其他示例，这些示例并未完全达到我们的显着性标准。也可能是关于“ GWAS”特征及其潜在遗传的某些东西破坏了我们的方法。

他们对为何无法成功提出了一些建议：
– GWAS变体不是变体的主要来源。可能是拷贝数变体，罕见的大效应变体（“合成”）

–上位性。基因-基因相互作用，将掩盖或混淆变体和性状之间的线性关联

–选择对GWAS SNP的影响小，或者平衡或否定选择

他们完成：

总而言之，我们检查了1,336个CEPH-HGDP人群中的53个与性状相关的SNP，以寻找具有异常等位基因频率模式和iHS分数升高的单个SNP和SNP组。我们与一个相关的SNP或研究组一起确定了13个不同的性状，这些性状在至少一项Δ，Fst，LLC或iHS量度中得分显着提高，占所分析特征总数的一小部分。我们认为，有限的阳性结果可能是由于我们严格的意义标准或性状本身的遗传结构特征所致。 具体来说，尽管积极研究的领域很少见，但稀有变异，上位性和多效性在人类复杂性状中的作用仍未得到很好的理解。 我们的措施对于检测所有作用于GWAS性状的选择类型也不是最佳的。据推测，复杂性状的潜在变异主要受到负选择或平衡选择的影响，这可能不会为我们的测量方法带来极端价值，特别是如果这些力在人群中相对统一或作用于基因组中的许多区域时。

如果对多基因性状的选择性压力如此普遍，那么基因组学家可能会不屑一顾。定量遗传学导论。这些是特征和进化过程，缺乏明显的区别。在许多方面，对正选择和强力推销建模都类似于均衡的经济学。当涉及到受许多基因影响的连续性和定量性状时，必须提出一种不同的思维方式。暂时不再成为停滞之间的标点，而是事物本身。有例如 HLA 在黑猩猩中发现的人类基因，因为宿主和病原体之间永恒的种族关系的性质意味着所有旧的花样都至少在低频时得以保留。人类在智力，身高以及各种其他责任和特征方面的变化，可能一直伴随着我们，并受到众多选择压力的不断冲击。问题是，我们的原始统计方法是否能掌握这个分散但功能强大的网络？

引文： Casto AM和Feldman MW（2011）。人类基因组多样性项目人群中的全基因组关联研究SNP：选择是否会影响具有特质关联的未关联SNP？ PLoS遗传学： 10.1371 / journal.pgen.1001266

• 类别：科学 •标签：基因, 全基因组协会, 基因组学, 人均国内生产总值, 人类进化, 人类遗传学, 人类基因组学, 人类变异, 定量遗传学, 统计遗传学, 统计报表

不是基因组复杂性的起源

拉齐布汗 •27年2010月XNUMX日

•1,600字 • 1 Comment

RSS

在过去的十年中，进化遗传学家迈克林奇一直在阐明一种基因组复杂性模型，该模型依赖于随机因素作为增加基因组大小的主要动力。该论点在 2003纸，并在他的书中进一步阐述基因组架构的起源。论文中有几个移动的部分，其中一些需要对基因组的生物物理结构复杂性，孟德尔遗传作为一个过程的本质以及最后的群体遗传学有一个相当细致的了解。但是该模型的核心很简单： 长期有效种群规模与基因组复杂度之间存在反比关系。 从碱基对和内含子等遗传元件的数量而言，个体数量少〜值大。

快速提醒一下：有效种群数量表示为下一代贡献基因的种群比例。因此，对于在幼虫期死亡率极高的昆虫而言，有效种群数量可能是 数量级 小于在任何给定的一代人中对人生历程的所有阶段进行评估的人口普查规模。相反，与人类相比，更大比例的儿童最终为后代的遗传构成做出了贡献。对于大型生物，我听说您有时可以使用经验法则，即有效人口规模约为人口普查规模的1/3，尽管这可能高估了有效人口规模。繁殖变异减少有效种群的一个原因，因为许多个体对下一代的贡献远少于其他个体。方差越大，给定世代中种群中的几个个体对遗传变异的影响就越大，从而减少了有效种群，而后者又有助于下一代（繁殖变异通常被认为是泊松现象，但这可能被低估了）。另外，存在随时间变化的问题。长期有效种群对低界限值比高界限值更加敏感，因此对于任何经历周期的物种，在任何给定时期，长期有效种群都可能比人口普查规模小得多。例如，在过去的100,000年中，人类的长期有效种群规模相对较小，因为我们似乎已经从少量的初始种群中获得了扩展。从数学上讲，长期有效人口规模由谐波均值毫无疑问，下限值很关键。如果那对您没有意义， 请记住，种群瓶颈可能对物种的长期轨迹产生巨大影响，特别是消除遗传变异。

这如何影响基因组复杂性？基本上，Lynch的论点是，当减少有效人口时，会削弱自然选择的能力，特别是净化选择的能力，从而防止通过随机过程增加非自适应复杂性。不是选择变得毫无意义，而是其信号被噪声淹没了。这是他2003年论文的摘要：

来自不同系统发育谱系的完整基因组序列显示出从原核生物到多细胞真核生物的基因组复杂性显着增加。这些变化包括由于重复基因的保留而导致的基因数量逐渐增加，以及剪接内含子和可移动遗传元件的丰度更加突然地增加。我们认为，许多这些改变是被动响应的，这是对伴随生物体大小增加的长期种群规模减少的反应。根据该模型，真核基因组的许多重组是通过非自适应过程启动的，这反过来又为通过自然选择对表型复杂性进行二次进化提供了新的底物。原核生物的巨大的长期有效种群规模可能对复杂的基因组和形态的进化形成实质性的障碍。

这意味着大量自然种群的原核生物通过更有效的自然选择而偏向较小的基因组。相反，更复杂的生物体具有较小的种群数量，因此受样本方差的影响而受到一代又一代随机波动的影响更大，因此从基因组上讲，这种流线化的方法较少，因为选择只能对付汹涌的噪音。 Lynch的一个引人入胜的论点是，后来基因组复杂性随后在下游有用，成为表型复杂性的基石，但我们暂时将其搁置一旁。

一份新的论文 PLoS遗传学 挑战了Lynch等人对原始数据的统计分析。曾经是他们的理由。从技术上讲，争论在于 N _eu 和基因组大小。 N _e 是有效的人口规模，并且 u 是核苷酸突变率。尽管争论是技术性的，但基本的反对意见应易于理解： Lynch等人还存在其他可能实际上导致相关性的变量。辨别。 到纸上基因漂移是否增加了基因组复杂性？:

不同生物之间的基因组大小（核DNA的数量）差异很大，但不一定与生物复杂性相关。例如，仅草内的基因组大小相差近20倍，但是在基因组学或生理学方面，大型基因组的草种显然不比小型基因组的草种复杂。相反，对基因组大小变异的最新解释主要是由种群大小决定基因组大小的想法主导的：增加基因组大小的突变预计会在小种群物种中漂移到固定，但是在大种群物种中这种突变将被消除，而自然种群选择的效率更高。但是，以前的分析的推论是有限的，因为它们无法识别物种具有进化史，因此不一定在统计上是独立的。我们的分析采用系统发育学的观点，与以往的研究相反，没有发现证据表明基因组大小或其任何组成部分（例如，转座子数，内含子数）与种群大小有关。 我们认为基因组大小的进化不太可能由诸如种群大小之类的单一因素很好地解释。

林奇图2 在Lynch等人的原始分析中。大约66％的基因组大小变异是由 N _eu！那是一个很大的影响。图1说明了系统发育如何在建立关系中造成混淆。以下是一些解释该图的文字：

在该假设示例中，已测量了八个性状的两个性状x和y，如系统发育树（A）尖端处的值对所指示。普通最小二乘线性回归（OLS）表示统计上显着的正相关（B； r-平方= 0.62，P = 0.02），有可能导致x和y之间存在正进化联系。但是，对散点图（B）与物种（A）的系统发育关系的关系的检查表明，对于两个主要谱系中的每一个，四种物种的x和y之间的关联为负。通过具有系统发育独立对比的原点回归…相当于系统发生广义最小二乘（PGLS）分析，解释了物种的非独立性，并表明性状之间没有整体进化关系…物种间的明显模式是由正相关的性状变化驱动的仅在系统发育的基础分裂时；在整个系统发育的其余部分中，性状大多朝相反的方向变化（A；红色为基础对比）…。

当时的论点似乎是林奇最初作品中的关系是人工制品，这是由于他调查推断该关系的物种的进化史所致。您所拥有的不是一般的原则或法律，而是偶然的历史过程的结果。不是很干净整洁。您可以从1年的论文（图2003）中看到这种关系的类群性质。科学:

se4532044001

好的，现在让我们看一下本文中相同数据集的可视化效果，就像一棵树来说明相关性：

林奇图3

林奇图5 最后一张图显示了使用常规OLS回归的散点图与系统发育最小二乘模型（PGLS）之间的差异。您从一个明显的线性关系转变为基本上没有任何东西（r平方接近零，无统计学意义），该线性关系转化为上述高r平方。

论文本身并不长，反对很简单。他们只是声称Lynch没有纠正明显的替代性解释/混淆，而且我们不知道我们以为自己知道什么。另外，有一种说法认为，有效种群大小可以强有力地预测基因组大小的观点正在成为科学界的常规知识。我不知道这一点，这似乎是一个不断变化的年轻领域，我认为他们夸大了这种假设的广泛性，以使其反驳的力量变得更加关键。当然，基因组大小的模式可能非常令人困惑，但我的直觉是，由一个预测变量解释的基因组大小变化的2/3的r平方相当惊人。显然，在“后基因组时代”，基因组的大小非常容易获得，但是 N _e 和 u 对于许多分类单元而言，甚至对于一组感兴趣的物种而言，甚至在给定的分类单元中都很难实现。对我来说，这对实验进化论者来说是一个机会，他们可以控制这些混杂因素，并观察其谱系中的变化。即使 N _eu 可预测所有事物受控制为独立变量， 如果通常不控制所有事情，并且系统发生历史的随机行为更为重要，该怎么办？ 迈克·林奇（Mike Lynch）的功劳得到了肯定，所以我认为不久的将来我们会收到他的回应。

引文： Whitney KD和Garland T Jr（2010）。基因漂移是否增加了基因组复杂性？ PLoS遗传学： 10.1371 / journal.pgen.1001080

• 类别：科学 •标签：进化, 进化遗传学, 进化基因组学, 基因, 基因组复杂度, 基因组学, 迈克林奇, 统计遗传学

整个档案中的“统计遗传学”项目