Unz评论•另类媒体选择$
美国主流媒体大都排除了有趣,重要和有争议的观点
通过电子邮件将此页面发送给其他人

 记住我的信息



=>
作者 筛选?
拉齐布汗
没有发现
 玩笑基因表达博客
/
结构

书签 全部切换变革理论添加到图书馆从图书馆中删除 • B
显示评论下一个新评论下一个新回复了解更多
回复同意/不同意/等等 更多... This Commenter This Thread Hide Thread Display All Comments
同意不同意谢谢LOL轮唱
这些按钮可将您的公开协议,异议,感谢,LOL或巨魔与所选注释一起注册。 仅对最近使用“记住我的信息”复选框保存姓名和电子邮件的频繁评论者可用,并且在任何八个小时的时间内也只能使用三次。
忽略评论者 关注评论者

Rosenberg_1048people_993标记 最近有一位朋友发电子邮件询问在推断结构时选择合适的“ K”值的最佳方法。 K 只是定义您模型中有多少假定祖先种群来解释一些遗传变异数据的参数。 显然有一些价值 K 比其他人口史信息更丰富。

例如,如果您有100个瑞典人和100个约鲁巴尼日利亚人,则可以选择人口结构模型 K = 2或 K =50。在后一种情况下,该算法会产生结果,但是您“知道” 先验 那真的 K 从简单易懂的意义上讲,= 2是一个非常好的人口历史模型。 从这类数据中可以用许多聚类方法榨取的汁液并没有太多。

但是,当您拥有生物体中的种群结构时,这将变得更加困难,除了遗传数据之外,我们对这些生物知之甚少。 一个人如何“客观地”选择一个 K。 最常见的方法概述于2005年的一篇论文中, 使用软件结构检测个体的簇数:模拟研究:

在人群遗传学中​​,鉴定具有遗传同质性的个体群体是一个长期存在的问题。 在软件结构中实现的最新贝叶斯算法允许识别这些组。 但是,尚未测试该算法在人群中的分散模式不均匀时检测个体样本中群集的真实数目(K)的能力。 这项研究的目标是使用基于个人模型生成的数据的各种分散场景进行此类测试。 我们发现,在大多数情况下,估计的“数据对数概率”不能提供对簇数K的正确估计。但是,使用基于连续两次之间数据对数概率变化率的临时统计量ΔK K值,我们发现针对我们测试的场景,结构可以准确地检测出结构的最高层次结构。 可以预期,结果对所使用的遗传标记的类型(AFLP与微卫星),得分的位点数量,抽样的种群数量以及在每个样本中键入的个体数量敏感。

有句老话:“垃圾进,垃圾进。” 方法 ΔK 尽可能有用,但作为输入,它会从“结构”程序中获取对数似然率。 对于外加剂,您可以看一下 交叉验证。 但是,这些统计数据受各种假设和近似的影响(此外,聚类算法中的某些先验条件是总的简化)。

这是我很兴奋的原因之一 估计结构化人口中的亚群(K)数量:

结构化种群分析中的一个关键数量是参数K,它描述了构成总种群的亚种群数量。 理想情况下,通过模型证据进行K的推断,这与模型的可能性相等。 但是,通常无法准确地计算出支持K特定值的证据,而是使用诸如Structure之类的程序来利用启发式估计器来近似该数量。 我们证明-使用足够小的模拟数据集可以准确地计算出真实证据-这些启发式方法常常无法估计出真实证据,并且这可能导致关于K的错误结论。估计模型证据。 在概述了TI方法之后,我们使用一系列模拟数据集证明了这种方法的有效性。 我们发现TI可用于获得比基于启发式方法的模型证据更准确,更精确的模型证据估计。 此外,发现基于这些值的K估计比基于一组模型比较统计数据的K估计更可靠。 最后,我们在重新分析白脚鼠标数据集时测试了我们的解决方案。 TI方法已在软件MavericK1.0中针对具有和不具有混合功能的模型实现。

MavericK 1.0的网站 如果您没有学术访问权限,则可以提供很多信息。

不幸的是,这种方法可能并不奇怪 无法扩展到基因组数据集。 例如,他们正在寻找10、20或50个基因座。 一个“适度”的人类基因分型阵列将为您提供数以万计的基因座(SNP)。 “标准”阵列将为您提供约500,000个SNP。

但是,本文的结论值得牢记:

最后,重要的是要记住,在考虑人口结构时,我们不应过分强调K的任何单个值。诸如Structure和MavericK之类的程序所使用的简单模型是现实生活中高度理想化的动画片,并且因此,我们不能指望基于模型的推理结果能够完美反映真实的人口结构(请参见Waples和Gaggiotti 2006中的讨论)。 因此,尽管TI可以帮助确保我们的结果在特定演化模型上在统计上是有效的,但它无法做任何事情来确保演化模型适合于数据。 同样,尽管有表2中的结果,我们也不主张使用模型证据(通过TI或任何其他方法估算)作为选择K的“最佳”值的一种方法。上下文是可以用来获得K的完整后验分布,它比任何单点估计都具有更多信息。 例如,通过对K的分布进行平均(以证据加权),我们可以在不限制单个种群结构的情况下获得具有生物学意义的参数(例如混合参数a)的估计值。 尽管K的一个值很可能是后验的,但一般而言,一个合理的值范围是合理的,我们在得出结论时应考虑所有这些可能性。

阿门!

 
• 类别: 科学 •标签: K, 结构 

杀手级色彩计划 最近,丹尼尔·法鲁什(Daniel Falush)的小组提出了预印本, 关于如何(不)过度解释STRUCTURE / ADMIXTURE条形图的教程。 如果您阅读了该博客上的科学文章(基本上,如果您阅读了此博客),而您还没有阅读, 现在阅读。

在他的网志上 画我的染色体,Falush谈到了预印本的制作(我起了次要的刺激作用),以及试图将其出版到某处的尝试。 这个反应对我来说很奇怪:

我们也收到了eLife的第一个日记拒绝。 实时发布拒绝日志不是我的习惯,也不打算从现在开始。 我本人是期刊编辑,因此认为将其转变为公开表演不会对这一过程有所帮助。 我很失望,因为eLife声称要坚持更高的标准,试图通过根据论文的真实价值而不是简单的影响力来评判论文,从而改变出版物,并且因为给出的理由很愚蠢:

“ ..但认为目标受众是相当专业的人群。”

当然我有偏见。 但这使我感到疯狂。 该杂志历史上第三被引用最多的论文 基因,是乔纳森·普里查德(Jonathan Pritchard)的 利用多基因座基因型数据推断种群结构。 拿一个 看清单,并注意比其他论文被引用更多的论文(例如,1931年的Sewall Wright论文和Tajima的1989年论文!)。

为了确定, 一篇论文被引用的次数不能很好地衡量其阅读和理解的频率。 这就是Falush的预印本的重点,实际上是为那些以交钥匙方式使用基于模型的聚类的人们提供了一些指导,而又没有对它的局限性和偏见有任何深入的了解。 人口结构推断的具体细节可能是专门的,但是结构分析是许多不同类型论文的常规部分,尤其是在医学遗传学中,变体在不同的遗传背景中可能具有不同的作用。

 
• 类别: 科学 •标签: 结构 

几周前,人们在争论基于模型的聚类程序包的实用性,该程序包会生成直观的条形图,从而分解个人和人口百分比。 要了解这些软件包的基本基础,我将带您参考原始 Pritchard等。 纸。 您可能已经知道,软件包的主要参数之一就是K值,它是指将被视为遗传变异组成部分的种群数量。 一个关键点是,使用这些软件包的人员正在迫使该版本适应特定的模型。 您可以拿冰岛人的数据作为例子,找到K =100。这将产生结果,但是我怀疑您会直觉这在拟合现实方面确实不是最佳模型。 同样,您可以对北欧人,西非人和东亚人进行抽样,并将K设置为2。这将使欧亚人与非洲人分开,因为这是自然的系统发育亲和力。 但是K = 3可能更适合该数据。 我的意思是说北欧人和东亚人不是,也没有去过 长时间,随机交配种群。 K = 3反映了这一现实。

到目前为止,这很直观。 有没有正式的方法来检查这一点? 是的。 各种。 结构输出每个K的对数似然度。混合会给您交叉验证错误。 要全面了解Admixture如何估算交叉验证错误,请参见 亚历山大等。 思考如何解释这些价值的一种直观方法是 它们使您了解要从数据集中挤出太多K的位置。 Admixture的交叉验证值有一个简单的解释,请寻找图上的最低点。

回到HGDP数据集,我想知道K的规模在哪里。 望着 人口 我假设大于5,但可能小于20。这个范围很广,可以告诉您我的直觉并不好(一些不同的人群很难合并到汇总的数据集中,因为时间不多了因为存在分歧,或者他们不是真正的基因分离群体)。


我做的第一件事是在质量方面准备HGDP数据 砰砰。 我筛选出次要等位基因频率大于0.05的SNP,以获得可能在种群间规模上具有参考价值的变体。 然后,我删除了超过1%的个体中缺失的SNP。 最后,我还对LD修剪了SNP(基本上是对标记进行了细化,以使我摆脱了由于它们靠近其他SNP而没有添加更多信息的变体)。 此外,我还删除了与数据集中的其他人非常相关的个人。 这产生了1,024个个体和116,840个SNP的数据集。

然后,我运行了Admixture 20次,并从K = 2到K = 20进行了默认的五重交叉验证。这是一个散点图的结果:

错误大

您看不到某些点,因为在较低的K处,误差的变化很小。 显然,几个K不能准确地捕获HGDP数据集中的变化。 换句话说,HGDP数据集中没有四个不同的随机交配种群(K = 4)。

这是放大图。

错误缩放

这些结果清楚地表明,在区间K = 11至K = 16处存在一个“谷”,交叉验证误差的平均值在K = 16时最低。不仅K = 16的交叉验证误差最低,而且在以下范围内K = 4时,交叉验证误差的变化也最小。 这并不意味着有16个自然种群最能定义世界的遗传变异。 为什么不是这样,我将带您到Daniel Falush的帖子 我们从Rosenberg等人那里学到了什么。 实际上是2002年?,突出显示了基于结构的模型的聚类的其他一些主要依赖性。

但是,一个补充点是 数据中K的数量为 不能 任意和主观的。 那是因为人类遗传变异在许多形式的虚拟化和推断中始终展现出地理结构。 我还想补充一点,第二点是,新一代的人口结构推断方法论指出了以下可能性: 人类遗传变异并没有通过沿梯度梯度的距离动态隔离而出现。

附录: 我正在合并我的20个跑步,从K = 16开始。但这需要时间。 我还使用不同的数据集运行K = 2到K = 20,该数据集扩展到HGDP之外,具有20个重复项。

 
• 类别: 科学 •标签: 基因组学, 人均国内生产总值, 种族, 结构 

Pritchard,Jonathan K.,Matthew Stephens和Peter Donnelly。 “使用多基因座基因型数据推断种群结构。” 遗传学155.2(2000):945-959。

在那之前 结构 只是 结构体。 我的意思是 人口子结构一直如此。 问题是,作为人类,我们将如何以赋予某种智慧和启发的方式来表征和形象化它。 我们可以评估种群子结构的一种简单方式是可视化个体或种群之间的遗传距离。 二维图。 另一个很流行的方式是在一个物体上表示距离 邻居加入树,如左图所示。 如您所见,这并不总是令人满意的: 提示过多的茂密树木通常几乎无法解释,只是最琐碎的推论 (尽管它们的羽毛状拓扑具有美感!)。 并且,在诸如相邻树和MDS图等图形表示消除了太多相关信息的情况下,混乱的F ST矩阵有相反的问题。 所有距离数据都有其详尽的细节,但几乎没有 格式塔 理解。

Rosenberg,Noah A.等人。 “人口的遗传结构。” 科学298.5602(2002):2381-2385。

进入这个混乱的世界 结构 条形图。 当我说 ”结构 柱状图”,在2013年,我真的是指许多基于模型的聚类系统进化包。 因为速度更快,我更喜欢 混合物。但是品牌对其自身难以衡量的部分,无法做出有效提升 混合物 实际上只是对游戏基本规则的一种扭曲 结构 放。 您在右边看到的是漂亮的条形图之一,在过去的五年甚至更长的时间里,这些条形图定期出现在此博客中。 我已经重复了他们的工作,但这并不意味着, 广告恶心,尽管重复自己也没有什么害处。 您所看到的是一系列人口中的个体如何在K ​​= 6时震动。更具体地说,假设您的个体池可以看作是六个祖先人口的各种比例的混合体。 每条线都是一条单独的线,每条线和特定颜色的比例阴影表示特定的K(对于K = 6,人口1、2、3、4、5、6)。

我应该在此提醒您,这并不意味着这些人实际上是六个祖先群体的组合。 当您考虑它时,这是常识。 仅仅因为有人用给定的K生成条形图,但这并不意味着该条形图有意义。 例如,我可以设置K = 666。 结果将完全没有价值(甚至是邪恶的!),但它们将是结果,因为如果您放入垃圾,该算法将产生某些东西(垃圾)。 这就是为什么我说人口结构是具体的 难以言喻的。 我们知道,这是我们可以直观理解的真实历史的结果。 但是,如何为我们的视觉表现力和定量精度生成该结构的图却更加困难和滑溜。

要真正了解正在发生的事情,回顾提出的原始论文可能会很有用。 结构, 利用多基因座基因型数据推断种群结构。 尽管有后续行动,但该初始发行版中列出了该套件的胆量。 基本上,您有一些数据,多基因座基因型。 自从 结构 该技术于2000年首次亮相,当时它还没有成千上万个位置的SNP芯片数据时代。 今天,术语“多基因座”听起来几乎很古朴。 在2000年,古典常染色体时代正在逐渐消退,但人们仍然使用 RFLP s,不是。 这证明了该框架的健壮性。 结构 它顺利过渡到海量数据集的时代。 大致来说, 结构 是经验基因型数据,关于种群动态的形式假设,以及用于在前两个前两个元素之间进行映射的强大计算技术。 用纸的语言你有 X,个体的基因型, Z,人口和 P,群体的等位基因频率。 它们是多维向量。 这在这里并不重要,因为您只有 X。 真正的咕unt作 结构 正在生成向量, Q, 它定义了祖先人口对每个人的贡献。 这是通过 MCMC,它探讨了给定数据的概率空间以及烘焙到包装蛋糕中的先验条件。 尽管有些人似乎将MCMC的细节视作黑匣子,但是当您想从默认设置转变时,实际上对它的工作原理有一些直觉通常会很有用(确实有人在运行 结构 谁不清楚烙印到底是什么)。 最终的结果是,在结构化人群中,基因型不存在。 哈迪-温伯格平衡. 结构 正在尝试找到一种解决方案,这将导致HWE中的人口增多。

这使我们想到了如何理解结果以及选择哪个K的问题。 如果你跑 结构 您可能正在遍历许多K值,并多次重复迭代。 您可能必须合并输出以进行复制,因为它们将使用不同的输出而有所不同。 算法。 但是无论如何 每次迭代都会产生一个可能性 (这是从给定K值的数据的概率中得出的)。 “选择”适当的K的最直观的方法是简单地等待,直到可能性开始趋于平稳。 这意味着该算法无法将更多信息量的果汁榨取到K值。*这似乎很枯燥乏味, 但这确实带给您真正的理由,为什么您不应该在深度上将任何给定的K视为自然或实数。 K的选择与现实关系不大,而与工具性息息相关。 例如,如果您的目标是在世界范围内的人口中检测非洲人血统,那么即使K值越高,模型拟合越好(KMC值越高,通常花费的时间越长),K值就足够了。 相反,如果您想辨别更精细的人口群,则明智的做法是,将K信息最多,无论需要多长时间。

今天,基于模型的聚类 结构, 罢工混合物 是人口遗传工具包背景家具的一部分。 现在在块上有更新的方法。 像这样的包 混合树 使用等位基因频率将过时的系统进化图转换成更具信息量的图集。 其他 框架 不依赖于一个位点之后的独立信息位点,而是吸收了基因座上的模式,从而在单个基因组内生成祖先。 尽管可以从中推断出一些历史信息 结构,这通常是一个特殊的过程,类似于阅读茶叶。 连锁不平衡方法的优势在于,它们可以明确地探索基因组中的历史过程。 但话虽如此, 结构 酒吧的情节革命引起了巨大的变化,曾经奇妙的事物变得平淡无奇.

*专案 三角洲K 统计资料也很受欢迎。 它结合了可能性的变化率和重复运行之间的变化。

 
• 类别: 科学 •标签: 人类学, 基因组学, 人口子结构, 结构 
拉齐布汗
关于拉齐卜·汗

“我拥有生物学和生物化学学位,对遗传学,历史和哲学充满热情,虾是我最喜欢的食物。如果您想了解更多信息,请访问http://www.razib.com上的链接”