最近有一位朋友发电子邮件询问在推断结构时选择合适的“ K”值的最佳方法。 K 只是定义您模型中有多少假定祖先种群来解释一些遗传变异数据的参数。 显然有一些价值 K 比其他人口史信息更丰富。
例如,如果您有100个瑞典人和100个约鲁巴尼日利亚人,则可以选择人口结构模型 K = 2或 K =50。在后一种情况下,该算法会产生结果,但是您“知道” 先验 那真的 K 从简单易懂的意义上讲,= 2是一个非常好的人口历史模型。 从这类数据中可以用许多聚类方法榨取的汁液并没有太多。
但是,当您拥有生物体中的种群结构时,这将变得更加困难,除了遗传数据之外,我们对这些生物知之甚少。 一个人如何“客观地”选择一个 K。 最常见的方法概述于2005年的一篇论文中, 使用软件结构检测个体的簇数:模拟研究:
在人群遗传学中,鉴定具有遗传同质性的个体群体是一个长期存在的问题。 在软件结构中实现的最新贝叶斯算法允许识别这些组。 但是,尚未测试该算法在人群中的分散模式不均匀时检测个体样本中群集的真实数目(K)的能力。 这项研究的目标是使用基于个人模型生成的数据的各种分散场景进行此类测试。 我们发现,在大多数情况下,估计的“数据对数概率”不能提供对簇数K的正确估计。但是,使用基于连续两次之间数据对数概率变化率的临时统计量ΔK K值,我们发现针对我们测试的场景,结构可以准确地检测出结构的最高层次结构。 可以预期,结果对所使用的遗传标记的类型(AFLP与微卫星),得分的位点数量,抽样的种群数量以及在每个样本中键入的个体数量敏感。
有句老话:“垃圾进,垃圾进。” 方法 ΔK 尽可能有用,但作为输入,它会从“结构”程序中获取对数似然率。 对于外加剂,您可以看一下 交叉验证。 但是,这些统计数据受各种假设和近似的影响(此外,聚类算法中的某些先验条件是总的简化)。
这是我很兴奋的原因之一 估计结构化人口中的亚群(K)数量:
结构化种群分析中的一个关键数量是参数K,它描述了构成总种群的亚种群数量。 理想情况下,通过模型证据进行K的推断,这与模型的可能性相等。 但是,通常无法准确地计算出支持K特定值的证据,而是使用诸如Structure之类的程序来利用启发式估计器来近似该数量。 我们证明-使用足够小的模拟数据集可以准确地计算出真实证据-这些启发式方法常常无法估计出真实证据,并且这可能导致关于K的错误结论。估计模型证据。 在概述了TI方法之后,我们使用一系列模拟数据集证明了这种方法的有效性。 我们发现TI可用于获得比基于启发式方法的模型证据更准确,更精确的模型证据估计。 此外,发现基于这些值的K估计比基于一组模型比较统计数据的K估计更可靠。 最后,我们在重新分析白脚鼠标数据集时测试了我们的解决方案。 TI方法已在软件MavericK1.0中针对具有和不具有混合功能的模型实现。
MavericK 1.0的网站 如果您没有学术访问权限,则可以提供很多信息。
不幸的是,这种方法可能并不奇怪 无法扩展到基因组数据集。 例如,他们正在寻找10、20或50个基因座。 一个“适度”的人类基因分型阵列将为您提供数以万计的基因座(SNP)。 “标准”阵列将为您提供约500,000个SNP。
但是,本文的结论值得牢记:
最后,重要的是要记住,在考虑人口结构时,我们不应过分强调K的任何单个值。诸如Structure和MavericK之类的程序所使用的简单模型是现实生活中高度理想化的动画片,并且因此,我们不能指望基于模型的推理结果能够完美反映真实的人口结构(请参见Waples和Gaggiotti 2006中的讨论)。 因此,尽管TI可以帮助确保我们的结果在特定演化模型上在统计上是有效的,但它无法做任何事情来确保演化模型适合于数据。 同样,尽管有表2中的结果,我们也不主张使用模型证据(通过TI或任何其他方法估算)作为选择K的“最佳”值的一种方法。上下文是可以用来获得K的完整后验分布,它比任何单点估计都具有更多信息。 例如,通过对K的分布进行平均(以证据加权),我们可以在不限制单个种群结构的情况下获得具有生物学意义的参数(例如混合参数a)的估计值。 尽管K的一个值很可能是后验的,但一般而言,一个合理的值范围是合理的,我们在得出结论时应考虑所有这些可能性。
阿门!