-Unz评论

拉齐布汗 •2年2011月XNUMX日

•1,000字 • 5 Comments

我一直在运行非洲祖先计划现在有一段时间在 Facebook 上。但它变得笨拙，所以我终于设置了官网. 我启动它的主要原因是一段时间以来一直有人抱怨 23andMe“祖先绘画”等一些非洲群体的问题。例如，努比亚人可能 70% 是“欧洲人”。有人可能会争辩说，这是由于阿拉伯混合所致，但如果您查看 PCA 图，显然并非如此。这是怎么回事？可能是参考种群的问题（非洲只有约鲁巴语），芯片中的确定偏差（它们已调整为欧洲变异），以及非洲遗传变异可能导致一些问题的事实。我不知道。但是这个问题一直存在，而且由于大多数其他基因组博客项目都将非洲人排除在外，因为他们的基因非常多样化，我决定接受它。

三组人提交了：

– 新世界的非洲侨民

– 来自非洲的人，不成比例的东北非人（非洲之角 + 努比亚等）

– 一些疑似或已知的非洲血统的次要组成部分的人

我现在大约有 70 名参与者。作为一个参考人群集，我一直在使用 Henn等。以及一些来自 Behar等。我称之为我的“瘦”集，因为只有大约 40,000 个 SNP。 “厚”集大约有 300-400 万个标记。但人口较少。我一直让 AAP 成员通过 ADMIXTURE 以 10 为一组，但有时我也会将它们一起运行以进行逐个比较。昨天我从 K = 001 到 K = 070 运行 AF2 到 AF14，无监督，使用细参考。如果您想查看所有结果，去这里. 自己一遍又一遍地做这一切让我对这种分析中的陷阱有了一些直觉。尤其是在确认偏差方面。

这就是它发生的方式。假设您有来自数十个种群和数十万个标记的许多个体。显然，您可以稍微调整参数。个体数量、不同种群的权重以及标记集的厚度。有一个实际的理由让你的标记集更薄， 算法运行得更快. 但是随着标记数量的减少，结果变得更加嘈杂。当您查看个人结果而不是总体汇总结果时，这一点很明显。改变人口集也很重要。如果您的样本包含 75 个约鲁巴语和 25 个德鲁兹语与 50 个约鲁巴语和 50 个德鲁兹语，那么在相同数量的 K 上可能会产生不同的结果。最后，显然减少个体数量会导致代表性问题。这里的结果在人口层面变得“嘈杂”，因为区域偏见会扭曲您对特定人口的看法。

这如何与确认偏差一起工作？ 如果您正在主动搜索与特定模型或预期相符的模式，您通常可以简单地调整参数，直到获得“合理”的结果。 多重回归会出现完全相同的问题。这不需要是有意识的。在常规科学工作者的过程中，经常忽略异常结果而寻找积极的结果。我们谈论的是普遍的人类偏见。众所周知，研究人员会进行实验并不断调整它们，直到 p 值达到统计显着性为止。首先，这将 p 值视为“神奇”数字。这确实不是应该如何看待它，但这就是它在试图发表的过程中的表现。其次，p 值本身也会发生变化，这就是为什么一遍又一遍地运行实验可以获得“正确”结果的原因。使用 ADMIXTURE 可能会出现相同的一般问题。如果您有一台专用计算机，您可以继续使用一系列参数运行算法，直到获得“合理”的结果。您还可能会看到奇怪的结果，并且会因为程序表现不佳而立即将它们排除在外。我自己做过。但谁知道，也许一些“奇怪”的结果是偶然发现了一个新的见解？

我不是在做一个后现代主义的纯粹建构主义的论点。这些算法通常会给出可预测的规则结果。一些寻求的结果比其他的更难实现（即，你必须在池中钓鱼更长时间，直到你最终“咬”）。但是，要非常小心地将一张图表或图形作为任何论点的关键。这包括我正在展示的东西。尝试复制很重要，但时间有限。这就是为什么我鼓励读者一起玩这些程序本身.

说到型号的确认。我想我会做一个小实验。以下是 K = 70 时 AAP 的约 10 名参与者。我没有向您展示参考人群。我会告诉你：

1) 参加人数最多的是新世界非洲侨民后裔

2) 第二个是大多数非非洲血统的人，他们有一些著名的或已知的少数非洲血统

3) 六个多一点的人全部或部分是东北非血统

4）一个人最近有日本血统，另一个人最近有玛雅人血统

5) 少数新世界非洲人起源于加勒比地区。

6）数据集中只有少数西非民族的个体，但他们在那里

首先，看这张图，猜猜看（把它们留在评论中，请不要在确认后通过ID识别谁是什么来破坏他人）：

所有参考图结果在这里. 显式自我识别是点击此处.

• 类别：科学 •标签：混合物, 非洲祖先计划, 基因, 基因组学