如果有人拥有或知道我可以分析的图西族基因型 非洲祖先计划,你能不能给我发电子邮件 Africaancestryproject-at-gmail-dot-com? 我想确定图西人和班图人之间的遗传差异程度,以及图西人的来源是尼罗河还是库什特。
如果有人拥有或知道我可以分析的图西族基因型 非洲祖先计划,你能不能给我发电子邮件 Africaancestryproject-at-gmail-dot-com? 我想确定图西人和班图人之间的遗传差异程度,以及图西人的来源是尼罗河还是库什特。
我一直在运行 非洲祖先计划 现在有一段时间在 Facebook 上。 但它变得笨拙,所以我终于设置了 官网. 我启动它的主要原因是一段时间以来一直有人抱怨 23andMe“祖先绘画”等一些非洲群体的问题。 例如,努比亚人可能 70% 是“欧洲人”。 有人可能会争辩说,这是由于阿拉伯混合所致,但如果您查看 PCA 图,显然并非如此。 这是怎么回事? 可能是参考种群的问题(非洲只有约鲁巴语),芯片中的确定偏差(它们已调整为欧洲变异),以及非洲遗传变异可能导致一些问题的事实。 我不知道。 但是这个问题一直存在,而且由于大多数其他基因组博客项目都将非洲人排除在外,因为他们的基因非常多样化,我决定接受它。
三组人提交了:
– 新世界的非洲侨民
– 来自非洲的人,不成比例的东北非人(非洲之角 + 努比亚等)
– 一些疑似或已知的非洲血统的次要组成部分的人
我现在大约有 70 名参与者。 作为一个参考人群集,我一直在使用 Henn等。 以及一些来自 Behar等。 我称之为我的“瘦”集,因为只有大约 40,000 个 SNP。 “厚”集大约有 300-400 万个标记。 但人口较少。 我一直让 AAP 成员通过 ADMIXTURE 以 10 为一组,但有时我也会将它们一起运行以进行逐个比较。 昨天我从 K = 001 到 K = 070 运行 AF2 到 AF14,无监督,使用细参考。 如果您想查看所有结果, 去这里. 自己一遍又一遍地做这一切让我对这种分析中的陷阱有了一些直觉。 尤其是在确认偏差方面。
这如何与确认偏差一起工作? 如果您正在主动搜索与特定模型或预期相符的模式,您通常可以简单地调整参数,直到获得“合理”的结果。 多重回归会出现完全相同的问题。 这不需要是有意识的。 在常规科学工作者的过程中,经常忽略异常结果而寻找积极的结果。 我们谈论的是普遍的人类偏见。 众所周知,研究人员会进行实验并不断调整它们,直到 p 值达到统计显着性为止。 首先,这将 p 值视为“神奇”数字。 这确实不是应该如何看待它,但这就是它在试图发表的过程中的表现。 其次,p 值本身也会发生变化,这就是为什么一遍又一遍地运行实验可以获得“正确”结果的原因。 使用 ADMIXTURE 可能会出现相同的一般问题。 如果您有一台专用计算机,您可以继续使用一系列参数运行算法,直到获得“合理”的结果。 您还可能会看到奇怪的结果,并且会因为程序表现不佳而立即将它们排除在外。 我自己做过。 但谁知道,也许一些“奇怪”的结果是偶然发现了一个新的见解?
我不是在做一个后现代主义的纯粹建构主义的论点。 这些算法通常会给出可预测的规则结果。 一些寻求的结果比其他的更难实现(即,你必须在池中钓鱼更长时间,直到你最终“咬”)。 但是,要非常小心地将一张图表或图形作为任何论点的关键。 这包括我正在展示的东西。 尝试复制很重要,但时间有限。 这就是为什么我鼓励读者一起玩 这些程序本身.
说到型号的确认。 我想我会做一个小实验。 以下是 K = 70 时 AAP 的约 10 名参与者。我没有向您展示参考人群。 我会告诉你:
1) 参加人数最多的是新世界非洲侨民后裔
2) 第二个是大多数非非洲血统的人,他们有一些著名的或已知的少数非洲血统
3) 六个多一点的人全部或部分是东北非血统
4)一个人最近有日本血统,另一个人最近有玛雅人血统
5) 少数新世界非洲人起源于加勒比地区。
6)数据集中只有少数西非民族的个体,但他们在那里
首先,看这张图,猜猜看(把它们留在评论中,请不要在确认后通过ID识别谁是什么来破坏他人):