Unz评论•另类媒体选择$
美国主流媒体大都排除了有趣,重要和有争议的观点
通过电子邮件将此页面发送给其他人

 记住我的信息



=>
作者 筛选?
拉齐布汗
没有发现
 玩笑基因表达博客
/
非洲祖先计划

书签 全部切换总目录添加到图书馆从图书馆中删除 • B
显示评论下一个新评论下一个新回复了解更多
回复同意/不同意/等等 更多... This Commenter This Thread Hide Thread Display All Comments
同意不同意谢谢LOL轮唱
这些按钮可将您的公开协议,异议,感谢,LOL或巨魔与所选注释一起注册。 仅对最近使用“记住我的信息”复选框保存姓名和电子邮件的频繁评论者可用,并且在任何八个小时的时间内也只能使用三次。
忽略评论者 关注评论者

如果有人拥有或知道我可以分析的图西族基因型 非洲祖先计划,你能不能给我发电子邮件 Africaancestryproject-at-gmail-dot-com? 我想确定图西人和班图人之间的遗传差异程度,以及图西人的来源是尼罗河还是库什特。

 
• 类别: 科学 •标签: 非洲祖先计划, 基因, 基因组学 

我一直在运行 非洲祖先计划 现在有一段时间在 Facebook 上。 但它变得笨拙,所以我终于设置了 官网. 我启动它的主要原因是一段时间以来一直有人抱怨 23andMe“祖先绘画”等一些非洲群体的问题。 例如,努比亚人可能 70% 是“欧洲人”。 有人可能会争辩说,这是由于阿拉伯混合所致,但如果您查看 PCA 图,显然并非如此。 这是怎么回事? 可能是参考种群的问题(非洲只有约鲁巴语),芯片中的确定偏差(它们已调整为欧洲变异),以及非洲遗传变异可能导致一些问题的事实。 我不知道。 但是这个问题一直存在,而且由于大多数其他基因组博客项目都将非洲人排除在外,因为他们的基因非常多样化,我决定接受它。

三组人提交了:

– 新世界的非洲侨民

– 来自非洲的人,不成比例的东北非人(非洲之角 + 努比亚等)

– 一些疑似或已知的非洲血统的次要组成部分的人

我现在大约有 70 名参与者。 作为一个参考人群集,我一直在使用 Henn等。 以及一些来自 Behar等。 我称之为我的“瘦”集,因为只有大约 40,000 个 SNP。 “厚”集大约有 300-400 万个标记。 但人口较少。 我一直让 AAP 成员通过 ADMIXTURE 以 10 为一组,但有时我也会将它们一起运行以进行逐个比较。 昨天我从 K = 001 到 K = 070 运行 AF2 到 AF14,无监督,使用细参考。 如果您想查看所有结果, 去这里. 自己一遍又一遍地做这一切让我对这种分析中的陷阱有了一些直觉。 尤其是在确认偏差方面。

这就是它发生的方式。 假设您有来自数十个种群和数十万个标记的许多个体。 显然,您可以稍微调整参数。 个体数量、不同种群的权重以及标记集的厚度。 有一个实际的理由让你的标记集更薄, 算法运行得更快. 但是随着标记数量的减少,结果变得更加嘈杂。 当您查看个人结果而不是总体汇总结果时,这一点很明显。 改变人口集也很重要。 如果您的样本包含 75 个约鲁巴语和 25 个德鲁兹语与 50 个约鲁巴语和 50 个德鲁兹语,那么在相同数量的 K 上可能会产生不同的结果。 最后,显然减少个体数量会导致代表性问题。 这里的结果在人口层面变得“嘈杂”,因为区域偏见会扭曲您对特定人口的看法。

这如何与确认偏差一起工作? 如果您正在主动搜索与特定模型或预期相符的模式,您通常可以简单地调整参数,直到获得“合理”的结果。 多重回归会出现完全相同的问题。 这不需要是有意识的。 在常规科学工作者的过程中,经常忽略异常结果而寻找积极的结果。 我们谈论的是普遍的人类偏见。 众所周知,研究人员会进行实验并不断调整它们,直到 p 值达到统计显着性为止。 首先,这将 p 值视为“神奇”数字。 这确实不是应该如何看待它,但这就是它在试图发表的过程中的表现。 其次,p 值本身也会发生变化,这就是为什么一遍又一遍地运行实验可以获得“正确”结果的原因。 使用 ADMIXTURE 可能会出现相同的一般问题。 如果您有一台专用计算机,您可以继续使用一系列参数运行算法,直到获得“合理”的结果。 您还可能会看到奇怪的结果,并且会因为程序表现不佳而立即将它们排除在外。 我自己做过。 但谁知道,也许一些“奇怪”的结果是偶然发现了一个新的见解?

我不是在做一个后现代主义的纯粹建构主义的论点。 这些算法通常会给出可预测的规则结果。 一些寻求的结果比其他的更难实现(即,你必须在池中钓鱼更长时间,直到你最终“咬”)。 但是,要非常小心地将一张图表或图形作为任何论点的关键。 这包括我正在展示的东西。 尝试复制很重要,但时间有限。 这就是为什么我鼓励读者一起玩 这些程序本身.

说到型号的确认。 我想我会做一个小实验。 以下是 K = 70 时 AAP 的约 10 名参与者。我没有向您展示参考人群。 我会告诉你:

1) 参加人数最多的是新世界非洲侨民后裔

2) 第二个是大多数非非洲血统的人,他们有一些著名的或已知的少数非洲血统

3) 六个多一点的人全部或部分是东北非血统

4)一个人最近有日本血统,另一个人最近有玛雅人血统

5) 少数新世界非洲人起源于加勒比地区。

6)数据集中只有少数西非民族的个体,但他们在那里

首先,看这张图,猜猜看(把它们留在评论中,请不要在确认后通过ID识别谁是什么来破坏他人):

所有参考图 结果在这里. 显式自我识别是 点击此处.

 
• 类别: 科学 •标签: 混合物, 非洲祖先计划, 基因, 基因组学 
拉齐布汗
关于拉齐卜·汗

“我拥有生物学和生物化学学位,对遗传学,历史和哲学充满热情,虾是我最喜欢的食物。如果您想了解更多信息,请访问http://www.razib.com上的链接”