DIY 人口结构推断，第 1 部分，作者：Razib Khan

DIY 人口结构推断，第 1 部分

拉齐布汗 •13年2011月XNUMX日

•800字 • 10条评论

电邮

打印

RSS

◄►书签◄❌►▲ ▼全部切换变革理论▲▼添加到图书馆从图书馆中删除 • B显示评论下一个新评论下一个新回复了解更多

回复同意/不同意/等等更多... 这个评论者这个线程隐藏线程显示所有评论

同意不同意谢谢LOL轮唱

这些按钮可将您的公开协议，异议，感谢，LOL或巨魔与所选注释一起注册。仅对最近使用“记住我的信息”复选框保存姓名和电子邮件的频繁评论者可用，并且在任何八个小时的时间内也只能使用三次。

电邮评论忽略评论者关注评论者

搜寻文字 区分大小写 确切的词 包括评论

列表书签

如果您已经阅读此博客一段时间了，您会看到许多类似上面的图片。它来自 2008 年的论文从全基因组变异模式推断出的全球人类关系. 数据集来自人类基因组多样性计划. 它由来自世界各地的 52 个团体组成，既具有代表性又具有民族特色。他们使用了 FRAPPE 程序，它与 STRUCTURE 和 ADMIXTURE 一样，从组件的组合中估计个体（以及总体群体中）的祖先，您使用参数 K 指定其数量。换句话说，这是基于模型的。当您对正在寻找的模型有直觉时，它的效果非常好。想象一下非裔美国人，你可以假设他们是两个不同祖先群体之间的双向混合体。它在其他情况下效果不佳。例如，南亚人被 23andMe 建模为欧洲人和东亚人的双向混合体。 为什么 这是完全可以理解的；他们有三个（中国人 + 日本人 = 一个）参考人群，这些人群与南亚人非常不同。因此，虽然笨拙但速度很快的计算机，可以简单地从施加在其上的奇怪约束中得出可能的最佳推理。垃圾进垃圾出。

但是，与 PCA 一起，这些允许将数百个个体的数十万个标记之间的差异可视化的算法非常有用（尽管也许有精神我们中间不需要这种技术）。您只需要谨慎使用它们。信息可能是免费的，但可能会被误解！

在我写博客的这些年里，人们经常问这样的问题：“东非人与西非人还是南非人的关系更密切？” 他们很容易回答， 我只会看文献。 但是，这确实需要时间，我必须选择合适的数字，寻找第一时间，等等。但这种情况正在改变。

自然片 “基因组博主的兴起” 覆盖了变化。从去年秋天开始 BGA 和多德卡德一直在网上倾销很多条形图和 PCA。我现在没有寻找论文，而是开始将这些网站用作我的首选资源（因为它们已被 Google 很好地索引）。现在与行动计划你有另一个信息来源。已经到了技术能力强的地步评论者现在提交他们自己的结果！

我们已经走了很长一段路。学者们对信息并不吝啬，我的一些最好的朋友一直是数据和结果的看门人。但现在你可以找到 data 在卷筒纸容易地。你可以重新处理自己的数据。而且，你可以做分析你自己.

我已经坐了一段时间，让 Dienekes、Zack 等做他们的事。那里有很多技术流利的人，我很享受仅仅消耗原始信息产量。 但这在今天结束。 在过去的一周里，我一直在拼凑一些 R 函数，以便我可以更轻松地生成各种 K 和 PCA 的条形图。我的目标是这样的： 一位读者提出一个问题，我迅速适当地约束我的数据集并进行分析，截取屏幕截图，并将它们上传到这里的服务器，并将它们指向评论中的图像。 主要的限制应该是计算资源（ADMIXTURE 可能需要几个小时）。是的，这就是我们所处的位置。

我会时不时地发布一篇关于 ADMIXTURE 条形图或 MDS/PCA 的帖子。部分原因是它对我以后的参考很有用。其次，我认为幻灯片放映显示视图对于获得完形对正在发生的事情的感觉。这就是我们要追求的：人类的理解力。下面是我的第一个幻灯片，从 K = 2 到 K = 16。也就是说，模型假设了 XNUMX 到 XNUMX 个祖先种群。我还从数据集中排除了撒哈拉以南非洲人，因为他们非常多样化。以下是详细信息：

– 约 55,000 个标记
– 所有非非洲 HGDP 人口
– HapMap 托斯卡纳人 + 古吉拉特人（以及一些来自 23andMe 的美国白人）
– 孟加拉语 = 我的父母，N = 2？

我删除了一些条形图，因为它们看起来多余：

-马克拉尼
-美拉尼西亚语
-美国白人（这些是我从 23andMe 收到的数据的六个朋友）
- 意大利北部
-哥伦比亚人
-卡里蒂亚娜

请注意，这些人口根本没有显示。他们的方差仍然用于生成结果！

关于条形图，我没有输出图例。其他地方有很多标记祖先分数的方法，这很有用，但我认为人们接受颜色而不要对其含义有任何偏见也很重要。不过，我已经在一些幻灯片中添加了文字，如果您愿意，可以在底部看到。我为某些颜色的花哨而道歉......我在紫色暴力范围内有一些色盲元素，这是值得的。

[zenphotopress相册= 263排序=排序顺序号= 15]

（从重新发布探索/ GNXP 经作者或代表的许可）

• 类别：科学 •标签：混合物, 数据分析, 基因, 基因组学, 个人基因组学

隐藏10条评论发表评论

“DIY 人口结构推断，第 1 部分”
• 10条评论

忽略评论者...跟随仅认可

修剪评论？

奥托·克纳说： • 您的网站
14年2011月12日，格林尼治标准时间凌晨41:XNUMX •100字
看起来在 K = 8 中发生的主要事情是 Maya 记录将自己与 Pima 区分开来，但独特的 Maya 组件（粉红色）对 Maya 总数的贡献小于它们与 Pima 共享的组件（绿松石）。这是否意味着在遥远的过去被北方人边缘化的中美洲基板人口？ K = 7 中的浅蓝色/深蓝色是否对中东意味着同样的事情？
短发说：
14年2011月2日，格林尼治标准时间凌晨50:XNUMX
这太酷了，Razib。我想知道是否可以将这些呈现为一系列小饼图或地图上的其他内容。上面有几个我什至不认识的名字，更不用说在世界地图上的位置了……

欢呼声，
——鲍勃
拉齐布汗说： • 您的网站
14年2011月3日，格林尼治标准时间凌晨08:XNUMX
#2，是的，我会在某个时候更熟悉 R 的映射函数。最终，我想做渐变。
贾斯汀·詹科拉说：
14年2011月11日，格林尼治标准时间凌晨03:XNUMX
我认为这可能会引发癫痫！ ......真的哇......我确实认为饼图更容易消化！ …… :/
短发说：
14年2011月4日，格林尼治标准时间下午41:XNUMX •100字
嗨贾斯汀，

好吧，对我来说不是真的：我认为这些条形图可能比饼图更好。即使作为初学者，我也可以滚动浏览序列并在那里看到有趣的结构。

我主要抱怨的是，由于我对民族和地理的无知，将它们放在地图上会使该结构融入上下文。我只是不确定条形图是否适合地图，而小圆饼图则适合。

欢呼声，
——鲍勃
法语读者说：
14年2011月5日，格林尼治标准时间下午49:XNUMX •100字
着色有某种规范还是完全随机？

巴布亚语中的模态元素首先是蓝色，然后是红色，然后是黄色，然后是绿色，然后是粉红色，然后是某种黄绿色。我选择这个例子是因为它是最简单的，但对于其他人群，我发现很难跟踪什么是什么。
拉齐布汗说： • 您的网站
14年2011月8日，格林尼治标准时间下午59:XNUMX •100字
着色有某种规范还是完全随机？
巴布亚语中的模态元素首先是蓝色，然后是红色，然后是黄色，然后是绿色，然后是粉红色，然后是某种黄绿色。我选择这个例子是因为它是最简单的，但对于其他人群，我发现很难跟踪什么是什么。

是的。但我认为应该是这样。你想看什么关系人群之间。不要陷入 K 的轮班中。每次在不同的 K 上运行一组新结果时，它都会重新开始，因此不能保证您只是扩展了前一个 K。请注意东亚人如何分离成两个 K，然后再次崩溃。
RK 说：
15年2011月1日，格林尼治标准时间凌晨17:XNUMX
感谢您的大声疾呼——这是第一次有人称我有技术能力。 🙂

我觉得我们现在真正需要的是模型选择工具。是时候了解 R 中的 AIC() 和 BIC() 函数了……
法语读者说：
15年2011月11日，格林尼治标准时间凌晨57:XNUMX •100字
是的。但我认为应该是这样。你想看看人口之间的关系。不要陷入 K 的轮班中。每次在不同的 K 上运行一组新结果时，它都会重新开始，因此不能保证您只是扩展了之前的 K。

啊好的，谢谢解释

注意东亚人是如何分裂成两个 K 的，然后又崩溃了。

我没有看到。

我仍然认为你的颜色有问题，也许每个 K 使用相同颜色的阴影，
例：
2k = 2 种蓝色阴影。
3k = 3 种绿色。
4k = 4 种红色。
5k = 5 种蓝色阴影。
等等......

图片：http://img27.imageshack.us/img27/4996/newk3.png http://img51.imageshack.us/img51/6223/newk6.png http://img267.imageshack.us/img267/7061/newk8.png http://img543.imageshack.us/img543/5263/newk10.png
我现在不知道这只是一个想法。
黑鸟说： • 您的网站
18年2011月8日，格林尼治标准时间下午02:XNUMX
我绝对不介意这些阴影——对不起法国读者——，但这些程序可以做的就是根据其中一个组件对种群进行排序，这样最相似的种群会倾向于聚集在一起，并且会更直观地阅读。

评论被关闭。

通过RSS订阅所有Razib Khan评论