无监督 ADMIXTURE 的最佳案例方案？，作者：Razib Khan

无监督 ADMIXTURE 的最佳案例场景？

拉齐布汗 •7年2011月XNUMX日

•500字 • 2条评论

电邮

打印

RSS

◄►书签◄❌►▲ ▼全部切换变革理论▲▼添加到图书馆从图书馆中删除 • B显示评论下一个新评论下一个新回复了解更多

回复同意/不同意/等等更多... 这个评论者这个线程隐藏线程显示所有评论

同意不同意谢谢LOL轮唱

这些按钮可将您的公开协议，异议，感谢，LOL或巨魔与所选注释一起注册。仅对最近使用“记住我的信息”复选框保存姓名和电子邮件的频繁评论者可用，并且在任何八个小时的时间内也只能使用三次。

电邮评论忽略评论者关注评论者

搜寻文字 区分大小写 确切的词 包括评论

列表书签

关于ADMIXTURE的一大优点是，总体元素通过程序的逻辑从数据中摆脱出来。最糟糕的是，然后将其留给您使元素有意义。使用ADMIXTURE并避免过多的解释性模糊的一种有用方法是，当您非常了解混合事件确实发生在非常不同且相距甚远的人口群体之间时，找出X祖先群体贡献的各个比例。在某种程度上，整个新世界在这个过程中都是一个很好的实验室。考虑一个来自多米尼加共和国或波多黎各的人。他们的祖先很有可能会分为三个部分：

– 一个非洲人

–一个美洲印第安人

–欧洲的

这三个要素是从地理位置非常不同的位置采样的。祖先群体已经分离了数万年，几乎没有基因流过它们。这意味着“源”群体的等位基因频率应该相对不同（最大第一时间）。将 ADMIXTURE 生成的抽象祖先种群之间推断的等位基因频率映射到已知源种群的具体等位基因频率是相当简单的。

所以这是一个实验。我有40个人具有非同寻常的非洲混合气。他们中的大多数是非裔美国人，尽管其中一些人是拉丁美洲人，还有一些是埃塞俄比亚人或索马里人。少数族裔也有非洲血统，但远高于“噪音”门槛。让我们从HapMap中抽取四个人口：约鲁巴人，犹他州白人，马赛人和北京人。我合并了数据（去除有问题的个人)，并添加上述 40 个人。我修剪了数据集，以便在个体中丢失不超过 0.5% 的给定 SNP。我留下了大约 120,000 个标记。

然后，我进行了两次ADMIXTURE运行：有监督和无监督。在有监督的运行中，HapMap种群是“纯净的”，而在无监督的运行中，HapMap种群也有其祖先。以下是无监督运行中HapMap种群的种群细分：

马赛人是唯一一个人口内差异很大的群体：

好的，那么我在两次运行中得到的混合设置有什么不同？我标记了四个祖先成分：

– 西非

–欧洲

- 中国人

–东非

以下是 40 个人的两次运行之间的相关性：

– 西非，0.9995

–欧洲，0.9997

– 中国人，0.9957

–东非，0.9988

不是太寒酸。这是并排的调音台：

这里是运行，所以你可以看到它们：

这似乎是ADMIXTURE抽出人口结构的最佳情况。对于ADMIXTURE仅仅是一个“哑程序”的现实，如果明智地使用它，它可能会很有启发性。

（从重新发布探索/ GNXP 经作者或代表的许可）

• 类别：科学 •标签：混合物, 非裔美国人, 基因, 基因组学

隐藏2条评论发表评论

“无监督 ADMIXTURE 的最佳案例？”
• 2条评论

忽略评论者...跟随仅认可

修剪评论？

龙马说：
7年2011月10日，格林尼治标准时间下午52:XNUMX •100字
这很有趣，当大卫运行无监督选项时，他对我的结果与你的非常相似。然而，当他运行监督选项时，我得出 99% 的西非（他知道这是某种类型的统计错误，但他认为这是由于我对他正在使用的一个或多个样本具有某种特殊的亲和力，即其他非裔美国人往往没有）。从具有更高 K 分区的更详细结果来看，我似乎只是比平均水平具有更多的富拉尼和侏儒亲和力。
结说：
8年2011月3日，格林尼治标准时间上午51:XNUMX
在 K=3 监督下，Horn Africa 样本似乎比 23andMe 在祖先绘画中暗示的具有更多的约鲁巴语（非洲代理）亲和力（通常低于 30%）。也许 23andMe 使用非常小的窗口大小将细分市场分为非洲-欧洲-亚洲。

评论被关闭。

通过RSS订阅所有Razib Khan评论