Unz评论•另类媒体选择$
美国主流媒体大都排除了有趣,重要和有争议的观点
通过电子邮件将此页面发送给其他人

 记住我的信息



=>
作者 筛选?
拉齐布汗
没有发现
 玩笑基因表达博客
/
混合树

书签 全部切换总目录添加到图书馆从图书馆中删除 • B
显示评论下一个新评论下一个新回复了解更多
回复同意/不同意/等等 更多... This Commenter This Thread Hide Thread Display All Comments
同意不同意谢谢LOL轮唱
这些按钮可将您的公开协议,异议,感谢,LOL或巨魔与所选注释一起注册。 仅对最近使用“记住我的信息”复选框保存姓名和电子邮件的频繁评论者可用,并且在任何八个小时的时间内也只能使用三次。
忽略评论者 关注评论者

TestSEAsia.gz..1.out

当我写下 更新世是人类的希伯利亚时代, 我的意思是 人性。 由于偶然的原因,古代DNA的新遗传科学首先阐明了西北欧亚大陆的历史。 但在 大分歧 欧洲并不是那么例外。 实际上,历史学家维克多·利伯曼(Victor Lieberman)写道 奇怪的平行,他在欧亚大陆的宏观历史中,着重强调了直到近代早期西方与其他国家之间的距离之前,西欧和东南亚大陆的轨迹有多么相似。 简而言之, 欧洲史前史为我们所有人的史前史更新了先验。

由于种种原因,与专业责任有关,我着眼于 混合树 情节经常发生。 喜欢 PCA TreeMix非常适合探索性数据分析。 您在其中扔了一堆种群,并且它搜索了一堆可以拟合模型的参数。 但是结果往往很奇怪。

他们并不奇怪,因为他们“错了”。 它们之所以怪异,是因为我们将强迫数据给我们答案,并且该模型会弹出一些在条件上合理的东西。 通常,我们只是没有大局而已。 统计推断表明过去十年来美洲原住民与欧洲人之间存在奇怪的联系……但它花了 西伯利亚的古代DNA 解决这个谜。 欧洲人和美洲印第安人的共同祖先具有祖先的血统。 在欧洲,这种血统是相对较新的,大约在过去4至5千年。 统计遗传推论可以告诉我们我们的模型缺少某些东西,但是它不能总是清楚地准确地指出我们所缺少的东西。

上面的TreeMix图中的图像很难辨认。 点击它。 但是它将显示给您的是两件很奇怪的事情:

1)基因流从东非(主要是HapMap Masai为其价值)节点与Mbuti(HGDP)到巴布亚人(HGDP)之间。

2)基因流从东非节点附近到定义整个东欧亚,美洲和大洋洲节点的点。

我会笑的很开心,但是我一直在TreeMix中看到它。 我知道我不是唯一的一个。 我对此没有任何解释。 显然不是最近的混合物。 相反,人口之间的亲和力只是我们没有一个好的模型。 了解我们对古代欧洲的了解后,这些似乎无法解释的基因流动边缘很可能反映了史前事件,这些事件仅在过去一万年来被完全掩盖的人口格局的背景下才有意义。 来自中国的古代DNA可能会为这些话题提供很多启示。 我预言中国人将在旧石器时代的祖先身上表现出与现代欧洲人相同的不连续性,并且在这些TreeMix地块中,东欧亚人与一些非洲人之间的亲缘关系可能是被“欧亚大陆”吸收的“幽灵人口”的阴影,并且可能对一个移民到非洲的群体的某些祖先做出了贡献。

我将TreeMix设置为检查1000个SNP块之间的协方差。 我在数据集中总共有215,000个标记(非常高质量的标记)。 我将其与Mbuti一起扎根,设置5个迁移边缘,然后运行10次。 他们看起来都一样。 大多数人口来自公共资源。

 
• 类别: 科学 •标签: 基因组学, 混合树 

如果您要使用ADMIXTURE,则确实需要阅读 原始纸, 基于模型的快速估计无关亲戚的祖先 (没有门,所以没有任何借口)。 虽然是2000年的乔纳森·普里查德(Jonathan Pritchard)最初的论文, 利用多基因座基因型数据推断种群结构,可能就足够了。 不幸的是,这些基于模型的条形图存在问题: 人们很难过分地调整自己的生活。 我们称之为“柏拉图的复仇”。 但实际上柏拉图只详细说明了一个很明显的标准问题:我们喜欢在绝对类别中思考。 这是“是否存在种族”讨论中的大部分问题。 您总是需要超越柏拉图式建筑的思想,而柏拉图式建筑必然是社会性的。

那真是太好了 PCA。 它是数据中基础变化的直观表示,并且聚类未预先指定。 不幸的是,将参数固定为K = 5对大多数人来说意味着实际上有5个实际人口。 而且“大多数人”甚至包括很多遗传学家。

因此,我将做一个实验,摆脱基于模型的聚类,并使用 混合树 探索数据。 当然,这应该使我们确保我们阅读了 原始纸, 从全基因组等位基因频率数据推断种群分裂和混合。 我已经这样做了,三个要素对我产生了影响:

–“这种高斯模型最初是由Cavalli-Sforza和Edwards [1]提出的,并且Nicholson等人[33]概述了该模型的动机, 如果两个种群之间的遗传漂移量很小 (最多在与有效人口数量相同的时间尺度上),然后扩散近似为Wright-Fisher模型……”

–“我们不对等位基因频率在零和一处的边界建模,也没有考虑新的突变。 这意味着该模型对于祖先种群中频率的等位基因将是最准确的。=

–“对每个父母人口的贡献进行加权; 如果我们假设混合发生在一代人中……。=

我从上面得到的是什么。 首先,当心人口高度分散(它们可能会产生“长枝”)。 其次,最好做一些次要的等位基因频率过滤器,以便获得中间比例(0.05的常见比例就足够了)。 最后,很多混合不是一个单一的事件。 因此,这可能会在树中引入一些失真(或至少会误导天真的人类的表示形式)。

这第一篇文章是一个试用版。 我不打算回答任何问题,而只是探索。 我有一个数据集(不幸的是,有些数据不是公开的,所以这次我不会发布Dropbox链接),该数据集大多偏向北欧人。 我使用PCA去除了离群值的个体,并在特定国家的质心周围生成了一些合理的簇(即,根据他们的知识,国家簇是那些祖先都来自给定国家的个体)。

这些群集是:

– E_Africa(HapMap Masai,已删除了一些异常值)
–英格兰(我选择了与爱尔兰人远离的人,而不是德国人)
–芬兰
–德国(我选择的个人基本上是北德;从荷兰到萨克森)
–爱尔兰
–意大利(这些人是意大利南部;从罗马人到那不勒斯,但不包括西西里岛)
– Mbuti_Pygmies(HGDP)
–莫扎比(HGDP,一些离群值去除)
– N_Amerindian(HGDP,皮马和玛雅人;一些离群值删除)
– S_Amerindian(HGDP,苏瑞和卡里亚塔纳;一些离群值被清除)
– NE_Asia(HapMap和日文和韩文的私人数据)
– N_India(HapMap和1000个基因组古吉拉特语和旁遮普语)
– N_WestAsia(亚美尼亚人和土耳其人)
–巴布亚(HGDP)
–波兰(从此数据中删除所有犹太人)
–苏格兰(试图删除离爱尔兰和英语太近的人;这并不容易)
–东南亚(1000个Dai族和越南人基因组)
–印度南部(1000个泰米尔和泰卢固族基因组)
–西班牙(1000个基因组和私人数据)
–瑞典
– S_WestAsia(私人数据,沙特人和科威特人,从具有最近非洲血统的人那里删除)
– W_Africa(约鲁巴和埃桑1000个基因组)
–雅库特(HGDP)

合并的数据集有290,000个SNP。 它的缺失是0.25%(0.0025)。 但是数据集中有5,000多人,这可能掩盖了失踪人口分布中的一些主要偏见(例如,少量的HGDP巴布亚人可能有很多这样的偏见)。 因此,我决定删除数据中所有缺失的所有SNP。 剩下约40,000个标记。 这意味着这些标记中的所有40,000都作为呼叫出现在数据中的所有5,000个人中。 对于PCA 40,000实际上是相当不错的,所以这里是前6个…。


电脑1电脑2PC3PC4PC5PC6 维度的大小分别为:245、142、34、27、16和12。前两个形成了我们都熟悉的“机翼”形状,分别代表了非洲与其他所有国家,然后是西方与非洲欧亚大陆东部。 这些不是一成不变的。 请记住,PCA所做的是提取独立的维度,以解释数据的变化。 如果您使用特定类型的变体使数据过载,则它可能会更改排名顺序。 或者,如果您引入一个非常近交的群体,那么他们的组成部分将非常重要。 这些方法取决于您对如何解释自己放入其中的数据不感到愚蠢。 不幸的是,当您对数据没有太多的了解时,很容易傻了……这就是为什么要进行分析!

由于您无法阅读PCA图,因此应单击它们。 他们会弹出一些更具可读性的内容。 PC 3将欧亚大陆从北向南分开。 这是一个比西到东小得多的尺寸。 我认为这很符合直觉。 第四个PC将美洲印第安人的团体分开。 确实,这是Surui轴与非Suurui轴的比较。 我非常喜欢PC 5和PC 6,因为它们更明显地显示了不同的欧洲集群。 问题是,从全球范围来看,欧洲几乎没有遗传变异。 但是较低的组件开始捕获它。 我不会说谎,ggplot的默认配色方案令人困惑。 我告诉你,其余两个人口是印第安人,北印第安人比南印第安人更靠近欧洲人。 右上角是巴布亚人。 我喜欢事后想到的这种方式的一种方式是,印第安人指的是“幽灵人口”。 他们不是巴布亚人,但与巴布亚人有一定的亲和力……。

接下来,我决定运行TreeMix。 首先是完整的290,000 SNP数据集。 然后是40,000,这是0%的缺失。 我每运行10次,然后输出一次。 我将它们设置为5个迁移。 除了以下内容,我将不加评论: 我对TreeMix的问题是,当我看到期望的迁移优势时,我会感到放心,但不知道该如何处理那些令人惊讶的事情。 原因是该算法不会说谎,但只能处理其中的数据和假设。 当乔·皮克雷尔(Joe Pickrell)首次提出TreeMix结果时,从美洲印第安人到欧洲人都有一条奇怪的箭头。 没有人真正知道该怎么做,尽管这并不完全令人惊讶(类似的东西很好地显示在ADMIXTURE地块中,而我早在2005年就在Noah Rosenberg的微卫星结构工作中看到了这一点)。 事实成立之后,我们现在就可以理解它了。 TreeMix尽力向我们展示了“北欧祖先”的影响。 新世界的美洲印第安人在这一祖先中所占比例最高,北欧人民在旧世界中所占比例最高。 因此,它吸引了从前者到后者的迁移优势。 当您将Malta(或Yamnaya)数据放入TreeMix时,“虚假边缘”消失了……。

 

FinalPool300KOut.9 FinalPool300KOut.10 FinalPool300KOut.5 FinalPool300KOut.6 FinalPool300KOut.7 FinalPool300KOut.8 FinalPool300KOut.1 FinalPool300KOut.2 FinalPool300KOut.3 FinalPool300KOut.4
这是40,000个标记的TreeMix输出

决赛水池GenoM5Out.8

决赛水池GenoM5Out.9

决赛水池GenoM5Out.10

决赛水池GenoM5Out.5

决赛水池GenoM5Out.6

决赛水池GenoM5Out.7决赛水池GenoM5Out.2

决赛水池GenoM5Out.3

决赛水池GenoM5Out.4

决赛水池GenoM5Out.1

 
• 类别: 科学 •标签: 混合树 

引用:Decker,Jared E.等人。 “家养牛的祖先,发散和混合的全球模式。” arXiv预印本arXiv:1309.5118(2013)。

引文: Decker JE,McKay SD,Rolf MM,Kim J,MolinaAlcaláA等。 (2014年) 驯养牛的祖先,发散和混合的全球模式。 PLoS Genet 10(3):e1004254。 doi:10.1371 / journal.pgen.1004254

 

440px-牛排_03_bg_040306我是一个特定年龄的人,年龄大到足以记得什么时候 数千 后来被古怪地称为“分子标记”的数据中,有大量数据令人吃惊。 今天,“后基因组学”一词几乎使我和“信息高速公路”一样过时。 这不是后基因组时代,它只是 is,那是最疯狂的梦想, ,那恭喜你,。 但是,数据丰富的光辉呈现并非没有其局限性和陷阱。 正如一位朋友曾经解释过的那样,生物信息学家只是“做某事”,有时甚至不了解他们为什么做某事。 一路上的某个地方 生物 由于该机器对饥饿的花胶的需求越来越大,因此匆忙组装下一个生物似乎已忘记了一部分。 但是,机械怪物用正则表达式的被砍在一起的嵌合体吞噬数据的火力并非没有目的。 许多对进化感兴趣的生物学家梦a以求的是,要用密集的标记画出大片的生命树,这是一个被征服遗传信息的帝国。

但是这些远景需要一些背景信息,有关 有机体。 这是我读到的时候想到的 贾里德·德克(Jared Decker) 关于家牛系统发育的新论文, 驯养牛的祖先,发散和混合的全球模式。 从许多方面来说,这是一篇简单的论文。 您可以在上查看有关早期迭代的讨论 霍尔丹的 (据我所知,预印过程似乎已经使之变得更加健壮和清晰!)。 Decker在庞大的SNP标记数据集上采用了一些简单的方法(至少在2014年是简单的方法),并具有广泛的地理覆盖范围。 特别是, 混合树, 混合物PCA。 这些程序包大约有40,000个SNP,应该可以相当快地读取数据(我将所有这些程序都使用了这种标记密度,并且样本量大约是一个Decker的大小)。

您可以阅读整篇论文,因为它是开放访问的。 在我看来,似乎在重申,牛确实是牛,是人类一时兴起而被拉扯,推销和交易的。。 许多东非牛具有主要的印度传统(两个主要进化分支之一),这一事实说明,家畜表现出人类文化的蛋白质倾向,而不是通过常规种群遗传来由标准地理和形态多样化所控制的生物压力。 但是我仍然必须承认,本文的大部分叙述力使我无所适从,因为我缺乏对牛的理解,其水平超出了简单的统计遗传学水平。 换句话说, 有机体很重要。 可能会“嗡嗡作响”的牛遗传学家可能仍然能够以更高的清晰度掌握论点的力量,因为他们对主题的理解从根本上比局外人更深刻。 该论文从遗传数据得出的许多推论清楚地从牛生物学家认为理所当然的自然历史要素中得出了它们的合理性。

而这仅仅是个开始。 在接下来的十年中,似乎不可避免的是,全球“基因组学核心”核心的集群将聚集在许多生物的成千上万个个体的整个序列上。 试图了解生命之树将是一个“淹没区域”的时代。 一群生物信息学家将被人类波涛中的数据所吸引,一次又一次地吸收冲击,慢慢地改变 特设 将前T模型时代的基因组学技术整合到更简单的交钥匙解决方案中。 然后,生物学将重新崭露头角,那些专注于特定生物体的人将获得深厚的知识渊源,并将再次成为企业的精髓。

 
• 类别: 科学 •标签: 混合物, 基因组学, PCA, 混合树 

要了解自然的所有复杂性,我们必须将多种多样的物种缩减到最小的规模。 为了便于理解,我们用数学形式化,用类比语言表达,并用表示形式可视化。 这些逼近现实不是现实,但是当我们黑暗地透过玻璃看时,它们会给我们带来至关重要的洞察力。 道尔顿的模型 原子的细节在重要的细节上是错误的(例如,基本粒子被证明可分解成夸克),但是它仍然具有概念上的实用性。

同样,LL卡瓦利-斯福尔扎(LL Cavalli-Sforza)在 人类基因的历史和地理 在了解人类人口过去的状态方面仍然很有用。 但是看来,树的分叉模型现在必须被网状阴影强烈着色。 在程式化的意义上,种间系统发育假设生物物种概念的近似真相(即,跨谱系的基因流很小),当我们在种群遗传学的微观进化规模上考虑物种的系统发育时,就会误导我们。 在种内尺度上,基因流动不仅是模型中的麻烦参数,而且是必不可少的现象,必须将其纳入框架中。


这是我的想法,因为出现了诸如 混合树Admix工具。 在众多公共数据集上使用诸如此类的软件,可以让人们感知混合物的真实性,并将侧向基因流叠加在树上作为自然的期望。 但是,也许更深层的结果是树本身的特征被撕裂了。 上图来自新论文, 基于矩的混合参数和基因流来源的高效推断,这是首次亮相 混合映射器。 作者在他们的论述中引入了很多数学方面的内容,但我不能说我全部遵循(尽管某些细节与 皮克雷尔(Pickrell)等人)。 简而言之,与TreeMix相比,MixMapper似乎可以对更狭窄的总体进行更有力的推断,这些总体被选择用于探索非常具体的问题。 相比之下,TreeMix在最少的监督下探索了整个景观。 使用了后者,我可以证明那是真的。

MixMapper的最大结果是它扩展了 帕特森(Patterson)等人。,并确认 现代欧洲人似乎是“北欧亚”人口与模糊的“西欧亚”人口的混合体。 重要的是,他们在撒丁岛发现混合的证据,这表明Patterson等人的原著对假定的参考人群中的混合不敏感(请注意,Patterson也是本文的合著者)。 如本文所述,问题在于,当您没有“纯”祖先参考种群时,很难估计混合。 然而,对我而言,这里的收获是,我们可能需要重新考虑纯祖先种群的整个概念,并将人类系统发生树想象为永恒通量中的一系列晶格,其混合节点会定期扩展,从而产生出人为的假象。多样化的树。 我们越仔细看,在过去的10,000年中经历人口膨胀的大多数人口似乎也是混合产品。 过去10,000年乃至过去100,000年的任何故事都必须在整个群体的叙事弧横向基因流的中心留出空间。

引用: 的arXiv:1212.2555 [q-生物.PE]
 
拉齐布汗
关于拉齐卜·汗

“我拥有生物学和生物化学学位,对遗传学,历史和哲学充满热情,虾是我最喜欢的食物。如果您想了解更多信息,请访问http://www.razib.com上的链接”