Unz评论•另类媒体选择$
美国主流媒体大都排除了有趣,重要和有争议的观点
通过电子邮件将此页面发送给其他人

 记住我的信息



=>
作者 筛选?
拉齐布汗
没有发现
 玩笑基因表达博客
/
PCA

书签 全部切换总目录添加到图书馆从图书馆中删除 • B
显示评论下一个新评论下一个新回复了解更多
回复同意/不同意/等等 更多... This Commenter This Thread Hide Thread Display All Comments
同意不同意谢谢LOL轮唱
这些按钮可将您的公开协议,异议,感谢,LOL或巨魔与所选注释一起注册。 仅对最近使用“记住我的信息”复选框保存姓名和电子邮件的频繁评论者可用,并且在任何八个小时的时间内也只能使用三次。
忽略评论者 关注评论者

引用:Decker,Jared E.等人。 “家养牛的祖先,发散和混合的全球模式。” arXiv预印本arXiv:1309.5118(2013)。

引文: Decker JE,McKay SD,Rolf MM,Kim J,MolinaAlcaláA等。 (2014年) 驯养牛的祖先,发散和混合的全球模式。 PLoS Genet 10(3):e1004254。 doi:10.1371 / journal.pgen.1004254

 

440px-牛排_03_bg_040306我是一个特定年龄的人,年龄大到足以记得什么时候 数千 后来被古怪地称为“分子标记”的数据中,有大量数据令人吃惊。 今天,“后基因组学”一词几乎使我和“信息高速公路”一样过时。 这不是后基因组时代,它只是 is,那是最疯狂的梦想, ,那恭喜你,。 但是,数据丰富的光辉呈现并非没有其局限性和陷阱。 正如一位朋友曾经解释过的那样,生物信息学家只是“做某事”,有时甚至不了解他们为什么做某事。 一路上的某个地方 生物 由于该机器对饥饿的花胶的需求越来越大,因此匆忙组装下一个生物似乎已忘记了一部分。 但是,机械怪物用正则表达式的被砍在一起的嵌合体吞噬数据的火力并非没有目的。 许多对进化感兴趣的生物学家梦a以求的是,要用密集的标记画出大片的生命树,这是一个被征服遗传信息的帝国。

但是这些远景需要一些背景信息,有关 有机体。 这是我读到的时候想到的 贾里德·德克(Jared Decker) 关于家牛系统发育的新论文, 驯养牛的祖先,发散和混合的全球模式。 从许多方面来说,这是一篇简单的论文。 您可以在上查看有关早期迭代的讨论 霍尔丹的 (据我所知,预印过程似乎已经使之变得更加健壮和清晰!)。 Decker在庞大的SNP标记数据集上采用了一些简单的方法(至少在2014年是简单的方法),并具有广泛的地理覆盖范围。 特别是, 混合树, 混合物PCA。 这些程序包大约有40,000个SNP,应该可以相当快地读取数据(我将所有这些程序都使用了这种标记密度,并且样本量大约是一个Decker的大小)。

您可以阅读整篇论文,因为它是开放访问的。 在我看来,似乎在重申,牛确实是牛,是人类一时兴起而被拉扯,推销和交易的。。 许多东非牛具有主要的印度传统(两个主要进化分支之一),这一事实说明,家畜表现出人类文化的蛋白质倾向,而不是通过常规种群遗传来由标准地理和形态多样化所控制的生物压力。 但是我仍然必须承认,本文的大部分叙述力使我无所适从,因为我缺乏对牛的理解,其水平超出了简单的统计遗传学水平。 换句话说, 有机体很重要。 可能会“嗡嗡作响”的牛遗传学家可能仍然能够以更高的清晰度掌握论点的力量,因为他们对主题的理解从根本上比局外人更深刻。 该论文从遗传数据得出的许多推论清楚地从牛生物学家认为理所当然的自然历史要素中得出了它们的合理性。

而这仅仅是个开始。 在接下来的十年中,似乎不可避免的是,全球“基因组学核心”核心的集群将聚集在许多生物的成千上万个个体的整个序列上。 试图了解生命之树将是一个“淹没区域”的时代。 一群生物信息学家将被人类波涛中的数据所吸引,一次又一次地吸收冲击,慢慢地改变 特设 将前T模型时代的基因组学技术整合到更简单的交钥匙解决方案中。 然后,生物学将重新崭露头角,那些专注于特定生物体的人将获得深厚的知识渊源,并将再次成为企业的精髓。

 
• 类别: 科学 •标签: 混合物, 基因组学, PCA, 混合树 

 
• 类别: 科学 •标签: PCA 

左边是PCA,来自 人类基因的历史和地理。 如果单击它,您将看到带有人口标签的二维图。 这些图是如何生成的? 简而言之,这些实际上是遗传距离矩阵的视觉表示(这些距离是一般F ST),这是LL Cavalli-Sforza及其同事根据经典常染色体标记物计算得出的。 基本上,距离衡量的是各个群体在遗传学方面的差异。 笨拙的矩阵表可以可视化为邻居连接树,或者如您在此处看到的二维图。 但这还不是故事的结局。

在过去的十年中,使用高密度SNP芯片阵​​列,而不仅仅是代表种群之间的关系,这些图现在通常可以说明个体的位置(方法从成分分析或坐标分析到多维缩放,但结果是相同的)。

 

例如,著名的 欧洲遗传图谱。 在这里,您可以看到代表国籍的颜色,人口以及个人的质心位置。 通过这种方式,您可以考虑种群中的种群遗传变异。 完形 时尚。 但是,这些仍然有一些不足之处。 它们精确而有力,但由于分散而缺乏一定的优雅感。 当您有十二种以上的配色方案和大量的人口重叠时,这些都不是小事。 另外,人眼通常无法很好地调节以注意到密度差的较细梯度。

当您从数量可控的人口(例如欧洲人)转移到世界时,这一点很明显。 在这些情况下,您必须为特定颜色上色 地区,否则您会很快迷路。 我可以很容易地说明这一点。 我有一个正在运行的数据集,目前有约3,000个人和250,000个SNP。 它是HGDP,Behar等人,HapMap等的合并。我决定使用 友情链接 生成MDS图。

 

在这里,您可以看到未经修饰的散布。 在该图的顶部是亚洲人口,在右边是非洲人口。 欧洲人位于左下方的顶点。 这应该是您熟悉的,尽管您可能必须 旋转它。 从该图片中提取一些清晰度的一种方法是对区域进行颜色编码,并为最低级别的类别提供不同的符号。 是的,这很有帮助,但是仍然存在局限性(坦率地说,我经常很难在这些图中绘制出三角形)。 首先,我认为我们需要无法确定散射密度的变化。 进一步的图解将说明这一点(单击放大):

大部分文字基本上难以辨认。 这是质心方法很好的地方。 代替散布个人,您只需标记一个人口即可。 或者,您可以执行诸如允许各种颜色的点代表总体的操作,但是将标签仅放置在质心处。 仍然存在人口不等距的问题,因此您可能会拥挤。

最近,为了解决这些问题,我决定使用一种在“欧洲遗传图谱”论文中看到的“利用分布”方法。 这里的逻辑很简单。

1)首先,按类别对图上点的密度分布进行“平滑”处理。 基本上,这将创建一个连续的分布,其中存在不连续的分布。

2)然后划定约90%的中心区域作为人口分布的边界。 为这些边界线涂上不同的颜色。

在下面您可以看到结果:

显然,有一些问题需要解决。 但是您会看到两件事。 第一的, 有些群体显然是其分布中其他群体的子集。 这在上面的其他可视化方法中很难辨别。 其次,这些图考虑了密度,因此您不会被异常值分散注意力(异常值可能会被分析师或样本的原始收集者贴错标签)。

我的最终目的是开发一个脚本,该脚本将文本放置在合适的分发区域附近,而不会排挤其他文本。 我对如何“即时”执行此操作有一些想法,但是要花些时间才能实施。 在此之前,您可能需要对上述软件包有所了解。

首先,下载 居住 来自R的软件包。实际上,您可能需要下载各种 TCL 首先开发套件,因为如果没有后者,前者将无法安装。 一旦有了,就需要数据。 我假设您可以从上面的PLINK生成结果。 一旦有了,就需要三个专栏

1)x

2)和

3)鉴定

这里有一些R可能会有所帮助:

#MDSData 是带有 MDS 数据附件的数据框(MDSData) library(adehabitat) cexValue=0 par(mar=c(0,0,0,0)) plot(C1,C2,cex=cexValue,xlab="Coordinate 1 ",ylab="Coordinate 2") # 处理数据,删除组中超过 5 个个体 loc=subset(MDSData,Group %in% names(which(table(Group) >= 5))) loc\$X = loc\$C1 loc\$Y = loc\$C3 #load ids id = factor(loc\$Group) #创建第一个参数,两列 loc=subset(loc,select=c(X,Y)) vud=kernelUD (loc,id) #90% 利用率 kVert=getverticeshr(vud, 9); #我正在删除一个群体 kVert[21]=NULL kVertLength=length(attr(kVert,"names")) plot(kVert, add=TRUE, lwd=2,colpol=NA,colborder=rainbow(kVertLength) ) groups=attr(kVert,"names") legend('topright',groups,cex=.55,lty=1,lwd=3,col=rainbow(kVertLength))
 
• 类别: 科学 •标签: 基因, 基因组学, PCA 

扎克(Zack)第一次提出 哈拉帕祖先项目 我不知道到底发生了什么。 我不知道他的女儿和妻子是否对计算机发生了什么感到好奇! 自从收集了第一批参与者以来,他一直是一个产生结果的人 。 今天 他制作了一个引人入胜的三维PCA (修改道格·麦克唐纳(Doug McDonald)的Javascript)使用其“参考1”数据集。 他适当地重新调整了尺寸,以便它们反映出它们解释了多少遗传变异。 自然界中最大的方差主要是非洲与非非洲,第二是欧亚大陆的西到东,第三是北欧南轴。

我决定当小偷,并选择Zack的Javascript并调整其大小以适合我的博客的宽度,放大字体大小,并更改背景颜色和定位方面。 一切都适合我不正当的口味。 您会看到二维图所熟悉的经典“ L”形分布,但是会观察到南亚(较小程度上是东南亚)人口的第三个维中的“褶皱”。

世界人口遗传变异的前三个独立维度的拓扑结构让我想起了 B-2轰炸机:

 
• 类别: 科学 •标签: 人类学, 基因, 基因组学, 哈拉帕祖先项目, PCA 

长期的读者知道,我对不服用PCA的人有一定的了解 也有 从字面上看是具体的东西。 今晚,我终于将HGDP数据集与我一直在使用的一些HapMap合并,并将我的父母加入了样本中。 我计算了约50个HGDP人口,添加了托斯卡纳,两个肯尼亚团体和古吉拉特人,并将它们合并。 我将标记集缩小到105,000个SNP(我也不得不翻转HGDP链)。 然后我就让 本征软件 做魔术,我花了2个小时制作了自己的剧情。 我仍然遇到一些标签问题,但首先让我们看一下23andMe生产的产品(我是绿色的):

现在,让我们看看我的输出:

我怀疑我的父母与南亚主要人群之间的差距仅仅是样本中缺少南印度人和东印度人的产物。 另外,如果我删除非洲人,情况会有所不同,因为第一个主要组成部分将被释放。 以后再说。 总而言之,仍然很棒,大约在2011年,这种事情只是一个晚上的集中。

 
• 类别: 科学 •标签: 基因, 基因组学, PCA 

我已经指出过几次,在显示遗传变异的二维图中,您必须要小心的一件事是,投影数据的维度通常是由数据本身生成的。 因此,添加更多数据可以更改先前数据点的空间关系。 另外,在 23andMe的全球相似性高级情节 被投射 从生成的尺寸 人均国内生产总值 数据集。 有一些实际的原因。 首先,每次有人添加到数据集中时,重新计算方差分量的计算量很大。 其次,这并不是说任何给定个人的种族身份都得到了验证。 如果外星人寄出了工具包并伪装了,您会怎么做 “法语” 作为他们的祖先?

所以,在回复 此评论: “让我重新表述:当您切换到全球情节时,有什么区别吗? 我想可能不会,否则您会提到它。” 实际上,两者之间存在细微的差异。 在右下方,您会看到一个“世界观”,我的位置被标记为绿色,而在左侧,则是HGDP数据集中中亚/南亚的“放大”。


由于情节的“生意”,很难看到区别。 但是,当我不与他人“共享”基因时,您会看到:

1)中亚哈扎拉/维吾尔族集群与由巴基斯坦集团组成的南亚集群之间有一定的差距。

2)在中亚/南亚变焦镜头中,我处于两个星团之间的距离,大约是从南亚星团到中亚星团的1/3距离(下一个最接近的人朝那个方向移动, 家庭成员是孟加拉人)。

3)相反,在世界范围内,我处于中亚集群的边缘,朝着南亚集群的边缘发展,但与它之间肯定有一段空白。

您会看到两个图之间的一些广义差异。 中亚/南亚的观点具有主要的线性集群,卡拉什(Kalash)是一个独特的群体。 在世界范围内,事实并非如此,相反,您有一群巴基斯坦人,其中有非平凡的非洲掺混物朝那个方向移动(主要是Makrani,但HGDP数据集中的一个信德人似乎是布朗托人!)。 由于南亚地区的非洲差异不大,除了杂乱无章的个人自然会带到餐桌上之外,它并没有摇摇晃晃地成为两个最高维度之一。 那我怎么了我没有很好的假设,但我怀疑我可能 东南亚血统 在世界范围内,我进一步向亚洲集群转移。 在世界范围内,有些人的国民生产总值与缅甸人关系密切(例如纳西族),而在中亚/南亚地区则自然而然。 当您将祖先分解为“欧洲”和“亚洲”部分时,哈扎拉/维吾尔族集群是可以的替代品(两者都是杂种,“欧洲”和“亚洲”祖先的比例大致相等),但这实际上是一个近似值。 这两个群体的亚洲血统更为“北方”,而我的血统更为“南方”。 由于它们包含在中亚/南亚群中,所以欧亚大陆的东西向维度是由更多的东亚北部人口构成的,这可能低估了我的东亚元素。

尽管我与谁共享基因,但实际上有一个比我更好的例子。 这个人是波斯人。 请注意,在世界范围内,它们似乎处于欧洲集群的边缘,正朝着中亚/南亚集团迈进。 但是,当您执行中亚/南亚缩放视图时,它们就在该集群中! 请注意非常不同的位置。 缩放视图中的“邻居”与世界视图中的“邻居”完全不同:

我之所以说为什么我在世界视图中更“亚洲化”,是因为世界视图中有我更接近的亚洲群体,但在我的缩放视图中却没有这些亚洲群体。 这个波斯人似乎正在发生一个极端得多的情况,他的家人来自伊朗北部,在他的一个宗族上有俄罗斯血统的口述历史。

这就是为什么我假设任何指向论文和情节并声称“这证明X”的读者在认知上都受到挑战的原因。 PCA中的模式不一定是任意的。 但是,确实需要谨慎地解释它们。 一组结果并不能确定辩论中的任何给定立场,至少在您到达荒谬的边界条件之前(在某些方面,我认为很多遗传数据可视化就像我对回归的思考一样。这就是人们的看法。使用/解释有问题的方法,而不是方法本身)。

最后,对您来说,将南亚人投影到绘制尺寸的图块上似乎并不荒谬吗? 边缘人口! 想象一下,如果您愿意的话,可以将欧洲人投影到仅由Finnic和Slavic群体的差异生成的地块上。 这是一个很好的类比。 HGDP数据集中的巴基斯坦组为 不能 南亚遗传变异的好代表,因为它们已转移到分布的边缘。 这是原因 哈拉帕祖先项目 非常需要(为什么您只得到v3成绩,并且是伊朗人,藏人,缅甸人或南亚人,则应该 发送给。 以及第2版的用户!)。

 

疯狂的生物学家迈克,其bailiwick是 小域,在 注释:

我的意思不是要对该职位提出切线的看法,但是为什么人类遗传学领域使用PCA来可视化关系? 当我看到此处显示的具有“几何图案”的图(锐角直角;另一个常见的图案是Y形)时,这告诉我对于许多Y-变量(即某些人群特有的等位基因)。 因此,这些点的空间排列在很大程度上是一种不合适的方法的伪像:当许多相关的事物的值为零时,如何计算相关矩阵?

如果真的很想使用PCA,则可以计算成对的距离矩阵,然后使用它代替相关矩阵(主坐标分析)。

既然我知道有些人类遗传学家确实读过该博客,所以我认为值得把这个问题抛诸脑后。

 
• 类别: 科学 •标签: 分析, 基因, PCA 
拉齐布汗
关于拉齐卜·汗

“我拥有生物学和生物化学学位,对遗传学,历史和哲学充满热情,虾是我最喜欢的食物。如果您想了解更多信息,请访问http://www.razib.com上的链接”