Unz评论•另类媒体选择$
美国主流媒体大都排除了有趣,重要和有争议的观点
通过电子邮件将此页面发送给其他人

 记住我的信息



=>
作者 筛选?
mt 拉齐布汗
没有发现
 玩笑基因表达博客
/
堆图

书签 全部切换总目录添加到图书馆从图书馆中删除 • B
显示评论下一个新评论下一个新回复了解更多
回复同意/不同意/等等 更多... This Commenter This Thread Hide Thread Display All Comments
同意不同意谢谢LOL轮唱
这些按钮可将您的公开协议,异议,感谢,LOL或巨魔与所选注释一起注册。 仅对最近使用“记住我的信息”复选框保存姓名和电子邮件的频繁评论者可用,并且在任何八个小时的时间内也只能使用三次。
忽略评论者 关注评论者

左图是从休斯敦的古吉拉特人和丹佛的中文生成的主要成分1、2和3的三维表示。 当这两个人口聚集在一起时,中国人形成了一个非常同质的群体。 它们在遗传变异的三个主要解释维度上相差不大。 相比之下,古吉拉特人 do 各不相同。 这不足为奇。 在补充 重建印度人口史 值得注意的是,古吉拉特人确实倾向于在PCA中陷入两个截然不同的集群。 当您处理HapMap Gujarati数据集时,您会一遍又一遍地发现这一发现。 实际上,没有两个等效的集群。 相反,有一个“紧密”集群,从现在开始,我将在数据集中将其标记为“ Gujarati_B”,另一个集群“ Gujarati_A”,实际上仅由Gujarati_B集群之外的所有个人组成。 即使与其他相比 南亚 人口这两个不同的类别在HapMap古吉拉特人中仍然存在。

扎克已经 确定了两个集群之间的主要区别: 古吉拉特邦(Gujarat_A)的某些人拥有更多的“西欧亚”血统。 为了将来对此更加正式,我只是根据合并数据集中的个人,根据其在前两台PC中的位置,将其分配到两个古吉拉特语群集中的一个。 昨天晚上,我以2个SNP运行ADMIXTURE K = 10到75,000。 我还删除了美国原住民组织,并从HapMap中添加了更多的欧洲和东亚样本。 以下是K = 4时的一些人口:


让我们深入到个人层面。 这里有古吉拉特人,信德人,还有我的父母(孟加拉人)。 我按“欧洲”和“南亚”组成部分(分别是浅蓝色和绿色)分类,而在巴布亚语中是紫色,在东亚人中是红色。

ADMIXTURE图与PCA完全对齐。 在PCA中,Gujarati_A展示了与欧洲集群的距离谱,而在ADMIXTURE中,您看到了相同的距离。 相反,Gujarati_B相对统一。 发生什么了? 我将在发布类似的内容 棕褐色叛变即将推出。 但是我的猜测是Gujarati_B是以下内容的子集 帕特尔。 换句话说,它们在基因上是不同的 加提。 我怀疑Gujarati_A是来自许多不同群体的更多样化的群体 贾蒂斯.

这有关系吗? 我相信是的。 If 古吉拉特语_B是古吉拉特语的一个子集,是一个独特的民族社会群体,因此它们可能不像古吉拉特语_A那样好地代表南亚医学遗传学。 更具体地说,古吉拉特语(Gujarati_B)可能是频率较高的稀有疾病等位基因,因为它们是近交氏族。 相反,虽然古吉拉特语_A可能表现出南亚内婚制的所有特征,但如果它们数量更多, 不同 组,那么他们将拥有各种不同的稀有等位基因。 他们有的 共同点 可能更一般地说是南亚。

 

在人类基因组中大约3亿个碱基对中,存在相当多的变异。 可以将这种变化划分为不同的类别,某种程度上是人为分类系统的人为构造,但是仍然映射到特别重要的真实人口统计或生活史事件。 有些变异是特定于人群的,而有些变异是特定于一组人群的,并且还有一些变异,我们只在家庭中发现。 大概当全基因组测序和分析成为常态时,这种区别仍然有用,但是我们应该能够深入到我们希望的任何分析水平。 但是直到那一天到来之前,我们将不得不依靠人口序列,这些人口序列具有深层次的序列,可以合理地代表人类变异的一个子集。

研究博客网站 我经常在此博客中提及其中一些人群, 人均国内生产总值, 堆图人口 是三个范围广泛的杰出数据集。 这些群体仅覆盖一小部分人口,而在这些人口中仅覆盖了个人基因组的一小部分(尽管在人口中可能有所不同的组成部分)。 一种 新文 in 自然 仔细研究了HapMap扩展到一组新的种群。 由于它不在HapMap联盟的范围内,因此作者列表本身为我们提供了许多可能具有群体遗传兴趣的个人! (尽管不是一组具有代表性的人口差异; Broad研究所的Papuan员工在哪里?)已经在几篇论文中找到了HapMap下一阶段的一些数据(通常在补编中),但是这看起来像是对即将发生的事情的概述和品味(该论文于去年秋天提交)。 整合不同人群中常见和罕见的遗传变异:

尽管在鉴定影响人类疾病的遗传变异方面取得了很大进展,但大多数遗传风险仍然存在。 要获得更全面的了解,就需要对全基因组范围广泛的人群中不常见的等位基因进行全面检查的全基因组研究。 为了指导此类研究的设计和解释,我们在来自1.6个全球人群的1,184个参考个体中对11万个常见单核苷酸多态性(SNP)进行了基因分型,并对其中100个中的692个3碱基碱基区域进行了测序。 这种常见和稀有等位基因的集成数据集称为“ HapMap 5”,既包含SNP,也包含拷贝数多态性(CNP)。 我们表征了低频变异体之间的特定人群差异,测量了较大参考面板所提供的估算准确性的提高,尤其是在等位基因频率≤XNUMX%的SNP估算中,并证明了估算新发现的CNP和SNP的可行性 。 全球人群中扩大的基因组变异公共资源支持对基因组变异及其在人类疾病中的作用的更深层次的审视,并且是迈向高分辨率人类遗传变异图谱的一步。

由于 补品对所有人免费 如果您没有学术访问权限,我建议您下载它们。 主要区别在于它们在补品中不那么精巧,并且图形质量较低。 人口(原始的HapMap人口以粗体显示):

休曼德爱丽德多态中心(Centre d'Etude du Polymorphisme Humain)在美国犹他州收集,祖先来自北欧和西欧
中国北京的汉族(CHB)
日本东京(JPT)中的日语
尼日利亚伊巴丹(YRI)的约鲁巴(Yoruba)

美国西南部(ASW)的非洲血统
美国科罗拉多州丹佛市的华人(CHD)
美国德克萨斯州休斯顿的古吉拉特邦印第安人(GIH)
肯尼亚Webuye的Luhya(LWK)
肯尼亚Kinyawa的马赛(MKK)
美国加利福尼亚州洛杉矶的墨西哥血统(MXL)
意大利的托斯卡纳(意大利托斯卡纳,TSI)

因此,请记住其中一些缩写! 这些人群之间的一个特殊区别是 有些是亲子三重奏,有些则不是。 因此,CEU示例是三重奏,而TSI不是。 这显然很重要,因为您将在CEU样本中拥有一系列的关联性,而在TSI中则不会。 具有三重奏或不具有三重奏具有分析性的利弊,但是,出于涵盖全球人类变异的这类数据集的主要目的,您可能希望拥有无亲属关系的个体。 这些是具有三重奏的样本:CEU,ASW,MXL,MKK和YRI。

为了获得SNP和CNP,他们将Affymetrix和Illumina芯片的结果进行了合并,并在约1.5个个体中产生了约1,000万个变体。 就大范围探讨大图问题而言,这是相当不错的,尽管我不确定 比人口众多的HGDP好得多(尽管 大约一半 SNP)。 而是,本文关注的主要问题之一是找到足够的稀有变体,这些变体可能由于其覆盖范围狭窄而未出现在初始面板中,以便进行 归责 为了进行统计分析 全球风电系统。 因此,例如,他们将归因于英国研究小组的CEU与CEU + TSI进行了比较。 这是他们发现的结果(MAF =主要等位基因频率):

对于常见的SNP(MAF≥5%),较大的HapMap 3参考面板与已经非常出色的性能只有很小的差异(平均值2 从0.946升至0.961)。 但是,正如预期的那样,稀有(MAF <0.5%)和低频SNP(MAF = 0.5-5%)有了更大的改善。 他们的综合均值2 由大量的稀有SNP(0.60%)和低频SNP(0.76%)驱动,从41增加到25,其中r2 增加至少0.1,得出平均值r2 这些分别为0.62和0.49的子集的改进...

因此,较旧的HapMap数据集可以使用更常见的变体,但是较大的样本集确实会提供一些不那么常见的变体。 这很直观。 对我来说有趣的是,犹他州白人的CEU样本在基因上可能接近于1958年出生的一群英国白人,但是添加托斯卡纳样本仍然有用。 为了了解这种估算的能力如何在种群之间下降,随着遗传距离越远,共享的稀有变体越少,它们以成对方式估算,或者将种群与推定的混合物进行比较。 因此,只要将CEU + YRI与适当的权重结合起来,就可以很好地模拟那些在欧洲与西非主要血统混合的比例很高的非裔美国人。 对于稀有等位基因,尤其如此2 非裔美国人和约鲁巴人,非裔美国人以及约鲁巴和犹他州白人的普通SNP分别为83%和86.5%。 对于稀有SNP,它是45.5%的71.7%! 添加其他HapMap 3总体的模型实际上在插补方面效果较差。 东方欧亚人有不同的遗传变异,这简直使人困惑。

从直觉上很明显,为什么当您增加样本量时会出现稀有等位基因。 但是,为什么稀有等位基因在人群中更具特色? 如果它们是常见的等位基因,它们可能已经存在了很长时间,祖先的变异也可能存在,或者有时间通过​​基因流传播。 相反,稀有等位基因可能是新的,因此在人群中更具特色。 同样,肯定存在通过家庭传承的等位基因。

图3显示了样本量对发现的SNP的影响:

hapmap3fig3

注意两组曲线:非洲与非非洲。 本文证实了以下发现:非洲人比其他人口具有更多的遗传多样性,而东亚人则更少(大概如果美洲印第安人在样本中,他们将四舍五入)。 从文字:

根据此衡量标准,对于不同的人口对,其信息性差异很大。 与非非洲多样性在很大程度上是非洲多样性的子集的观察结果相一致……与相反的情况相比,非洲样品为非非洲样品中的变异位点提供了更完整的发现资源……仅关注30 A原始样本中的低频变异(一两个副本,对应等位基因频率为3.3%或更低),即使非洲样本对于非洲以外的多样性也高度不完整,信息比率降至40 – 60%的LWK和YRI…一般来说,对于低频变异,只有密切相关的人群才能充分捕捉变异,……可能反映了低频变异的最新起源。 LWK和GIH这两个种群被我们的任何其他种群捕获得很差,这是与祖先种群混合的结果,与我们的区域测序数据中的任何种群都不密切相关……。

hapmap3fig2a同样,非洲的遗传多样性可以为其他人群提供信息,但是由于低频等位基因变异,即使非洲人也不足以说明非非洲群体。 从历史上讲,其中很大一部分可能是由于非非洲变种自非洲以外事件以来才出现。 图2a显示了通过低频SNP测量的种群之间以及种群内部的成对关系。 更准确地说,他们从一个种群中选取了30个随机个体,并将它们与同一种群(无重叠)中的30个随机个体以及其他种群中的30个随机个体进行了比较。 黑色条形是相同的人口比较,而彩色条形代表整个人口比较。 条形越高,样品间的一致性越好; 一个样本集中的SNP映射到另一样本集中的SNP。 首先,观察CEU与TSI之间的最小差异。 欧洲人在遗传上是相对同质的,甚至可以追溯到 人类基因的历史和地理 显然,大陆内部差异相对较小。 与CEU参考相关的下一个是古吉拉特人GIH。 从我们所知道的所有其他研究中,这是有道理的。 南亚人比其他任何一个人口都更接近西欧亚大陆。 同样,YRI与来自肯尼亚的班图族样本LWK最接近。 但是,尽管人口相关性的排名顺序与您在Fst中发现的大致相似,但作者注意到,成对比较不是对称的。 GIH可提供71%的TSI低频SNP信息,但TSI仅可提供55%的GIH信息。 为什么? GIH更加多样化,但古吉拉特人也可能是 类欧洲人和非欧洲人,因此您看到的是欧洲分数之间的重叠。 由于托斯卡纳人缺乏非欧洲人的血统,古吉拉特人将拥有其中未找到的等位基因。

说到古吉拉特人,我想强调的补品中有一些有趣的结果。 它们再次说明了语境的重要性。 PCA图表。 它们是现实的表示,但仅具有您解释它们的能力以及您提供给他们的输入的能力。 以下是来自补充内容的一组图像,您可以快速浏览它们。 我已经根据人口和背景对其进行了标记。 注意总体如何根据插入分析的总体集合移动位置。 这些都是方差的两个最大组成部分。

[nggallery ID = 8]

请注意,古吉拉特人和墨西哥裔美国人如何在全球PCA地块上重叠。 为什么? 因为它们的基因频率是东西欧亚遗传变异的线性组合,所以近似为一。 我之前已经指出 当您查看变化的其他组成部分时,重叠部分就会消失。 但是,如第二幅图所示,您不必这样做。 仅使用墨西哥裔美国人,欧洲裔和古吉拉特人,您会发现墨西哥裔美国人的方差成分不同于其他两个。 这是因为古吉拉特人的非欧洲血统与墨西哥裔美国人的血统迥然不同,尽管当他们排在欧洲人,东亚人和非洲人旁边时,他们聚在一起。 请记住,在全球范围内,PC 1是非洲对非非洲,因此删除非洲人会立即释放出该图的空间。 最后一个数字显示了墨西哥人与中国人和欧洲人的关系,再一次,您看到了变化,这不仅仅是中国人和欧洲人的线性组合,美洲印第安人也没有发现自己的独特之处。 相比之下, 非裔美国人 是西非人和欧洲人的直接结合。 值得庆幸的是,由于非裔美国人的遗传学,他们的父母群体位于原始的HapMap中。 对于古吉拉特人和墨西哥裔美国人,您在原始HapMap中仅拥有一半的图片,并且您必须使用不完善的东亚替代品(对于古吉拉特人而言,这是非常不完善的,对于墨西哥裔美国人来说则是不完美的)。

关于系统发育关系的最后一个问题: 我在其他南亚人中也看到过古吉拉特人中的一种奇怪模式 仍然很明显。 在与墨西哥裔美国人+欧洲人+古吉拉特人的情节中,古吉拉特人似乎是欧洲人+其他事物的线性组合。 什么赖希等。 会被称为“北印度祖先” +“南印度祖先”。 但是古吉拉特语+欧洲图显示,在变化的第二部分中,古吉拉特语的两个群集之间存在差异。 古吉拉特语小组正在发生某些事情,它在方差的最大组成部分上与欧洲人有些距离,因为在第二维度上,他们偏离了其他古吉拉特语群体和欧洲人。 这在质量上与南亚数据集的模式相似,而南亚数据集的变化与欧洲-南印度坐标轴正交。 在欧洲人和南印度人之间的那些中,正交分量是惊人的。 CEU + GHI + CHB的图也没有向我们表明它是东亚的。

hapmap3select无花果当然,本文不仅涉及验证扩展医学遗传学数据集和阐明系统发育关系的能力。 有几个小节,但我想我会跳到最后,它们暗示检测自然选择。 至少这似乎是初步的。 在最初的HapMap中,它们并没有真正适合人群,但为新组找到了一些有趣的东西。 左侧是补充文件中的表格(我对其进行了一些编辑),该表格显示了从 CMS 测试托斯卡纳,马赛和卢希亚(第二个是来自肯尼亚的Nilotic和Bantu)的自然选择。 我将结果提供给对特定位点感兴趣的读者,这些位点在列表中似乎对他们有意义或不有意义。 看来,本文的这一部分主要是为了表明新的种群在充实进化现象方面具有一定的作用,由于人口覆盖受限,HapMap的原始分析中可能缺少这些现象。 将托斯卡纳与CEU进行比较,将马赛与Luhya进行比较,应该可以告诉我们有关乳糖酶持久性演变的信息。 这些对的种群在祖先方面(尤其是欧洲群体)彼此非常接近,但是毫无疑问,当地的生态和文化条件施加了不同的选择压力(大多数托斯卡纳人似乎缺乏常见的乳糖酶持久性等位基因)。北欧我上次检查过)。

最后,从结论:

随着测序技术的改进,低频变化变得越来越容易获得。 更高的分辨率无疑将扩大我们识别与疾病和其他人类特征有关的基因和变异体的能力。 这项研究将CNP和低频SNP与常见SNP整合到比以前更多样化的人群中。 结果强调需要表征每个群体以及等位基因频率的每个阶层中的群体遗传参数,因为不可能从以往的经验中推断出常见的等位基因。 不出所料,低频变异在人群之间甚至是紧密相关的人群之间的共享较少,突出了广泛采样以全面了解人类变异的重要性。

勇敢的读者可以在以下位置随意浏览数据 HapMap网站.

引文: 国际HapMap 3联盟(2010)。 整合不同人群中常见和罕见的遗传变异性质: 10.1038 / nature09298

 

必须链接到具有这样标题的论文。 核苷酸和拷贝数变异对基因表达表型的相对影响:

…SNP 和 CNV 分别捕获了检测到的基因表达遗传变异总量的 83.6% 和 17.7%, 但这两种变异发出的信号几乎没有重叠……

以下是一篇热门新闻文章的引述:

“我们已经能够回顾我们的历史,发现更古老的、可能在人群中共享的变化,”威康信托桑格研究所的资深作者兼项目负责人马诺利斯·德米扎基斯博士解释说。 “但我们也发现了许多较新且不太普遍的现象。”

这些是我们最近发展的一部分 以及在了解基因变化的起源和个人后果(尤其是对我们的福祉)方面迈出的一步。这是生物学上重要的 DNA 序列变异的第一代图谱”

 
• 类别: 科学 •标签: 进化, 基因, 堆图 
拉齐布汗
关于拉齐卜·汗

“我拥有生物学和生物化学学位,对遗传学,历史和哲学充满热情,虾是我最喜欢的食物。如果您想了解更多信息,请访问http://www.razib.com上的链接”