-Unz评论

RSS

关注@razibkhan

作者 筛选？ ❌

没有发现

◄►书签◄❌►▲ ▼全部切换总目录▲▼添加到图书馆从图书馆中删除 • B显示评论下一个新评论下一个新回复了解更多

回复同意/不同意/等等更多... This Commenter This Thread Hide Thread Display All Comments

同意不同意谢谢LOL轮唱

这些按钮可将您的公开协议，异议，感谢，LOL或巨魔与所选注释一起注册。仅对最近使用“记住我的信息”复选框保存姓名和电子邮件的频繁评论者可用，并且在任何八个小时的时间内也只能使用三次。

电邮评论忽略评论者关注评论者

1000 个基因组数据，290,000 个 SNP

拉齐布汗 •30年2015月XNUMX日

•100字 • 4 Comments

RSS

为了纪念 1000 Genomes 论文的发布，这里有系谱文件 2,500 1000 Genomes 样本。 290,000 个 SNP 与 HGDP 和其他公共 SNP 芯片数据集重叠。 .fam 具有人口 ID。对于它的工作，我只是使用链接 2 从 VCF 格式转换。

• 类别：科学 •标签：基因组

缩短预期间隔

拉齐布汗 •6年2011月XNUMX日

•1,800字 • 8 Comments

RSS

髓：遗传变异越稀有，该变异就越有可能是特定于特定人群的。包括有关当前技术中遗漏的这些遗传变异的分布的信息，可以大大提高统计推断的准确性。

几天之前我顺便提到 an 刊文 in 纽约时报 该论文报告了一篇论文的结果，该论文说明了稀有等位基因上可能存在明显分化的种群。我的意思是说某些遗传变异以非常低的频率出现。事实证明，其中许多是低频变体私立与特定人群相比，与跨越不同人群的更高频率变体形成鲜明对比。该参考论文的一位作者提出的解释是，频率较高的变体大概可以追溯到人口在世界范围内变得地理多样化之前的时间。更高频率下的共享变体就是共享过去历史的阴影。相比之下，稀有变体反映了最近发生的事件，从而缩小了所影响事件的范围。

我现在已经读过有问题的论文，人口历史和人口中罕见的等位基因共享。从我所能收集到的 纽约时报 这篇文章实际上是对讨论中强调的一些问题的阐述。在方法和结果方面，论文的“实质”实际上是技术性的，并且深深地嵌入到数学统计语言中。例如：

经过进一步考虑，我决定就现场频谱计算的详细信息，以纯正的英语为您提供我笨拙的阐述。毕竟，本文中有足够的兴趣点可以让我更有效地运用我的语言才能。一，摘要：

高通量测序技术可实现人类基因组变异的总体水平调查。在这里，我们检查了整个大陆人群的联合等位基因频率分布，并提出了一种将全基因组，低覆盖率数据和目标高覆盖率数据的互补方面进行组合的方法。我们将这种方法应用于“千人基因组计划”试点阶段生成的数据， 包括来自HapMap欧洲，亚洲和非洲小组的2个样品的全基因组4-179x覆盖率数据，以及来自800个种群的697个个体的XNUMX个基因的外显子的高覆盖率靶序列。 我们使用从这些数据中获得的现场频谱来推断非洲，欧洲和亚洲人后裔的非洲外模型的人口统计参数，并通过基于折刀的方法来预测将要发生的遗传多样性的数量。随着样本数量的增加而被发现。我们预测，在每个种群中找到约100,000个测序染色体后，每个种群中发现的非同义编码变体数量将达到1,000，而相同数目的同义变体将需要约2,500条染色体。除此之外，由于近期人口增长较快，预计欧洲和亚洲小组人口中的隔离地点数量将超过非洲小组。总体而言，我们发现大多数人类基因组可变位点都很罕见，并且在不同人群之间几乎没有共享。 我们的结果强调指出，由于稀有性和较高的群体差异性，跨不同人群的特定稀有遗传变异的疾病关联复制必须克服统计能力的降低。

第一个数字说明了该论文中最清晰但最不令人惊讶的发现之一：两个不同群体之间的稀有等位基因没有重叠。在此小组中，他们正在比较北京（CHB）和尼日利亚（YRI）的约鲁巴语的中文。他们专注于稀有等位基因，这些稀有等位基因由样本中15个样本中的100个或更少的变体定义。两种种群的结合产生了约3,300个等位基因，但只有 这些人口中约有200个相交。 换句话说，这些人群中约有90％以上是等位基因。这立即提示您这些遗传变异的特殊性，因为您应该知道，在任何随机多态性基因中，种群变异之间的差异要远小于此。直方图上的相交区域特别是“平坦”，而在直方图上则是“凉爽” 热图。相比之下，图表的“边缘”由每个相应种群专有的等位基因定义，在计数上显示出广泛的分布（请注意，与中度罕见的等位基因相比，非常罕见的等位基因要多得多）。

本文的一个重要方面是 他们综合了“高覆盖率”和“低覆盖率”测序工作的结果。 前者在基因组的实际状态方面是非常准确的，但通常具有很强的针对性和狭窄性（在本文中，他们专注于一组外显子组，即实际上编码蛋白质的基因组区域）。相反，后者覆盖了更广泛的基因组范围（在这种情况下为完整基因组），但可能不那么准确。当人们着眼于低频变体时，可以立即想象出这个问题： 数据中的错误以及样本量的限制可能会导致等位基因膨胀或遗漏。 当涉及高频等位基因时，错误就少了，因为这里和那里的错误都不会改变定性评估。无论如何，通过将在基因组深层覆盖区域中发现的稀有变体与在较薄层覆盖的项目中产生的估计的低估值进行比较，作者生成了参数，使他们能够将私人等位基因的比例作为频率跨度的函数进行投影人口。

在左侧，您会看到由其方法生成的折线图上的一系列序列。在x轴上，您有次要的等位基因频率（基因座上的罕见变体）。对于y轴，您拥有两个群体中共享的等位基因比率。 对我而言，值得注意的是，即使两个密切相关的种群在非常低的频率上也往往会产生很大的差异！ 我认为中文数据需要一些解释。丹佛的华人几乎可以肯定偏向华南样本。从历史上看，美国华人是广东话的不成比例，而较新的移民浪潮往往是福建人，无论是直接来自福建还是来自台湾的福建人（在台湾居多）。尽管可能是国际主义者，但北京华人显然将从该国北部采样更多。 PCA地块上显示出这种差异，在北京和丹佛的中国样本中，显示了从人口到他们的北部和南部的距离，如果后者是从中国南部的人口中获得的话，您会期望这些距离。

甚至在密切相关的人群中也不会共享非常罕见的等位基因的事实也有当您想到它时当然会感到惊讶（事后看来，一切都是如此明显！）。例如，大约在1,500年前的汉代，在中国王朝之间的第一个王朝时期（这段不统一的时期，持续了三个世纪），汉人居住的地区很多。公元1000年左右的宋朝，长江流域和以南的省份在人口统计学上明显超过了黄河流域。如果不考虑迁徙，这平均需要大约1,000年的时间，即40个世代（假设25年）才能出现新的遗传变异，这些变异可能分别属于中国北方和南方的汉人。当然，推定人群中也适用相同的过程，而且还会有家族的私人等位基因。也就是说，家族血统所特有的最近起源的遗传标记（更广泛的解释是我们已经知道了串联重复，但这里我们只关注单核苷酸多态性，即一个碱基对的变化）。

最后，让我们看看他们的主要人口统计发现，该发现在 纽约时报。他们估计，在他们的数据集中，亚洲人和非洲人的最后共同祖先大约是距今约50,000年。这绝对不足为奇。正如他们所指出的，这完全与考古记录相吻合。令人着迷的是信心：在45％的区间内为69至95万年。对于我来说，这似乎恰好是狭义的，他们通过使用带有较大间隔的噪声较大的数据集来检查较早的估计来确认这一点。这是他们从数据中推断出的粗略的人口统计模型：

CEU指犹他州白人，CHB指北京中国人，JPT指日本人，YRI指约鲁巴。您可以看到，他们对欧洲人和亚洲人最后一个共同祖先的估计约为BP 23万年，与其他计算结果相符，尽管就我个人的口味而言偏低。这 N 指人口规模，而树的性质说明了非非洲的瓶颈，其次是人口膨胀与相对在过去约100,000年中，非洲的人口数量保持不变。

真正的好东西来自讨论。这是我突然想到的东西： “应该强调的是，由于我们使用一个西非人口作为非洲小组，因此我们的模型所描述的分歧可能早于实际的非洲以外事件发生。” 在讨论中，反复指出它们的结果对许多情况都敏感。例如，他们的使用人口有限，而且他们的人口历史历史模型显然不像以前那样复杂。因此，这些结果也许应该被视为重要的指导，是即将发生的事情的指针，而不是放下心怀抱负的实质性标志。考虑到他们所拥有的人口和可用的数据，此处概述的方法似乎非常有用，但是仍然受到人口集合和数据性质的限制（在不久的将来将被消除）。

最后，在医学遗传学上有实际的回报。 纽约时报 准确地反映出可以从中得出的推论： 如果许多常见的疾病是由于许多罕见的变异引起的，那么对细粒度的人类变异有更好的了解就显得尤为重要。。已发现在一个种群中通过全基因组关联在一个种群中发现的风险等位基因在其他种群中通常可以很好地预测，但是如果这些更常见的变体是我们共同祖传遗产的一部分，那么它们对遗传背景应该相对稳健。对于许多罕见的变体可能并非如此，这反映了近代历史的特殊性。如果医学在基因组意义上真正是个人的，那么它似乎将比10年前所希望的更依赖于上下文。

引文： Simon Gravel，Brenna M.Henn，Ryan N.Gutenkunst，Amit R.Indap，Gabor T.Marth，Andrew G.Clark，Fuli Yu，Richard A.Gibbs，《 1000个基因组计划》和Carlos D.Bustamante（2011）。人口历史和人类之间罕见的等位基因共享PNAS： 10.1073 / pnas.1019276108

• 类别：科学 •标签：进化, 基因, 基因组, 基因组学, 人类进化, 人类遗传学, 人类基因组学, 统计遗传学

Ashkenazi 23andMe v3的基因分型

拉齐布汗 •11年2011月XNUMX日

•200字 • 1 Comment

RSS

最近，一位朋友得到了他们的23andMe基因型结果，想知道他们是否可以为“更大的利益”做些什么。我告诉他，他应该将其基因型投放到公共领域，并在其上加上自己的名字。由于种种原因，他拒绝走这么远的距离，但他确实同意我将他的基因型放在网上，而不提供个人身份信息。我可以告诉你，他是一个相对年轻的男性（据他所知）是阿什肯纳齐犹太人的遗产。

您可以获取带有原始文本文件和二进制谱系格式文件的压缩文件夹点击此处。如果您在30秒后单击免费下载选项，则将在大约5分钟内通过宽带连接获取文件（至少是我的经验）。

如果还有其他人想将他们的基因型带给您尽可能多或少的信息，只需在contactgxnp -at-gmail -dotcom上给我发电子邮件。这是一个与其他人一起使用电子表格他们已经将他们的gentoypes放在网上。我想和一群在不久的将来做到这一点的人发表一个“综述”帖子。

• 类别：科学 •标签：基因, 基因组, 基因组学, 公共基因型

基因的层次和断层

拉齐布汗 •11年2010月XNUMX日

•900字 • 9 Comments

RSS

800px-横切_关系

At 基因组解压缩卢克·乔斯汀（Luke Jostins）详细阐述了他现在关于其父系的遗传事实如何改变了他如何看待自己的个人历史：

…我父亲的父亲是拉脱维亚人，N1单倍群在波罗的海地区并不罕见。实际上，亚组N1c1在东欧部分地区比在亚洲更常见。

最初，这似乎很好地融入了我们古代家族史的一部分。有一段民间历史传承给我，作为我的父亲和我的叔叔约翰尼，乔斯汀斯的血统可能含有蒙古的痕迹。这样做的理由是，在1260年左右，即内战导致蒙古帝国在欧洲消亡之前，帝国一直扩展到波罗的海国家。正是在这一点上，根据我的支持N1c1的人的假设，蒙古族DNA进入了乔斯汀斯家族。

不幸的是，经过仔细检查，这个故事并没有得到DNA证据的真正支持。著名的蒙古语扩展单倍群实际上是C3，这是蒙古语的模态单倍群。相比之下，N1c1在欧洲已经存在了数千年，而且还很老，而且传播范围太广，无法代表最近的扩展。

更大的DNA 左边是浓度的频率图 N1c1。根据目前的分布情况，以及东波罗的海地区的模式多样性，人们必须对一种简单的东西方模式持怀疑态度。有趣的是，该单倍群在芬兰和瑞典之间的频率差异非常高。同样，N1c1的分支似乎在俄罗斯的鲁里基德人中发现。这是国王的统治王朝 RUS，这个人最初似乎是瑞典的斯堪的纳维亚人。最终，他们统治了芬兰人，斯拉夫人和斯堪的纳维亚人的多语制国家，并把自己的身份与斯拉夫农民的身份融合在一起。在此过程中，他们沿用了布尔加斯人的例子，这些人在种族上与众不同斯拉夫主题，但除保留其民族名称外，其余全部被吸收。有证据表明，塞族人是一个类似的案例，这是一个伊朗集团，该集团最终被吸收到南斯拉夫地区。

回到北欧，让我们尝试获得更多的观点。卢克·乔斯汀斯（Luke Jostins）个人历史毕竟是人口历史，以及我们对人口背景的了解都会影响卢克如何看待自己的个人历史。为了做到这一点，我认为我很快就回避了一些我藏匿的关于波罗的海遗传学的较早的论文。事实证明并没有这么快。但是这里有一些数字。首先，从单核苷酸多态性的全基因组分析揭示了北欧的种群结构。:

芬普洛斯

从欧洲人的遗传结构：东北视角:

最后，从移民浪潮向波罗的海地区（N3 = N1c1）：

最终的

也看我的最近的帖子 on 北欧遗传学，以及关于农业主义者与农民的争论。十年前，我们有一些简单的模型，但现在变得更加混乱和复杂。混杂因素：

–男性和女性的生殖偏斜参数不同。简而言之，“超级男性”的高生育力以及父系地位可以在Y和mtDNA上产生不同的模式

–选择mtDNA。我们认为是中性的“中性”标记可能不是中性的

–基于现代变异模式的过去推断与古代DNA发现之间的对应性差。我们的假设是错误的，或者我们太愚蠢以至于无法提取出真实的模式

–约会和输入某些单亲世系的持久性问题。考虑关于泛欧单倍群体的辩论 R1a1a * （丹·麦克阿瑟（Dan MacArthur）和我都携带这个Y血统，但是几个字母里有什么？）

–现实很复杂。从长远来看，这可能是最棘手的问题

我用了一个比喻最淡淡的描述随着时间和空间的遗传变异的流动。我认为，这可能在某些基本方面产生误导。 人口特征的特征在于不同的动力，持续的和长期的“流动”以及标点符号的“爆炸”。 最好的比喻可能是地质层的分层，而不是最无情的。尽管长期存在温和的磨损和分层，但火山和地震会定期爆发，破坏顺畅的堆积。灾难性事件的序列可以产生倒置。

考虑三个动态：

–按距离隔离。这是基因流的常规带/村到带/村过程。这可能类似于沉积物堆积（突变）和侵蚀（漂移）。

–人口扩散。一种文化引入了一种更有效的生产方式，从而迅速将人口扩展到处女地。这种情况的最新发生之一是新英格兰清教徒从30,000年的约1640年迅速发展到700,000年后的150多年。这些新英格兰人不仅“填满”了自己的家园，而且在共和国成立初期，他们就从东北爆发并在五大湖的许多地区居住。人口扩散就像地震一样，是当地地质的快速而有序的转变

–青蛙。欧洲人在拉丁美洲南部地区，澳大利亚或伊朗东部的蒙古人定居点是跳蛙的例子。我们对这些蛙蛙有清晰的文字记载，但如果没有这些文字，我们将不知道该怎么做。跳跃的青蛙就像火山喷发一样，重新排列下面的层并从上面沉积

至少根据卢克关于鲁里克（Rurik）血统的假设，他可以针对其他鲁里克（Rurikid）来测试自己的N1c1个人资料。大概模态单倍型及其近亲关系就是原始的鲁里克。

• 类别：科学 •标签：可用的, 基因, 基因组, 基因组解压缩, 基因组学

整个档案中的“基因组”项目