-Unz评论

验证我的基因！

拉齐布汗 •28年2011月XNUMX日

•1,000字 • 28 Comments

RSS

听着，证明！

在下面的评论中，安东尼奥向我指出了这份工作文件， DNA祖先测试对美国人的身份有何启示？审查关于种族和基因组学的舆论。我可能有点呆板，但是我无法确定在哪里可以找到最新版本（我在一个作者的网站上偶然发现了另一个工作文件版本）。这是摘要：

基因组学研究不久将对我们生活的许多方面产生深远影响，但其政治影响和关联仍未得到开发。我们在此研究项目中的广泛目标是分析美国人正在学习的基因组科学知识，以及他们如何应对这一新的挑战。 可能 皱巴巴的 技术。

我们在这里通过关注基因组学革命的一个领域来实现这一目标，即基因组学与种族和民族认同的关系。基因组祖先测试可以通过显示种族边界模糊或混合来模糊种族边界，或者通过揭示祖先的同质性或指向特定地理区域或群体作为可能的先祖来修正种族边界。某些测试或某些情况可能允许两种结果。以并行方式，关于种族的基因组信息可以强调其可延展性和社会建构性或可能的生物学基础。我们认为，个人选择获取哪些信息，以及他们如何对有关种族血统的基因信息做出反应将部分取决于他们自己的种族或种族身份。

我们以三种方式评估这些假设。首先是一项民意调查，其中包括关于接受对比DNA测试结果的假设个人的短片。其次是对大约5,500种报纸文章的自动内容分析，这些文章专注于种族相关的基因组学研究。最后，我们对大约700篇文章进行了细粒度，手工编码的内容分析，这些文章描述了进行DNA血统测试的人员。

三个主要发现与三个实证分析平行。首先，大多数受访者认为DNA血统测试的结果具有说服力，但是黑人和白人对他们的种族认同有不同的情感反应和影响。亚洲人和西班牙裔介于这两个极端之间，而多种族则表现出截然不同的反应模式。其次，报纸上的文章更多地教育了美国阅读公众，即种族具有遗传成分，而不是种族是纯粹的社会建构。第三，非裔美国人对表示种族分类模糊的测试不满意地做出了反应。本文以讨论，下一步步骤概述以及有关基因组学对政治科学和政治意义的观察作为结尾。

作为与我昨天指向的论文这有点过时了。自2010年中期以来，我们已经走了很远！这篇文章的顶部是我昨天在大约2个小时内生成的一些ADMIXTURE图。您的K = 10，带有〜250,000个标记。左侧是针对各种人群的结果，右侧是针对我为自己的利益而奔跑的个人的结果。识别号很小，但是您可以将其中一些识别出来。前两个分别是ID001和ID002，分别是我的父亲和母亲。我将打破隐私的标签，并告诉您常规读者Paul Conroy的ID010。他看起来像是……爱尔兰人。在该条形图中，还有许多其他常规读者和朋友，家人以及拉丁美洲的许多常规读者。如果要在此线程上，可以“退出”自己。我将告诉您ID042是匿名的泰米尔·婆罗门（Tamil Brahmin），而ID043是来自伊朗的亚述人Paul G.。 ID034是匿名的Ashkenazi犹太人，我之前曾发布过该基因型。

调查结果很好， 但是现在正在重新建立对基因组学的公众接受和解释。我花了一些时间在最好的方法上，以从ADMIXTURE和PCA中获得一些见解，因为我不想让人们感到困惑。大多数反应是平庸的。事实证明，以拉丁美洲人为“纯西班牙人”为前提的拉丁美洲人并不总是“纯西班牙人”。向往美国原住民血统的白人美国人的希望常常破灭了。白人美国人由于对周围原住民血液的浪漫主义而拒绝了部分美国原住民的祖父母的家庭历史，结果证明他们是部分美国原住民的美国人。

人们确实有一些需要解决的困惑，但这并不像学者们会给他们这么多的见识。我知道上面是一篇工作论文，但下面的句子中出现了一段简短的句子：“……从定义上讲，西班牙裔或多或少都是混血儿……”。不，西班牙裔美国人在美国是专门针对种族中立的术语而构建的。显然，来自加勒比海地区的许多西班牙裔人也不会自认是混血儿。老实说，作者知道任何西班牙裔吗？

那么，您在科学家谱学方面有什么经验？ 我已经谈论过自己的个人旅程最后。我认为种族作为一个概念确实具有生物学效用，但我向前迈进的最大问号是口述历史如何与我们的基因组所告诉我们的迅速分离。特别是锚享有特权的祖先。从各个方面来看，我已经令我满意的是，母亲的口述历史和文字记录告诉我们，母亲的祖母确实有少量但可检测的中东血统。但是，这与她和我父亲共享的一部分相形见which，这使他们与东亚有联系。但是没有人知道任何这样的联系。这些都是被遗忘的祖先，这让我反思了模因的记忆并不一定是对基因的记忆。这可能不像通过个人基因组学来种族化那样有趣，但是在一定程度上这问题是20世纪。数十万人正步入未来，无论模棱两可的算法所产生的结果看起来多么“令人担忧”。

• 类别：科学 •标签：混合物, 祖先推论, 人类学, 生物学, 基因, 基因组学, 个人基因组学, 人口遗传学, 种族, 科学家谱

使用ADMIXTURE逐步分析祖先

拉齐布汗 •14年2011月XNUMX日

•2,600字 • 17 Comments

RSS

在过去的几个月里，我希望更多的人会开始做扎克·阿杰马尔（Zack Ajmal）, 二烯及 David ，一直在做。这里有公共数据集和开放源代码软件，因此任何有书呆子倾向的人都可以出于好奇而探索自己的问题。这样你就可以看到 功率和台式机上基因组学的局限性。我想知道是否更多人尚未开始执行此操作的最大原因之一是格式化。例如，将矩阵格式的文件转换为谱系格式可能会很麻烦。但是数据涌入者并没有结束，请看一下 1000个基因组项目！

我一直在想，我需要写一篇对人们来说是“软着陆”的文章，以便我们可以减少这种事情的“激活能量”……一旦您着迷了，您只会更深入。幸运的是，一位匿名提示者向我发送了指向URL的链接，该URL包含已合并，已经完成谱系格式化的庞大数据集。以下是人口：

功夫	布里亚特人	豪萨语	玛达	旁遮普人阿林	托纳克
阿迪吉	柬埔寨	哈扎拉	马克兰尼	侏儒	Tu
非裔美国人	中文	喝骂	马来亚人	罗马尼亚人	土家族
阿尔及利亚	华裔美国人	赫镇	曼登卡	俄语	突尼斯
阿尔泰人	楚科奇人	匈牙利	玛雅	撒哈拉沙漠	土耳其人
阿鲁尔	楚瓦什人	他们	姆布蒂	萨基利	托斯卡纳
阿普·布拉敏（Ap Brahmin）	科钦犹太人	伊博	美拉尼西亚	撒玛利亚人	图维尼人
阿普马迪加	哥伦比亚	伊朗犹太人	墨西哥人	萨摩亚	乌尔卡拉
阿普马拉	塞浦路斯人	伊朗人	苗	圣	犹他州白人
亚美尼亚	通过	伊拉克犹太人	蒙古	三铌	维吾尔族
亚美尼亚人B	达ur尔	伊鲁拉	蒙古人	桑达威	乌兹别克斯坦犹太人
Ashkenazy犹太人	贡	意大利语	摩洛哥人	撒丁岛	乌兹别克人
阿塞拜疆犹太人	海豚	日文	摩洛哥犹太人	沙特	越南语
o路支	德鲁兹	约旦人	摩洛哥N	塞尔库普斯	格陵兰人
班巴兰	格陵兰人	卡巴	摩洛哥S	Sephardic犹太人	科萨
巴莫恩	埃及	卡拉什	莫扎比	她	锡伯
班图肯亚	埃及人	卡里蒂亚娜	N欧洲	信德	红宝石
南非	埃塞俄比亚犹太人	凯茨	纳西	新加坡华人	也门犹太人
巴斯克	埃塞俄比亚人	高棉	尼泊尔	新加坡印第安人	也门人
贝都因人	鄂温克族	金刚	恩加纳桑	新加坡马来语	Yi
北京中文	方	科里亚克人	恩古尼	斯洛文尼亚	约鲁巴语
白俄罗斯	法语	库尔德人	北坎纳迪	索托/茨瓦纳	尤卡吉尔斯
比亚卡	富拉尼	吉尔吉斯斯坦	奥卡迪亚人	西班牙人
贝尼·梅纳什（Bnei Menashe）	格鲁吉亚犹太人	拉hu	鄂伦春	斯塔尔斯科
玻利维亚	乔治亚人	黎巴嫩	巴勒斯坦的	苏瑞
婆罗辉	Gujaratis	勒金斯	帕尼亚	叙利亚人
rong	古吉拉特人B	利比亚	巴布亚	泰国人
布拉拉	哈扎	立陶宛	帕坦	泰米尔·婆罗门（Tamil Brahmin）
布鲁修	有	露雅	我问	泰米尔·达利特（Tamil Dalit）
布里亚特	韩南	马赛	皮马	同安区

该数据集具有约4,000个个体和约30,000个标记。二进制文件约为25 MB。下载有四个文件。 .bed，.bim和.fam采用谱系格式。 .csv是有关每个人（人口，地区等，与特定标识号绑定）的信息的“主列表”。这一点很重要，因为一旦有了一些输出文件，就需要弄清楚它的含义并进行可视化，这仅在拥有一个不仅包含家庭和个人信息的主列表的情况下，才具有参考价值。

这里是链接到文件以下载上述所有人群。我已经将其拉下并运行它，所以我知道它不是恶意软件。

所以现在怎么办？ 该职位将分为三部分。

1）在ADMIXTURE中运行此数据

2）在R中可视化

3）在Plink中处理此数据

＃1并不取决于＃2和＃3，因此我将首先这样做。您无需阅读＃2和＃3。实际上，你们中的某些人可能真的很擅长处理电子表格格式的数据，因此可能不需要排在第二位。但是在R部分中，我还将为您提供更简单的电子表格输出，因此，即使您不关心R的可视化，也至少可以更好地管理.csvs集。＃2很重要，如果您想限制数据集，并在其末尾添加自己的3andMe文件。

＃1在ADMIXTURE中运行数据

首先，您需要Linux或MacOS。如果您使用的是Windows，五笔应用程序允许您必须具有双重启动功能。它在Windows旁边运行Ubuntu Linux，并且您可以像Windows应用程序一样将其卸载。

我正在Ubuntu Linux上执行此操作，以供您参考。假设您拥有正确的操作系统，那么现在您需要混合物。您可以将文件夹放在任何地方。

您需要使用终端转到您拥有ADMIXTURE的文件夹。左图显示了我的操作。您需要单击终端应用程序，然后执行“ cd”命令以进入相应的文件夹。我的ADMIXTURE程序在桌面上的“ GA”文件夹和“ admix2”子文件夹中。所以我输入了您看到的内容。 “ cd”命令使您上下移动文件夹。如果它使您感到困惑，请用Google搜索它，尽管您不知道它的作用，但是只要将ADMIXTURE提取到桌面，然后键入“ cd Desktop”，就可以了。这将将来会使您的桌面杂乱无章……但是，如果您需要尽快完成某些工作而又不知道如何在Linux中导航，那应该可以。

因此，现在您有了ADMIXTURE，以及ADMIXTURE将要分析的文件。你做什么工作？您需要确保ADMIXTURE和您的文件位于相同的文件夹/位置。因此，如果ADMIXTURE位于桌面上，则只需将文件提取到桌面上即可。现在您需要运行一个命令。您会看到我正在运行ADMIXTURE的屏幕截图。您可能需要省略./（即，“混合物”与“ ./混合物”）。您会看到文件名。选项-j2是由于我有两个内核。如果您不知道这意味着什么，请忽略它。它可以加快运行速度。最后一个数字是K。所以这是针对K = 4。

现在程序将运行。多长时间取决于文件的大小以及K的数量。我经常在一夜之间针对较大的K运行该程序。如果您想花大钱并进行交叉验证之类的事情，则需要花费更长的时间。被警告。左侧的屏幕截图是ADMIXTURE进行操作时所要运行的典型画面。不用担心，该算法正在运行。如果您观看了足够长的时间，将会了解到屏幕上的哪些值很可能表明它即将完成，并且可以开始预测可以从中进行推断的输出文件。

完成！右侧是完成ADMIXTURE后的画面。如前所述，有输出文件。这是真正有趣且有用的东西，但是即使在此屏幕上也有好处。基本矩阵为您显示假定祖先群体之间的Fst距离。 Fst正在测量数据集中方差的比例，这可以归因于总体方差。值越小，两个总体之间的差异量就越小。在此屏幕上，您看到四个种群，因为我将K设置为4。Fst由祖先等位基因频率生成，这些频率位于输出文件中。请记住，这些是抽象种群之间的距离，而不是真实种群之间的距离。

原始文件是euraocean.bed，euraocean.bim和euraocean.fam。因此输出文件如下所示：

Euraocean.4.Q Euraocean.4.F

4代表K。第一个文件包含数据集中每个个体的假定祖先种群比例的列表，这些个体位于单独的行上。第二个文件包含由参数K生成的祖先群体的所有等位基因频率。

你怎么办呢？ euraocean.4.Q与euraocean.fam有关，该文件逐行具有家庭和个人ID。除了原始方式外，我不知道如何使用电子表格，因此我假设有多种方法可以合并文件并使每行具有祖先比例以及更详细的ID。生成总体平均值似乎也很重要。

但是我使用R来完成这项肮脏的工作。

＃2使用R可视化输出

如果没有R，则需要安装它。如果您不知道如何开始，控制-f sudo。那应该把它拉下来。一旦安装了R，请确保位于ADMIXTURE所在的文件夹中。然后键入“ R”（键入命令时不加引号！）。现在您在R中，您会做什么？以下是您需要执行的操作的详细信息：

1）取Q文件，将其泵入数据框

2）获取主列表，将其泵入数据框

3）取得.fam文件，将其泵入数据帧

4）混合搭配

5）计算平均比例，产出人口等

6）可视化！

如果您需要了解如何安装R，则可能不知道如何进行安装。当我第一次开始使用ADMIXTURE输出文件时，我编写了一个快速且肮脏的脚本。我几乎不记得我现在正在使用此脚本做什么，因为我不在乎细节。但现在为您服务。不过，首先您需要做一件事： 使用一个主列表，该列表的格式与您下载的列表略有不同。 这里是修改后的主列表.

将其放在与ADMIXTURE相同的文件夹中。 然后再次输入“ R”来启动R。运行上面看到的命令。这将创建一个“ HGDPMaster”数据框。这是我给您运行的脚本所必需的。

脚本在这里。如果没有下载，请复制并粘贴并在与ADMIXTURE相同的文件夹中创建文件“ Rstuff.R”。您必须操纵一些变量。这是相关的部分：

###############＃更改这些########### ###输出文件fileName <-“ euraocean” fileType <-“ Q” ####设置到#lowest K Start_K <-12 #highest K End_K <-12的人口数量

您需要将文件名更改为输出的文件名。如果您进行了任何操作，对于K = 2，它应该为ref.2.Q。因此名称为“ ref”。您还需要输入K的数量。我经常同时运行许多文件，这些文件在早上都有输出文件。因此，我通常以2开始，以12结尾。如果只想输出一个，例如2，则将Start_K更改为2，将End_K更改为2。 这些是您唯一的变量需要改变。 但是，您还可以做更多的事情。 R用＃进行“注释”，因此我注释了一个部分，您可以在其中限制输出到特定总体，以减少条形图的繁忙度。如果您看一下脚本，您将明白我的意思，只需删除所有＃号，然后根据自己的喜好进行编辑。请注意，外壳很重要，因此请确保将其小写（如果您查看主列表，则可以理解）。该脚本的确有一个大写的字符串，但这仅用于输出。还有一小部分，您可以在其中根据自己的喜好重新命名名称。

要运行脚本，请执行以下操作：

来源（“ Rstuff.R”）

它应该输出条形图，并生成一些电子表格文件。您可以做更多的事情……但是如果您可以做更多的事情，您将不会读这篇文章。让我们继续下一个问题。所以现在你想知道： 有什么办法可以更改数据文件或将自己添加到其中？ 继续阅读...。

＃3使用Plink操纵数据文件

现在你需要砰砰。我通常将其放在与ADMIXTURE并行的子文件夹相同的较大文件夹中。您可以这样运行Plink命令：“ ./ plink”或“ plink”。取决于环境（请记住，引号仅适用于帖子！）。使用Plink可以做很多事情。我将向您展示如何做两件事。

＃1从数据集中删除个人

＃2将您自己（或您拥有23andMe文件的人）添加到数据集中

＃1很重要，因为地块忙于太多的方差。此外，非洲人和经历了人口瓶颈的遗传分离株往往使ADMIXTURE不堪重负。您可能要删除它们。为此，您需要使用删除选项。您需要删除个人。

这是您拥有的文件的一种选择：

./plink --bfile ref-删除removelist.txt --make-bed --out ref已删除

上面是怎么回事？您正在使用二进制的谱系文件，因此启用了–bfile选项。使用–remove进行操作，然后创建第二个家谱文件refRemoved。因此，您将拥有refRemoved.bed，refRemoved.bim和refRemoved.fam。显然removelist.txt具有您要删除的内容。每行都有您要删除的人的家庭ID和个人ID，以空格分隔。最简单的方法可能是打开主列表。对于我上面给你的那一列，最后一列是家庭ID，第一列是个人ID。在第一列之后剪切并粘贴第一列，删除其他列，然后保存。我通常会删除引号和制表符，将其更改为.txt文件，然后就可以使用了。

但是您的23andMe文件呢？您需要将其转换为谱系。我已经创建了一个快速且肮脏的perl脚本来执行此操作。你可以找到它点击此处。下载或剪切并粘贴。您需要删除23andMe文件顶部的注释。也就是说，您需要删除第一个SNP之前的所有内容。假设已完成操作，请在放置脚本的文件夹中的命令行中执行此操作（您可以通过“ cd”调用进入该文件夹）：

perl convert.pl“ YourFileName”“ 001”“ 001”

该脚本将触发，从第一个参数获取文件名，然后输出两个文件YourFileName.ped和YourFileName.map。那另外两个参数呢？他们正在生成您的家庭ID和个人ID。在这种情况下，它们将是FAM001和ID001。您需要将它们输入到主列表中！否则，您将不会出现在条形图上。还输入您的种族等。或者，如果您想成为条形图的一部分，则只需输入您的名字。

请注意，您拥有.ped文件，而不是.bed文件。这些很大。现在，您需要将文本转换为二进制谱系。将YourName文件移动到plink文件夹。制作二进制文件：

./plink --file 你的文件名 --make-bed --out 你的文件名

现在您有了YourFileName.bed YourFileName.bim YourFileName.fam。最好将您的SNP限制为与参考数据集中的SNP相同。因此，请从参考资料中获取这些内容：

./plink --bfile ref --write-snplist --out SNP

您应该有一个文件SNPs.snplist。使用它们来过滤您的23andMe文件。

./plink --bfile YourFileName-提取SNPs.snplist --make-bed --out YourFileNameFiltered

现在您要合并：

./plink --bfile引用--bmerge YourFileNameFiltered.bed YourFileNameFiltered.bim YourFileNameFiltered.fam --make-bed --out ref

现在，您已附加到参考数据集！如果打开ref.fam文件，则您的家庭ID和个人ID应该位于列表的末尾。

如果您到此为止都感到困惑，那么我想以显示所有内容的内容结束将是一件很高兴的事情。下面，我过滤了大多数非洲和新世界人口的参考数据集，并将其从K = 2运行到K =12。大约需要10个小时才能完成。我还限制了使用以上脚本显示的总体，因此它不会过于集群化。这里有电子表格运行产生的结果（它们将位于您运行R脚本的文件夹中，并且名称的形式为“ K = 2”）。

[zenphotopress相册= 273排序=排序顺序号= 11]

• 类别：科学 •标签：混合物, 祖先推论, 多德卡德, 基因, 基因组学, 哈拉帕祖先项目, 个人基因组学, 友情链接