Unz评论•另类媒体选择$
美国主流媒体大都排除了有趣,重要和有争议的观点
通过电子邮件将此页面发送给其他人

 记住我的信息



=>
作者 筛选?
拉齐布汗
没有发现
 玩笑基因表达博客
/
友情链接

书签 全部切换变革理论添加到图书馆从图书馆中删除 • B
显示评论下一个新评论下一个新回复了解更多
回复同意/不同意/等等 更多... This Commenter This Thread Hide Thread Display All Comments
同意不同意谢谢LOL轮唱
这些按钮可将您的公开协议,异议,感谢,LOL或巨魔与所选注释一起注册。 仅对最近使用“记住我的信息”复选框保存姓名和电子邮件的频繁评论者可用,并且在任何八个小时的时间内也只能使用三次。
忽略评论者 关注评论者

长期的读者知道我花了很多时间在 砰砰,开发 肖恩·珀塞尔(Shaun Purcell)。 话虽如此,即使我使用的数据集不多,我也不得不求助于编写Shell脚本来依次执行各种Plink操作并使它们运行一整夜。 好吧,也许不再。 这是关于 WDIST基因组分析工具集:

WDIST是对流行的PLINK命令行工具的实验性重写,具有极大的改进的性能,并可在各种计算范围内进行扩展。 (以及全面的命令行帮助功能,以防万一,您会像我们一样健忘。)还提供了一些新功能,例如内存有效且GCTA 1.1的多线程与Mac / Windows兼容的实现关系矩阵计算器。

它补充了PLINK / SEQ库,该库专注于开发人员友好性并支持更复杂的数据格式。

它由Christopher Chang开发,并得到了NIH-NIDDK的生物建模实验室等的支持。 (信誉。)我们估计第一个完整版本将在2014年初准备好,并且在获得许可的情况下,我们将准备一个稳定的版本,适合作为PLINK v1.50的通用发行版。

更新: 也, PLATO:用于大型数据的分析,翻译和组织的平台.

 
• 类别: 科学 •标签: 基因组学, 友情链接, 翻译 

早期版本:

使用您的23andMe数据:使用MDS进行探索
在Plink中使用23andMe数据

重建印度人口史:

...我们假设,创始人效应对印度隐性疾病的负担甚至比血缘病还要重。 为了检验该假设,我们使用我们的数据来估计一组中的两个等位基因共享一个共同祖先的概率,而不是该组与其他印第安人之间的差异,然后将其与一个个体的两个等位基因最后共享一个祖先的概率进行比较。由于血缘关系,几代人...我们可以对其进行评估的15个印度群体中,有2个国家由于创始人事件而比血缘关系具有更高的患隐性疾病的可能性,其中包括所有印欧语系(表XNUMX)。 重要的是,系统地调查印度人群,以找出具有最强创始人效应的人群,并优先考虑进行隐性疾病和基因定位的研究。

南亚人口之间存在着很大的人口遗传距离,而不仅仅是地理因素。 具有更多的标记和广阔的数据集 丹·麦克阿瑟(Dan MacArthur) 将能够准确评估他的血统来自哪个南亚种姓。

但这是我认为自己是一个离群值的问题。 我本人的背景略有不同,我一直向人们解释说,我并非像大多数南亚人那样自交,只是开玩笑的占一半(据我所知,次大陆的穆斯林也有种姓,尽管他们的用语可能有所不同)。 我知道我的祖母来自一个婆罗门家族(这个家族的后代仍然保留着习俗),而我的祖父几乎可以肯定来自卡雅莎族(姓氏,母亲是谁)与)。 我的外婆祖母有相当多的非孟加拉血统,确实出现在我母亲的中东签名中。

但这是谈话。 我真的不像普通的布朗那样近亲吗? 利用我之前讨论的方法(请参阅上面的文章),我可以非常快速地检查这一点。


首先,您需要将数据集修剪为合理的同类参考人口,这些人口类似于您自己的种族构成。 推断近交程度的方法仅是查看遗传变异的分布,并了解您与人口规范之间的距离有多远。 由于不同的人群具有不同的背景分布,因此将自己置于错误的参考集中会导致荒谬。 与布须曼人的参考书相比,每个非非洲人都会自交。 计算不是错误的,但是它没有为您提供有用的信息。

在PHYLO的.fam文件中,我挑选了每个非巴基斯坦南亚人作为我的参考,主要是古吉拉特人,但也有一些南印度人。 通过将这些人群集中在一起查看预期的基因型,我想了解自己的位置。 另外,我将添加我的女儿和我的1/4菲律宾朋友作为对照,因为他们应该比其他所有人都少“近交”,因为它们是最近掺和的产品。

使用Plink的– -keep功能后,我将该文件与我自己,女儿和朋友的文件合并了。 大约有90,000个SNP,足以满足我想做的简单计算。 我将输出 F统计 带有– -het函数,如下所示:

plink – -noweb – -bfile数据集– -het

输出在plink.het中。 您将在最左侧的列中看到标签,并在最右侧的列中看到所需的统计信息。 在下面的结果中,从最近到最近的近亲排序,至少使用F统计量来衡量(这并不是完全准确的,因为总体上并不是真正的同质随机交配集,但我认为它可以直觉):

我的女儿和我的朋友具有负值的原因是,他们的纯合子比您应该得到的机会少。 但是它们是最近的混合物,因此近亲繁殖的问题对他们而言甚至是不均匀的。 Plink文档说,负F值是噪声(在这种情况下,它们不是污染),但我想我会将其归纳为并非完全同质的总体。 我在这份清单上的职位虽然不理想,但我会接受。 我相信我仍然可以声称自己比普通的棕色人少。

 

随着近年来 售价 99 美元 对于23andMe,我的许多朋友都购买了套件(终于!)。 现在23andMe的解释结果非常丰富,但是仍然缺少一些东西。 有很多 第三方工具 您可以使用,但我知道有些人可能想做自己的数据分析。 有很多方法可以解决此问题,但是我想在DIY基因组数据分析方面写一些文章,以使学习曲线的难度降低一些,并让人们开始学习。 真正开始走这条路的动机是一个大问题,但是我认为一旦克服困难,就会变得容易得多。

首先,你需要 砰砰。 最好在Mac或Linux上工作以进行繁重的分析,但是在这篇文章中,我将假定您在Windows平台上工作。 同样,这里的要点是使它易于访问。 如果没有,请下载Plink,然后将其解压缩到任意位置。


Plink是一个命令行工具,这意味着您需要使用旧的MS-DOS界面进入该文件夹。 因此,使用cd命令进入该文件夹。 这是我的shell的屏幕截图:

选择“ plink –noweb –bfile PhyloF –genome”是我输入的命令。 它不是目录结构的一部分。 如果您不了解cd命令,请参阅 维基百科条目。 这实际上只是浏览文件和文件夹的目录结构的一种简单方法。

现在您有了Plink。 我们需要将您的23andMe数据放入谱系格式。 另外,拥有其他参考数据集也将很方便。 去 点击此处。 现在,您需要单击ZIP选项。 这将下载一个74 MB的zip文件,其中包含您在左侧看到的所有文件。 其中大多数位于两个zip文件中,这是我提供给您将来使用的谱系文件数据集。 以后再说。 首先,您需要使用“ CONVERT_23AME_PED.pl”。这是一个Perl脚本,它将23andMe文本文件转换为Plink可以使用的谱系格式。 您需要Perl才能使用此脚本。

如果您使用的是Windows,则需要获得ActivePerl。 下载。 同样,您必须打开命令提示符并进入相应的文件夹。 在我的计算机上(这是我10年来第一次在Windows上使用Perl,这是我为本博客的读者而付出的牺牲!),它在C:目录中,因此您可能必须向上移动“输入“ cd ..”两次进入目录树(如果执行此操作,您将明白我的意思)。 进入Perl目录后,您需要进入bin目录。 记住将Perl脚本移到Perl目录中。 这是我尝试运行不带任何参数的Perl脚本时得到的屏幕:

基本上,需要有一个文件供脚本处理。 您应该有一个23andMe文本文件,即原始数据。 它将开始像这样:“ genome_”。 如果没有,请进入您的帐户,然后单击“浏览原始数据”。 如果您有多个帐户,此页面上将提供下载各种人的数据的选项。 它将下载您的个人资料中选择的任何人(对于大多数人来说,当然只有一个人)。

现在,您只需要选择按钮并输入密码即可。 服务器将下载一个8 MB的zip文件。 通过解压缩将其放入您的Perl / bin文件夹。 不要尝试处理该zip文件! 进入该位置后,现在将其添加为第一个参数。 我将其重命名为简短而有趣的名称,因为您将要输入它。您无需在其中放入唯一的id参数,但是如果您是我,我会这样做。 尝试“我”。 还有“我”作为家庭身份证。 在某些时候,您会做更复杂的事情,并且需要更少的傻瓜ID,但是现在不需要。

这是我用自己的数据运行Perl脚本的屏幕截图(我将文本文件重命名)。 如果无法识别文件名,请确保未在Windows中添加文件扩展名,这可能会造成混淆(例如,对于razibdata.txt,如果您在目录中看到的是扩展名,则必须输入razibdata参数值中的.txt.txt,因为扩展名是隐藏的):

有两个输出文件。 在我的情况下,它们是razibdata.ped和razibdata.map。 如您所见,它们是从原始文件中命名的。 您需要将它们都移动到Plink目录中。 .ped文件包含您的个人数据,前六列与您在上方输入或未输入的参数相同。 但这非常大,因为整个行都充满了您的23andMe基因型。 .map文件基本上具有有关SNP的信息。 这些都是文本文件,而且笨拙。 您需要将其制作成二进制文件。 在此末尾,有三个具有相同名称的新文件,其扩展名为.bed,.bim,.fam:

您会看到很多信息。 大多数与您无关,但请注意SNP的数量。 现在,您有了谱系文件! 伟大的。 你用它做什么? 很多东西。 你可以看一下 Plink文档。 因为.bed文件是二进制文件,所以永远不要打开它。 .bim具有SNP信息。 你不应该打开这个。 另一方面,合并数据集时,.fam很有用。 这是一个文本文件,其中包含您的所有个人和家庭ID信息。 在这种情况下,尽管您可以通过编辑.fam文件来更改ID,但对于一个文件来说,它并不能提供任何信息。

您只能对一个人做的一件事就是寻找纯合子。 该命令是:

plink –bfile mydata –homozyg

您输入您的二进制谱系文件名,不带扩展名。 观察到现在我们正在使用–bfile而不是–file。 如果您使用的是二进制文件而不是传统的文件,那么许多命令将是bCommand而不是Command。 二进制文件较小,命令执行速度快得多,所以请使用它们! 除非您在末尾使用–out命令来定义它们,否则输出文件通常以plink开头。 因此,上面有plink.hom。 它具有有关纯合性运行的一些有趣信息,但是除非您怀疑自己是近交亲戚,否则它可能并不太有启发性!

最终,我希望您在此操作的最后是根据参考集使用您自己的数据来计算MDS。 这就是我提供的数据中的PHYLO。 它有99,000个与23andMe重叠的SNP,以及1,500个个体。 我已经更改了.fam文件,以便所有家庭ID都可以识别为人口。 这将使您更轻松地分析输出。 首先,您需要合并文件。 因为您有很多额外的SNP,所以对您的数据集进行修剪将非常有用。

假设您已从此处下载的zip中解压缩了PHYLO,这是我的命令写出PHYLO中的SNP列表:

通过阅读此内容,您可以看到此数据集具有约99,000个SNP。 我修剪了它,以便更快地进行系统发育分析。 对于大多数分析来说,这已经足够了。 接下来要创建的是自己的数据副本,该副本没有那么多的SNP,因此可以很好地合并它们。 因为我创建了此数据集,所以我可以告诉您上述所有SNP可能都在您的23andMe文件中。 在上面的命令中,有一个文件plink.snplist,该文件将用于过滤数据集。

这是怎么做的:

现在我们已经准备好合并。 我会警告您,这在Windows上将永远存在! 不知道为什么。 另外,Windows往往会对文件扩展名做一些奇怪的事情。 如果Plink告诉您.fam不存在,请查看文件扩展名。 如果将某物标记为something.fam,则实际上可能是something.fam.fam。 无论如何,这是您的合并方式:

这将给您很多警告。 通常这无关紧要,但是有时它会告诉您可能需要“翻转”其中一个文件。 尝试翻转它。 如果仍然无法正常工作,我将删除引起问题的SNP。 像这样的东西:

老实说,您可能需要做很多事情才能合并数据集。 但是,这种23andMe基因型和PHYLO的特殊组合应该还不错。 假设您的合并有效。 你想让我做什么? 一件可能有趣的事情是MDS图(就像PCA图)。

首先,您要运行基因组命令,这需要永远完成。 如果您在入睡前做完这件事可能是最好的,只是在早上检查一下就可以了。 基因组命令将产生一个输出,您接下来将使用它。

注意输入文件。 那是在上一步中生成的。 值6是定义要输出多少尺寸的参数。 我的经验是,这个过程不会花费太长时间,因此我至少会考6次。 最终的结果是,您有一个plink.mds文件,其中包含家庭和个人ID的有序列表,以及6个维度的位置。 将其导入Excel,然后绘制MDS,强调自己的位置应该很简单。 由于我无法再使用Excel,因此不必费心找出如何绘制自己的位置,但是分布应该很熟悉。

现在就这样。 我将使用我提供的HapMap数据集撰写另一篇较少关注系统发育的文章。 我不知道我是否可以继续在Windows中执行此操作,但是希望这可以说明其中的大多数操作很简单(如果很乏味)。

 
• 类别: 科学 •标签: 基因组学, 友情链接 

在过去的几个月里,我希望更多的人会开始做 扎克·阿杰马尔(Zack Ajmal), 二烯David , 一直在做。 这里有公共数据集和开放源代码软件,因此任何有书呆子倾向的人都可以出于好奇而探索自己的问题。 这样你就可以看到 功率 台式机上基因组学的局限性。 我想知道是否更多人尚未开始执行此操作的最大原因之一是格式化。 例如,将矩阵格式的文件转换为谱系格式可能会很麻烦。 但是数据涌入者并没有结束,请看一下 1000个基因组 项目!

我一直在想,我需要写一篇对人们来说是“软着陆”的文章,以便我们可以减少这种事情的“激活能量”……一旦您着迷了,您只会更深入。 幸运的是,一位匿名提示者向我发送了指向URL的链接,该URL包含已合并,已经完成谱系格式化的庞大数据集。 以下是人口:

功夫 布里亚特人 豪萨语 玛达 旁遮普人阿林 托纳克
阿迪吉 柬埔寨 哈扎拉 马克兰尼 侏儒 Tu
非裔美国人 中文 喝骂 马来亚人 罗马尼亚人 土家族
阿尔及利亚 华裔美国人 赫镇 曼登卡 俄语 突尼斯
阿尔泰人 楚科奇人 匈牙利 玛雅 撒哈拉沙漠 土耳其人
阿鲁尔 楚瓦什人 他们 姆布蒂 萨基利 托斯卡纳
阿普·布拉敏(Ap Brahmin) 科钦犹太人 伊博 美拉尼西亚 撒玛利亚人 图维尼人
阿普马迪加 哥伦比亚 伊朗犹太人 墨西哥人 萨摩亚 乌尔卡拉
阿普马拉 塞浦路斯人 伊朗人 犹他州白人
亚美尼亚 通过 伊拉克犹太人 蒙古 三铌 维吾尔族
亚美尼亚人B 达ur尔 伊鲁拉 蒙古人 桑达威 乌兹别克斯坦犹太人
Ashkenazy犹太人 意大利语 摩洛哥人 撒丁岛 乌兹别克人
阿塞拜疆犹太人 海豚 日文 摩洛哥犹太人 沙特 越南语
o路支 德鲁兹 约旦人 摩洛哥N 塞尔库普斯 格陵兰人
班巴兰 格陵兰人 卡巴 摩洛哥S Sephardic犹太人 科萨
巴莫恩 埃及 卡拉什 莫扎比 锡伯
班图肯亚 埃及人 卡里蒂亚娜 N欧洲 信德 红宝石
南非 埃塞俄比亚犹太人 凯茨 纳西 新加坡华人 也门犹太人
巴斯克 埃塞俄比亚人 高棉 尼泊尔 新加坡印第安人 也门人
贝都因人 鄂温克族 金刚 恩加纳桑 新加坡马来语 Yi
北京中文 科里亚克人 恩古尼 斯洛文尼亚 约鲁巴语
白俄罗斯 法语 库尔德人 北坎纳迪 索托/茨瓦纳 尤卡吉尔斯
比亚卡 富拉尼 吉尔吉斯斯坦 奥卡迪亚人 西班牙人
贝尼·梅纳什(Bnei Menashe) 格鲁吉亚犹太人 拉hu 鄂伦春 斯塔尔斯科
玻利维亚 乔治亚人 黎巴嫩 巴勒斯坦的 苏瑞
婆罗辉 Gujaratis 勒金斯 帕尼亚 叙利亚人
rong 古吉拉特人B 利比亚 巴布亚 泰国人
布拉拉 哈扎 立陶宛 帕坦 泰米尔·婆罗门(Tamil Brahmin)
布鲁修 露雅 我问 泰米尔·达利特(Tamil Dalit)
布里亚特 韩南 马赛 皮马 同安区

该数据集具有约4,000个个体和约30,000个标记。 二进制文件约为25 MB。 下载有四个文件。 .bed,.bim和.fam采用谱系格式。 .csv是有关每个人(人口,地区等,与特定标识号绑定)的信息的“主列表”。 这一点很重要,因为一旦有了一些输出文件,就需要弄清楚它的含义并进行可视化,这仅在拥有一个不仅包含家庭和个人信息的主列表的情况下,才具有参考价值。

这里是 链接到文件以下载上述所有人群。 我已经将其拉下并运行它,所以我知道它不是恶意软件。

所以现在怎么办? 该职位将分为三部分。

1)在ADMIXTURE中运行此数据

2)在R中可视化

3)在Plink中处理此数据

#1并不取决于#2和#3,因此我将首先这样做。 您无需阅读#2和#3。 实际上,你们中的某些人可能真的很擅长处理电子表格格式的数据,因此可能不需要排在第二位。 但是在R部分中,我还将为您提供更简单的电子表格输出,因此,即使您不关心R的可视化,也至少可以更好地管理.csvs集。 #2很重要,如果您想限制数据集,并在其末尾添加自己的3andMe文件。

#1在ADMIXTURE中运行数据

首先,您需要Linux或MacOS。 如果您使用的是Windows, 五笔 应用程序允许您必须具有双重启动功能。 它在Windows旁边运行Ubuntu Linux,并且您可以像Windows应用程序一样将其卸载。

我正在Ubuntu Linux上执行此操作,以供您参考。 假设您拥有正确的操作系统,那么现在您需要 混合物。 您可以将文件夹放在任何地方。

您需要使用终端转到您拥有ADMIXTURE的文件夹。 左图显示了我的操作。 您需要单击终端应用程序,然后执行“ cd”命令以进入相应的文件夹。 我的ADMIXTURE程序在桌面上的“ GA”文件夹和“ admix2”子文件夹中。 所以我输入了您看到的内容。 “ cd”命令使您上下移动文件夹。 如果它使您感到困惑,请用Google搜索它,尽管您不知道它的作用,但是只要将ADMIXTURE提取到桌面,然后键入“ cd Desktop”,就可以了。 这 将来会使您的桌面杂乱无章……但是,如果您需要尽快完成某些工作而又不知道如何在Linux中导航,那应该可以。

因此,现在您有了ADMIXTURE,以及ADMIXTURE将要分析的文件。 你做什么工作? 您需要确保ADMIXTURE和您的文件位于相同的文件夹/位置。 因此,如果ADMIXTURE位于桌面上,则只需将文件提取到桌面上即可。 现在您需要运行一个命令。 您会看到我正在运行ADMIXTURE的屏幕截图。 您可能需要省略./(即,“混合物”与“ ./混合物”)。 您会看到文件名。 选项-j2是由于我有两个内核。 如果您不知道这意味着什么,请忽略它。 它可以加快运行速度。 最后一个数字是K。所以这是针对K = 4。

现在程序将运行。 多长时间取决于文件的大小以及K的数量。 我经常在一夜之间针对较大的K运行该程序。 如果您想花大钱并进行交叉验证之类的事情,则需要花费更长的时间。 被警告。 左侧的屏幕截图是ADMIXTURE进行操作时所要运行的典型画面。 不用担心,该算法正在运行。 如果您观看了足够长的时间,将会了解到屏幕上的哪些值很可能表明它即将完成,并且可以开始预测可以从中进行推断的输出文件。

完成! 右侧是完成ADMIXTURE后的画面。 如前所述,有输出文件。 这是真正有趣且有用的东西,但是即使在此屏幕上也有好处。 基本矩阵为您显示假定祖先群体之间的Fst距离。 Fst正在测量数据集中方差的比例,这可以归因于总体方差。 值越小,两个总体之间的差异量就越小。 在此屏幕上,您看到四个种群,因为我将K设置为4。Fst由祖先等位基因频率生成,这些频率位于输出文件中。 请记住,这些是抽象种群之间的距离,而不是真实种群之间的距离。

原始文件是euraocean.bed,euraocean.bim和euraocean.fam。 因此输出文件如下所示:

Euraocean.4.Q Euraocean.4.F

4代表K。第一个文件包含数据集中每个个体的假定祖先种群比例的列表,这些个体位于单独的行上。 第二个文件包含由参数K生成的祖先群体的所有等位基因频率。

你怎么办呢? euraocean.4.Q与euraocean.fam有关,该文件逐行具有家庭和个人ID。 除了原始方式外,我不知道如何使用电子表格,因此我假设有多种方法可以合并文件并使每行具有祖先比例以及更详细的ID。 生成总体平均值似乎也很重要。

但是我使用R来完成这项肮脏的工作。

#2使用R可视化输出

如果没有R,则需要安装它。 如果您不知道如何开始, 控制-f sudo。 那应该把它拉下来。 一旦安装了R,请确保位于ADMIXTURE所在的文件夹中。 然后键入“ R”(键入命令时不加引号!)。 现在您在R中,您会做什么? 以下是您需要执行的操作的详细信息:

1)取Q文件,将其泵入数据框

2)获取主列表,将其泵入数据框

3)取得.fam文件,将其泵入数据帧

4)混合搭配

5)计算平均比例,产出人口等

6)可视化!

如果您需要了解如何安装R,则可能不知道如何进行安装。 当我第一次开始使用ADMIXTURE输出文件时,我编写了一个快速且肮脏的脚本。 我几乎不记得我现在正在使用此脚本做什么,因为我不在乎细节。 但现在为您服务。 不过,首先您需要做一件事: 使用一个主列表,该列表的格式与您下载的列表略有不同。 这里是 修改后的主列表.

将其放在与ADMIXTURE相同的文件夹中。 然后再次输入“ R”来启动R。 运行上面看到的命令。 这将创建一个“ HGDPMaster”数据框。 这是我给您运行的脚本所必需的。

脚本在这里。 如果没有下载,请复制并粘贴并在与ADMIXTURE相同的文件夹中创建文件“ Rstuff.R”。 您必须操纵一些变量。 这是相关的部分:

################更改这些########### ###输出文件fileName <-“ euraocean” fileType <-“ Q” ####设置到#lowest K Start_K <-12 #highest K End_K <-12的人口数量

您需要将文件名更改为输出的文件名。 如果您进行了任何操作,对于K = 2,它应该为ref.2.Q。因此名称为“ ref”。 您还需要输入K的数量。 我经常同时运行许多文件,这些文件在早上都有输出文件。 因此,我通常以2开始,以12结尾。如果只想输出一个,例如2,则将Start_K更改为2,将End_K更改为2。 这些是您唯一的变量 需要 改变。 但是,您还可以做更多的事情。 R用#进行“注释”,因此我注释了一个部分,您可以在其中限制输出到特定总体,以减少条形图的繁忙度。 如果您看一下脚本,您将明白我的意思,只需删除所有#号,然后根据自己的喜好进行编辑。 请注意,外壳很重要,因此请确保将其小写(如果您查看主列表,则可以理解)。 该脚本的确有一个大写的字符串,但这仅用于输出。 还有一小部分,您可以在其中根据自己的喜好重新命名名称。

要运行脚本,请执行以下操作:

来源(“ Rstuff.R”)

它应该输出条形图,并生成一些电子表格文件。 您可以做更多的事情……但是如果您可以做更多的事情,您将不会读这篇文章。 让我们继续下一个问题。 所以现在你想知道: 有什么办法可以更改数据文件或将自己添加到其中? 继续阅读...。

#3使用Plink操纵数据文件

现在你需要 砰砰。 我通常将其放在与ADMIXTURE并行的子文件夹相同的较大文件夹中。 您可以这样运行Plink命令:“ ./ plink”或“ plink”。 取决于环境(请记住,引号仅适用于帖子!)。 使用Plink可以做很多事情。 我将向您展示如何做两件事。

#1从数据集中删除个人

#2将您自己(或您拥有23andMe文件的人)添加到数据集中

#1很重要,因为地块忙于太多的方差。 此外,非洲人和经历了人口瓶颈的遗传分离株往往使ADMIXTURE不堪重负。 您可能要删除它们。 为此,您需要使用 删除选项。 您需要删除个人。

这是您拥有的文件的一种选择:

./plink --bfile ref-删除removelist.txt --make-bed --out ref已删除

上面是怎么回事? 您正在使用二进制的谱系文件,因此启用了–bfile选项。 使用–remove进行操作,然后创建第二个家谱文件refRemoved。 因此,您将拥有refRemoved.bed,refRemoved.bim和refRemoved.fam。 显然removelist.txt具有您要删除的内容。 每行都有您要删除的人的家庭ID和个人ID,以空格分隔。 最简单的方法可能是打开主列表。 对于我上面给你的那一列,最后一列是家庭ID,第一列是个人ID。 在第一列之后剪切并粘贴第一列,删除其他列,然后保存。 我通常会删除引号和制表符,将其更改为.txt文件,然后就可以使用了。

但是您的23andMe文件呢? 您需要将其转换为谱系。 我已经创建了一个快速且肮脏的perl脚本来执行此操作。 你可以找到它 点击此处。 下载或剪切并粘贴。 您需要删除23andMe文件顶部的注释。 也就是说,您需要删除第一个SNP之前的所有内容。 假设已完成操作,请在放置脚本的文件夹中的命令行中执行此操作(您可以通过“ cd”调用进入该文件夹):

perl convert.pl“ YourFileName”“ 001”“ 001”

该脚本将触发,从第一个参数获取文件名,然后输出两个文件YourFileName.ped和YourFileName.map。 那另外两个参数呢? 他们正在生成您的家庭ID和个人ID。 在这种情况下,它们将是FAM001和ID001。 您需要将它们输入到主列表中! 否则,您将不会出现在条形图上。 还输入您的种族等。或者,如果您想成为条形图的一部分,则只需输入您的名字。

请注意,您拥有.ped文件,而不是.bed文件。 这些很大。 现在,您需要将文本转换为二进制谱系。 将YourName文件移动到plink文件夹。 制作二进制文件:

./plink --file 你的文件名 --make-bed --out 你的文件名

现在您有了YourFileName.bed YourFileName.bim YourFileName.fam。 最好将您的SNP限制为与参考数据集中的SNP相同。 因此,请从参考资料中获取这些内容:

./plink --bfile ref --write-snplist --out SNP

您应该有一个文件SNPs.snplist。 使用它们来过滤您的23andMe文件。

./plink --bfile YourFileName-提取SNPs.snplist --make-bed --out YourFileNameFiltered

现在您要合并:

./plink --bfile引用--bmerge YourFileNameFiltered.bed YourFileNameFiltered.bim YourFileNameFiltered.fam --make-bed --out ref

现在,您已附加到参考数据集! 如果打开ref.fam文件,则您的家庭ID和个人ID应该位于列表的末尾。

如果您到此为止都感到困惑,那么我想以显示所有内容的内容结束将是一件很高兴的事情。 下面,我过滤了大多数非洲和新世界人口的参考数据集,并将其从K = 2运行到K =12。大约需要10个小时才能完成。 我还限制了使用以上脚本显示的总体,因此它不会过于集群化。 这里有 电子表格 运行产生的结果(它们将位于您运行R脚本的文件夹中,并且名称的形式为“ K = 2”)。

[zenphotopress相册= 273排序=排序顺序号= 11]

 
拉齐布汗
关于拉齐卜·汗

“我拥有生物学和生物化学学位,对遗传学,历史和哲学充满热情,虾是我最喜欢的食物。如果您想了解更多信息,请访问http://www.razib.com上的链接”