-Unz评论

RSS

关注@razibkhan

作者 筛选？ ❌

没有发现

◄►书签◄❌►▲ ▼全部切换变革理论▲▼添加到图书馆从图书馆中删除 • B显示评论下一个新评论下一个新回复了解更多

回复同意/不同意/等等更多... This Commenter This Thread Hide Thread Display All Comments

同意不同意谢谢LOL轮唱

这些按钮可将您的公开协议，异议，感谢，LOL或巨魔与所选注释一起注册。仅对最近使用“记住我的信息”复选框保存姓名和电子邮件的频繁评论者可用，并且在任何八个小时的时间内也只能使用三次。

电邮评论忽略评论者关注评论者

Harappa祖先项目解决了什么

拉齐布汗 •4年2013月XNUMX日

•2,000字 • 14 Comments

RSS

我的朋友Zack Ajmal一直在运行哈拉帕祖先项目几年了。这是对学院中进行的基因组研究的非机构补充。他的动机在很大程度上是为了填补人们在学术文献中看到的南亚人口覆盖范围的空白。这在很大程度上是由于政治原因，因为印度政府历来不愿允许收集样本（因此，人均国内生产总值数据以巴基斯坦人为南亚参考，而堆图从休斯敦的印第安裔美国人那里收集DNA）。当然，这类项目并非没有盲点。扎克必须依靠公共数据集来更好地了解部落人口和达利特人等群体，因为他们在散居国外的人中代表性不足，因此他从中吸引了许多项目参与者。

一旦Zack拥有了基因型，他要做的主要工作之一就是将其添加到更广泛的数据集中（包括许多公共样本），并使用混合物基于模型的群集程序包。 Admixture所做的是获取特定数量的人口（例如K = 12）并为个人生成数量分配。因此，例如，对于K = 40，可以为个人A分配1％的人口60和2％的人口2。个人B可以是45％的人口1和55％的人口2。 这些不一定是“实际”人口。 相反，这里的人口及其比例使您能够辨别各个人之间的关系模式。

由于Zack拥有将他的结果在线，我认为对过去两年中出现的模式进行回顾将很有用，因为他在某些地区的样本量现在已达到中等水平。尽管他有K = 16的人口，但并不是所有人都会关心我们，因为南亚人并不倾向于展示许多成分。我将重点介绍七个：南印度人，Bal路支，高加索人，东北欧元，东南亚，西伯利亚和东北亚。这些不是真实的人口，但是标签告诉您 这些组件在哪个区域是模态的。 因此，例如，“ S Indian”成分在印度南部达到顶峰。伊朗东南部和巴基斯坦西南部的Bal路支人中的“ B路支”。波罗的海东部人民中的“ NE欧元”。后三个是亚洲组成部分，纬度从南到北再到中心。他们只关注第一个感兴趣的人群， 孟加拉人。 我将把这最后三个结合在一起称为“亚洲人”。

下表是一个表格，其中大部分是Zack结果的个人（尽管有一些公开数据的汇总结果）。在下面的评论。

种族	印度人	俾路支	高加索	东北欧	亚洲
孟加拉语	53%	28%	2%	5%	8%
孟加拉语Baidya	45%	30%	3%	5%	12%
孟加拉语Baidya	45%	27%	3%	6%	12%
孟加拉文婆罗门	45%	35%	2%	11%	4%
孟加拉文婆罗门	44%	35%	5%	11%	4%
孟加拉文婆罗门	43%	35%	4%	10%	4%
孟加拉文婆罗门	42%	32%	4%	8%	6%
孟加拉文婆罗门	41%	33%	7%	8%	5%
孟加拉文婆罗门	40%	33%	4%	10%	4%
孟加拉文婆罗门	40%	30%	6%	10%	7%
孟加拉穆斯林	50%	25%	1%	5%	15%
孟加拉穆斯林	49%	28%	3%	4%	15%
孟加拉穆斯林	45%	27%	4%	4%	17%
孟加拉穆斯林	45%	26%	2%	2%	16%
孟加拉穆斯林	45%	24%	1%	3%	19%
孟加拉穆斯林	43%	25%	3%	2%	18%
孟加拉穆斯林	48%	27%	0%	5%	15%
泰米尔·婆罗门（Tamil Brahmin）	48%	37%	6%	5%
泰米尔·婆罗门（Tamil Brahmin）	48%	37%	3%	5%
泰米尔·婆罗门（Tamil Brahmin）	48%	35%	5%	6%
泰米尔·婆罗门（Tamil Brahmin）	47%	38%	6%	4%
泰米尔·婆罗门（Tamil Brahmin）	47%	40%	3%	5%
泰米尔·婆罗门（Tamil Brahmin）	46%	40%	3%	6%
泰米尔（Tamil Brahmin Iyengar）	50%	35%	2%	8%
泰米尔（Tamil Brahmin Iyengar）	47%	38%	6%	4%
泰米尔（Tamil Brahmin Iyengar）	47%	35%	6%	6%
泰米尔（Tamil Brahmin Iyer）	48%	38%	4%	5%
泰米尔（Tamil Brahmin Iyer）	48%	38%	2%	5%
泰米尔（Tamil Brahmin Iyer）	47%	37%	2%	5%
泰米尔（Tamil Brahmin Iyer）	47%	37%	6%	8%
泰米尔（Tamil Brahmin Iyer）	43%	35%	6%	5%
泰米尔穆斯林	58%	28%	3%	2%
泰米尔·纳达尔（Tamil Nadar）	62%	30%	0%	0%
泰米尔·纳达尔（Tamil Nadar）	59%	32%	3%	0%
泰米尔·纳达尔（Tamil Nadar）	55%	30%	3%	0%
泰米尔·维拉拉尔（Tamil Vellalar）	50%	35%	6%	1%
泰米尔·维拉拉尔（Tamil Vellalar）	51%	32%	5%	0%
泰米尔·维拉拉（斯里兰卡）	60%	32%	5%	0%
泰米尔·维拉拉（斯里兰卡）	60%	33%	0%	0%
泰米尔·维拉拉（斯里兰卡）	56%	36%	0%	0%
泰米尔·维斯瓦卡玛（Tamil Vishwakarma）	70%	23%	0%	0%
泰米尔·维斯瓦卡玛（Tamil Vishwakarma）	66%	25%	4%	0%
安德拉邦	60%	34%	2%	0%
安德拉邦	54%	36%	2%	3%
安得拉邦（海德拉巴）	56%	29%	5%	0%
安得拉邦（海德拉巴）	47%	35%	8%	4%
安得拉邦古达	61%	30%	2%	1%
安得拉邦卡玛	51%	33%	7%	0%
安得拉邦卡普	62%	30%	2%	1%
安得拉邦奈杜	51%	32%	4%	2%
安得拉邦雷迪	57%	37%	1%	0%
安得拉邦雷迪	54%	38%	3%	0%
安得拉邦雷迪	51%	35%	4%	0%
安得拉邦雷迪	50%	36%	2%	1%
安得拉邦Telegu Brahmin	45%	33%	6%	4%
AP Brahmin（Xing，N = 25）	49%	36%	3%	6%
AP Naidu（Reich，N = 4）	61%	31%	1%	1%
卡纳达（Kannada Devanga）	60%	31%	3%	1%
卡纳塔克邦天主教徒	56%	37%	3%	0%
卡纳塔克邦Lingayat	55%	34%	4%	0%
卡纳塔克邦	54%	36%	2%	0%
卡纳塔克邦婆罗门	51%	35%	3%	5%
卡纳塔克邦艾扬格	49%	36%	5%	5%
卡纳塔克邦艾扬格	48%	39%	3%	5%
卡纳塔克邦艾扬格	48%	37%	3%	7%
卡纳塔克邦婆罗门	47%	38%	4%	6%
卡纳塔克邦·康卡尼·婆罗门	47%	37%	2%	6%
卡纳塔克邦·康卡尼·婆罗门	46%	33%	6%	7%
卡纳塔克邦Kokani Brahmin	44%	34%	6%	5%
喀拉拉邦	47%	33%	7%	2%
喀拉拉邦婆罗门	43%	39%	4%	6%
喀拉拉邦基督徒	53%	35%	4%	0%
喀拉拉邦基督徒	50%	35%	8%	1%
喀拉拉邦基督徒	45%	33%	7%	3%
喀拉拉邦穆斯林拉瑟	53%	35%	2%	1%
喀拉拉邦穆斯林拉瑟	51%	28%	4%	3%
喀拉拉邦奈尔	48%	40%	4%	0%
喀拉拉邦奈尔	47%	38%	5%	5%
喀拉拉邦叙利亚基督教徒	50%	37%	6%	0%
喀拉拉邦叙利亚基督教徒	50%	35%	9%	1%
喀拉拉邦叙利亚基督教徒	46%	33%	5%	4%
喀拉拉邦叙利亚基督教徒	44%	33%	6%	4%
帕坦（HGDP，N = 23）	23%	42%	16%	11%
卡拉什（HGDP，N = 23）	22%	43%	18%	11%
布鲁索（HGDP，N = 25）	23%	41%	12%	10%
Brahui（HGDP，N = 25）	12%	58%	12%	2%
信德（HGDP，N = 24）	29%	46%	10%	6%
克什米尔人潘迪特（Reich，N = 5）	32%	39%	12%	9%
旁遮普	43%	36%	5%	9%
旁遮普	39%	39%	9%	7%
旁遮普	34%	43%	7%	7%
旁遮普	34%	40%	12%	8%
旁遮普	33%	44%	5%	10%
旁遮普	31%	41%	14%	8%
旁遮普	29%	36%	11%	11%
旁遮普省（X，N = 25）	31%	44%	10%	7%
旁遮普婆罗门	35%	40%	8%	11%
旁遮普婆罗门	33%	41%	13%	10%
旁遮普Chamar	40%	33%	9%	6%
旁遮普人贾特	28%	39%	11%	10%
旁遮普人贾特	30%	44%	6%	14%
旁遮普人贾特	28%	42%	8%	13%
旁遮普人贾特	28%	46%	7%	13%
旁遮普人贾特	28%	40%	10%	15%
旁遮普人贾特	27%	44%	10%	13%
旁遮普人贾特	27%	35%	16%	11%
旁遮普人Jatt穆斯林	30%	39%	13%	8%
旁遮普语Khatri	30%	42%	12%	12%
旁遮普语拉合力穆斯林	31%	44%	11%	8%
旁遮普语Pahari Rajput	34%	43%	11%	7%
巴基斯坦旁遮普邦	28%	36%	16%	7%
旁遮普邦（Punjabi Ramgarhia）	35%	43%	5%	9%
哈里亚纳邦（Haryana Jat）	25%	33%	12%	17%
哈里亚纳邦（Haryana Jat）	25%	33%	12%	17%
哈里亚纳·贾特（Haryana Jatt）	28%	38%	5%	20%
哈里亚纳·贾特（Haryana Jatt）	26%	39%	10%	17%
拉贾斯坦邦（Rajasthan Marwari Jain）	47%	34%	5%	6%
拉贾斯坦·阿加瓦尔（Rajasthani Agarwal）	51%	37%	6%	1%
拉贾斯坦·婆罗门	32%	38%	9%	15%
拉贾斯坦·马尔瓦里（Rajasthani Marwari）	48%	34%	6%	2%
拉贾斯坦·拉杰普特	45%	38%	5%	9%
UP	40%	28%	10%	8%
上婆罗门	41%	37%	7%	11%
上婆罗门	40%	37%	7%	11%
上婆罗门	37%	38%	2%	14%
上卡亚莎（UP Kayastha）	47%	38%	5%	3%
穆斯林	33%	33%	10%	9%
穆斯林	28%	35%	12%	11%
UP穆斯林Pathan	48%	36%	7%	4%
UP穆斯林赛义德	33%	31%	13%	7%
上赛义德	36%	37%	7%	8%
UP /哈里亚纳邦·阿加瓦尔	52%	35%	6%	2%
UP /哈里亚纳·贾特（Haryana Jatt）	28%	42%	7%	18%
UP /中央邦	51%	27%	1%	7%
UP /旁遮普语	40%	33%	7%	10%
UP /旁遮普语Khatri	27%	43%	10%	11%
比哈里·巴尼亚（Bihari Baniya）	47%	31%	5%	5%
比哈里·婆罗门（Bihari Brahmin）	39%	38%	5%	11%
比哈里·卡亚莎（Bihari Kayastha）	53%	33%	1%	7%
比哈里穆斯林	48%	28%	5%	8%
比哈里穆斯林	42%	34%	9%	6%
比哈里穆斯林	41%	36%	7%	8%
比哈里穆斯林	42%	32%	7%	9%
比哈里·赛义德（Bihari Syed）	42%	35%	4%	9%
古吉拉特语（HapMap，N = 63，Patel）	54%	42%	0%	1%
古吉拉特语（HapMap，N = 34，非调色板）	44%	39%	5%	7%

A 最近的一篇文章这表明，在今天的孟加拉国周围，发生了公元500年左右的今天的孟加拉国环境，南亚和东亚人之间存在一个单一的混合脉动。传统的婆罗门人到达孟加拉国的解释表明，公元1000年前后都是一个时期（孟加拉是其中之一）。印度北部机构佛教的最后堡垒，因此对婆罗门的服务需求将减少。 结果很容易与这两个事实相吻合。 孟加拉语中的所有非婆罗门人（拜达语是西孟加拉邦的一个非婆罗门人的高级种姓）都拥有丰富的东亚血统。孟加拉婆罗门人所拥有的远远少于这个。此外，他们的“ NE欧元”成分约为非婆罗门成分的两倍。孟加拉婆罗门仍然是一个由一些混杂物组成的综合社区的空间（他们的东亚比例仍然明显高于南亚其他地区），但是传统叙事的轮廓似乎可以解释这些结果的大致轮廓。

当您查看来自德拉威四个州的南印第安人时，有四个事实使我印象深刻：

–婆罗门与非婆罗门人之间有明显的区别（扎拉在哈拉帕数据集中的大多数非婆罗门人都是上等种姓，尽管公共数据集有达利特人和部族人口）

–南印度婆罗门在区域和宗派上几乎没有什么区别（例如，艾扬格与艾耶是泰米尔婆罗门，除以神学差异）。

–南印度婆罗门在遗传上不同于北印度婆罗门。与北印度婆罗门一样，它们似乎占“ NE欧元”部分的一半（例如，与孟加拉婆罗门相比）。

–南印度的非婆罗门种姓几乎没有“ NE欧元”成分，在恒河平原的非婆罗门种中的比例较低，但比例一致（随着向旁遮普邦的迁移，比例更高）

我不知道婆罗门的Pancha-Dravida族群的起源是什么，但是它们看起来是内生的，来自同一来源，并且很可能早些时候就与当地的基质混合了。这可以解释它们相对于北印度婆罗门的统一性和较低的“ NE Euro”分数。上面的结果还表明，叙利亚基督徒来自Nair社区或相关社区的convert依者。这不足为奇。

最后，我们移至印度北部，该区域在西北的旁遮普邦和东部的比哈尔邦之间延伸。尽管在该地区的大部分地区，婆罗门语中的“ NE欧元”分数较高，但是当您向西北方向移动时，这种关系似乎会破裂。尤其是Jatt社区，在次大陆上似乎是最高的。有早期理论雅特人在中亚的起源。我已经解雇了他们，但现在我想他们需要重新审视。推理很简单。旁遮普邦东部的贾特人的“ NE欧元”比例高于其西北地区（Pathans，Kalash等）和其地区的婆罗门团体（例如，潘迪特），其种姓地位在理论上更高。对这两个趋势的违反暗示着不容易通过简单的社会和地理过程来解释的东西。在西北地区，祖先和种姓地位之间的联系似乎也被打破了，因为祖先的成分有很大的差异。

应该更多地了解南亚民族志的人。但是在那之前，我邀请南亚文化遗产的读者将其结果提交给Zack。

• 类别：科学 •标签：人类学, 基因, 基因组学, 哈拉帕祖先项目

计算能力的极限-1982年的阴影

拉齐布汗 •29年2011月XNUMX日

•200字 • 2 Comments

RSS

向前两步，向后两步:

我给女儿买了一本上网本，所以现在我的电脑正在24×7全天候进行Harappa Prohect的工作。

而且，Simranjit足以让我使用服务器。出于隐私原因，我不会在此处上传任何参与者的数据，但是它比我的计算机快得多，因此对于在参考数据上运行Admixture非常有用（尤其是交叉验证）。

至于退一步，我下载了当前的1000个基因组数据（1,212个样本，2.4万个SNP）。它是vcf格式。使用vcftools进行转换 将其转换为ped格式大约需要3周。 是的，你听到的是对的。顺便说一句，从南亚的角度来看，好东西将在今年晚些时候出现，其中包括100名阿萨姆人AhomF，100名来自加尔各答的Kayadtha，来自海得拉巴的100名Reddys，来自孟买的100名Maratha和100名Lahori Punjabis。

另外，我在周日晚上和晚上的大部分时间都在急诊室，并由于我的努力而被诊断出输尿管结石症。我只能说的是：Percocet欢呼三声！

首先，祝扎克一切顺利。第二，他已经结束了 70个人，在哈拉帕祖先项目数据库（除了公共数据集）。如果您是南亚人，伊朗人，缅甸人或藏族人，这里是参加细节.

• 类别：科学 •标签：基因, 基因组学, 哈拉帕祖先项目, 个人基因组学

3-D遗传世界

拉齐布汗 •24年2011月XNUMX日

•200字 • 4 Comments

RSS

扎克（Zack）第一次提出哈拉帕祖先项目我不知道到底发生了什么。我不知道他的女儿和妻子是否对计算机发生了什么感到好奇！自从收集了第一批参与者以来，他一直是一个产生结果的人机。今天他制作了一个引人入胜的三维PCA （修改道格·麦克唐纳（Doug McDonald）的Javascript）使用其“参考1”数据集。他适当地重新调整了尺寸，以便它们反映出它们解释了多少遗传变异。自然界中最大的方差主要是非洲与非非洲，第二是欧亚大陆的西到东，第三是北欧南轴。

我决定当小偷，并选择Zack的Javascript并调整其大小以适合我的博客的宽度，放大字体大小，并更改背景颜色和定位方面。一切都适合我不正当的口味。您会看到二维图所熟悉的经典“ L”形分布，但是会观察到南亚（较小程度上是东南亚）人口的第三个维中的“褶皱”。

世界人口遗传变异的前三个独立维度的拓扑结构让我想起了 B-2轰炸机:

• 类别：科学 •标签：人类学, 基因, 基因组学, 哈拉帕祖先项目, PCA

使用ADMIXTURE逐步分析祖先

拉齐布汗 •14年2011月XNUMX日

•2,600字 • 17 Comments

RSS

在过去的几个月里，我希望更多的人会开始做扎克·阿杰马尔（Zack Ajmal）, 二烯及 David ，一直在做。这里有公共数据集和开放源代码软件，因此任何有书呆子倾向的人都可以出于好奇而探索自己的问题。这样你就可以看到 功率和台式机上基因组学的局限性。我想知道是否更多人尚未开始执行此操作的最大原因之一是格式化。例如，将矩阵格式的文件转换为谱系格式可能会很麻烦。但是数据涌入者并没有结束，请看一下 1000个基因组项目！

我一直在想，我需要写一篇对人们来说是“软着陆”的文章，以便我们可以减少这种事情的“激活能量”……一旦您着迷了，您只会更深入。幸运的是，一位匿名提示者向我发送了指向URL的链接，该URL包含已合并，已经完成谱系格式化的庞大数据集。以下是人口：

功夫	布里亚特人	豪萨语	玛达	旁遮普人阿林	托纳克
阿迪吉	柬埔寨	哈扎拉	马克兰尼	侏儒	Tu
非裔美国人	中文	喝骂	马来亚人	罗马尼亚人	土家族
阿尔及利亚	华裔美国人	赫镇	曼登卡	俄语	突尼斯
阿尔泰人	楚科奇人	匈牙利	玛雅	撒哈拉沙漠	土耳其人
阿鲁尔	楚瓦什人	他们	姆布蒂	萨基利	托斯卡纳
阿普·布拉敏（Ap Brahmin）	科钦犹太人	伊博	美拉尼西亚	撒玛利亚人	图维尼人
阿普马迪加	哥伦比亚	伊朗犹太人	墨西哥人	萨摩亚	乌尔卡拉
阿普马拉	塞浦路斯人	伊朗人	苗	圣	犹他州白人
亚美尼亚	通过	伊拉克犹太人	蒙古	三铌	维吾尔族
亚美尼亚人B	达ur尔	伊鲁拉	蒙古人	桑达威	乌兹别克斯坦犹太人
Ashkenazy犹太人	贡	意大利语	摩洛哥人	撒丁岛	乌兹别克人
阿塞拜疆犹太人	海豚	日文	摩洛哥犹太人	沙特	越南语
o路支	德鲁兹	约旦人	摩洛哥N	塞尔库普斯	格陵兰人
班巴兰	格陵兰人	卡巴	摩洛哥S	Sephardic犹太人	科萨
巴莫恩	埃及	卡拉什	莫扎比	她	锡伯
班图肯亚	埃及人	卡里蒂亚娜	N欧洲	信德	红宝石
南非	埃塞俄比亚犹太人	凯茨	纳西	新加坡华人	也门犹太人
巴斯克	埃塞俄比亚人	高棉	尼泊尔	新加坡印第安人	也门人
贝都因人	鄂温克族	金刚	恩加纳桑	新加坡马来语	Yi
北京中文	方	科里亚克人	恩古尼	斯洛文尼亚	约鲁巴语
白俄罗斯	法语	库尔德人	北坎纳迪	索托/茨瓦纳	尤卡吉尔斯
比亚卡	富拉尼	吉尔吉斯斯坦	奥卡迪亚人	西班牙人
贝尼·梅纳什（Bnei Menashe）	格鲁吉亚犹太人	拉hu	鄂伦春	斯塔尔斯科
玻利维亚	乔治亚人	黎巴嫩	巴勒斯坦的	苏瑞
婆罗辉	Gujaratis	勒金斯	帕尼亚	叙利亚人
rong	古吉拉特人B	利比亚	巴布亚	泰国人
布拉拉	哈扎	立陶宛	帕坦	泰米尔·婆罗门（Tamil Brahmin）
布鲁修	有	露雅	我问	泰米尔·达利特（Tamil Dalit）
布里亚特	韩南	马赛	皮马	同安区

该数据集具有约4,000个个体和约30,000个标记。二进制文件约为25 MB。下载有四个文件。 .bed，.bim和.fam采用谱系格式。 .csv是有关每个人（人口，地区等，与特定标识号绑定）的信息的“主列表”。这一点很重要，因为一旦有了一些输出文件，就需要弄清楚它的含义并进行可视化，这仅在拥有一个不仅包含家庭和个人信息的主列表的情况下，才具有参考价值。

这里是链接到文件以下载上述所有人群。我已经将其拉下并运行它，所以我知道它不是恶意软件。

所以现在怎么办？ 该职位将分为三部分。

1）在ADMIXTURE中运行此数据

2）在R中可视化

3）在Plink中处理此数据

＃1并不取决于＃2和＃3，因此我将首先这样做。您无需阅读＃2和＃3。实际上，你们中的某些人可能真的很擅长处理电子表格格式的数据，因此可能不需要排在第二位。但是在R部分中，我还将为您提供更简单的电子表格输出，因此，即使您不关心R的可视化，也至少可以更好地管理.csvs集。＃2很重要，如果您想限制数据集，并在其末尾添加自己的3andMe文件。

＃1在ADMIXTURE中运行数据

首先，您需要Linux或MacOS。如果您使用的是Windows，五笔应用程序允许您必须具有双重启动功能。它在Windows旁边运行Ubuntu Linux，并且您可以像Windows应用程序一样将其卸载。

我正在Ubuntu Linux上执行此操作，以供您参考。假设您拥有正确的操作系统，那么现在您需要混合物。您可以将文件夹放在任何地方。

您需要使用终端转到您拥有ADMIXTURE的文件夹。左图显示了我的操作。您需要单击终端应用程序，然后执行“ cd”命令以进入相应的文件夹。我的ADMIXTURE程序在桌面上的“ GA”文件夹和“ admix2”子文件夹中。所以我输入了您看到的内容。 “ cd”命令使您上下移动文件夹。如果它使您感到困惑，请用Google搜索它，尽管您不知道它的作用，但是只要将ADMIXTURE提取到桌面，然后键入“ cd Desktop”，就可以了。这将将来会使您的桌面杂乱无章……但是，如果您需要尽快完成某些工作而又不知道如何在Linux中导航，那应该可以。

因此，现在您有了ADMIXTURE，以及ADMIXTURE将要分析的文件。你做什么工作？您需要确保ADMIXTURE和您的文件位于相同的文件夹/位置。因此，如果ADMIXTURE位于桌面上，则只需将文件提取到桌面上即可。现在您需要运行一个命令。您会看到我正在运行ADMIXTURE的屏幕截图。您可能需要省略./（即，“混合物”与“ ./混合物”）。您会看到文件名。选项-j2是由于我有两个内核。如果您不知道这意味着什么，请忽略它。它可以加快运行速度。最后一个数字是K。所以这是针对K = 4。

现在程序将运行。多长时间取决于文件的大小以及K的数量。我经常在一夜之间针对较大的K运行该程序。如果您想花大钱并进行交叉验证之类的事情，则需要花费更长的时间。被警告。左侧的屏幕截图是ADMIXTURE进行操作时所要运行的典型画面。不用担心，该算法正在运行。如果您观看了足够长的时间，将会了解到屏幕上的哪些值很可能表明它即将完成，并且可以开始预测可以从中进行推断的输出文件。

完成！右侧是完成ADMIXTURE后的画面。如前所述，有输出文件。这是真正有趣且有用的东西，但是即使在此屏幕上也有好处。基本矩阵为您显示假定祖先群体之间的Fst距离。 Fst正在测量数据集中方差的比例，这可以归因于总体方差。值越小，两个总体之间的差异量就越小。在此屏幕上，您看到四个种群，因为我将K设置为4。Fst由祖先等位基因频率生成，这些频率位于输出文件中。请记住，这些是抽象种群之间的距离，而不是真实种群之间的距离。

原始文件是euraocean.bed，euraocean.bim和euraocean.fam。因此输出文件如下所示：

Euraocean.4.Q Euraocean.4.F

4代表K。第一个文件包含数据集中每个个体的假定祖先种群比例的列表，这些个体位于单独的行上。第二个文件包含由参数K生成的祖先群体的所有等位基因频率。

你怎么办呢？ euraocean.4.Q与euraocean.fam有关，该文件逐行具有家庭和个人ID。除了原始方式外，我不知道如何使用电子表格，因此我假设有多种方法可以合并文件并使每行具有祖先比例以及更详细的ID。生成总体平均值似乎也很重要。

但是我使用R来完成这项肮脏的工作。

＃2使用R可视化输出

如果没有R，则需要安装它。如果您不知道如何开始，控制-f sudo。那应该把它拉下来。一旦安装了R，请确保位于ADMIXTURE所在的文件夹中。然后键入“ R”（键入命令时不加引号！）。现在您在R中，您会做什么？以下是您需要执行的操作的详细信息：

1）取Q文件，将其泵入数据框

2）获取主列表，将其泵入数据框

3）取得.fam文件，将其泵入数据帧

4）混合搭配

5）计算平均比例，产出人口等

6）可视化！

如果您需要了解如何安装R，则可能不知道如何进行安装。当我第一次开始使用ADMIXTURE输出文件时，我编写了一个快速且肮脏的脚本。我几乎不记得我现在正在使用此脚本做什么，因为我不在乎细节。但现在为您服务。不过，首先您需要做一件事： 使用一个主列表，该列表的格式与您下载的列表略有不同。 这里是修改后的主列表.

将其放在与ADMIXTURE相同的文件夹中。 然后再次输入“ R”来启动R。运行上面看到的命令。这将创建一个“ HGDPMaster”数据框。这是我给您运行的脚本所必需的。

脚本在这里。如果没有下载，请复制并粘贴并在与ADMIXTURE相同的文件夹中创建文件“ Rstuff.R”。您必须操纵一些变量。这是相关的部分：

###############＃更改这些########### ###输出文件fileName <-“ euraocean” fileType <-“ Q” ####设置到#lowest K Start_K <-12 #highest K End_K <-12的人口数量

您需要将文件名更改为输出的文件名。如果您进行了任何操作，对于K = 2，它应该为ref.2.Q。因此名称为“ ref”。您还需要输入K的数量。我经常同时运行许多文件，这些文件在早上都有输出文件。因此，我通常以2开始，以12结尾。如果只想输出一个，例如2，则将Start_K更改为2，将End_K更改为2。 这些是您唯一的变量需要改变。 但是，您还可以做更多的事情。 R用＃进行“注释”，因此我注释了一个部分，您可以在其中限制输出到特定总体，以减少条形图的繁忙度。如果您看一下脚本，您将明白我的意思，只需删除所有＃号，然后根据自己的喜好进行编辑。请注意，外壳很重要，因此请确保将其小写（如果您查看主列表，则可以理解）。该脚本的确有一个大写的字符串，但这仅用于输出。还有一小部分，您可以在其中根据自己的喜好重新命名名称。

要运行脚本，请执行以下操作：

来源（“ Rstuff.R”）

它应该输出条形图，并生成一些电子表格文件。您可以做更多的事情……但是如果您可以做更多的事情，您将不会读这篇文章。让我们继续下一个问题。所以现在你想知道： 有什么办法可以更改数据文件或将自己添加到其中？ 继续阅读...。

＃3使用Plink操纵数据文件

现在你需要砰砰。我通常将其放在与ADMIXTURE并行的子文件夹相同的较大文件夹中。您可以这样运行Plink命令：“ ./ plink”或“ plink”。取决于环境（请记住，引号仅适用于帖子！）。使用Plink可以做很多事情。我将向您展示如何做两件事。

＃1从数据集中删除个人

＃2将您自己（或您拥有23andMe文件的人）添加到数据集中

＃1很重要，因为地块忙于太多的方差。此外，非洲人和经历了人口瓶颈的遗传分离株往往使ADMIXTURE不堪重负。您可能要删除它们。为此，您需要使用删除选项。您需要删除个人。

这是您拥有的文件的一种选择：

./plink --bfile ref-删除removelist.txt --make-bed --out ref已删除

上面是怎么回事？您正在使用二进制的谱系文件，因此启用了–bfile选项。使用–remove进行操作，然后创建第二个家谱文件refRemoved。因此，您将拥有refRemoved.bed，refRemoved.bim和refRemoved.fam。显然removelist.txt具有您要删除的内容。每行都有您要删除的人的家庭ID和个人ID，以空格分隔。最简单的方法可能是打开主列表。对于我上面给你的那一列，最后一列是家庭ID，第一列是个人ID。在第一列之后剪切并粘贴第一列，删除其他列，然后保存。我通常会删除引号和制表符，将其更改为.txt文件，然后就可以使用了。

但是您的23andMe文件呢？您需要将其转换为谱系。我已经创建了一个快速且肮脏的perl脚本来执行此操作。你可以找到它此处。下载或剪切并粘贴。您需要删除23andMe文件顶部的注释。也就是说，您需要删除第一个SNP之前的所有内容。假设已完成操作，请在放置脚本的文件夹中的命令行中执行此操作（您可以通过“ cd”调用进入该文件夹）：

perl convert.pl“ YourFileName”“ 001”“ 001”

该脚本将触发，从第一个参数获取文件名，然后输出两个文件YourFileName.ped和YourFileName.map。那另外两个参数呢？他们正在生成您的家庭ID和个人ID。在这种情况下，它们将是FAM001和ID001。您需要将它们输入到主列表中！否则，您将不会出现在条形图上。还输入您的种族等。或者，如果您想成为条形图的一部分，则只需输入您的名字。

请注意，您拥有.ped文件，而不是.bed文件。这些很大。现在，您需要将文本转换为二进制谱系。将YourName文件移动到plink文件夹。制作二进制文件：

./plink --file 你的文件名 --make-bed --out 你的文件名

现在您有了YourFileName.bed YourFileName.bim YourFileName.fam。最好将您的SNP限制为与参考数据集中的SNP相同。因此，请从参考资料中获取这些内容：

./plink --bfile ref --write-snplist --out SNP

您应该有一个文件SNPs.snplist。使用它们来过滤您的23andMe文件。

./plink --bfile YourFileName-提取SNPs.snplist --make-bed --out YourFileNameFiltered

现在您要合并：

./plink --bfile引用--bmerge YourFileNameFiltered.bed YourFileNameFiltered.bim YourFileNameFiltered.fam --make-bed --out ref

现在，您已附加到参考数据集！如果打开ref.fam文件，则您的家庭ID和个人ID应该位于列表的末尾。

如果您到此为止都感到困惑，那么我想以显示所有内容的内容结束将是一件很高兴的事情。下面，我过滤了大多数非洲和新世界人口的参考数据集，并将其从K = 2运行到K =12。大约需要10个小时才能完成。我还限制了使用以上脚本显示的总体，因此它不会过于集群化。这里有电子表格运行产生的结果（它们将位于您运行R脚本的文件夹中，并且名称的形式为“ K = 2”）。

[zenphotopress相册= 273排序=排序顺序号= 11]

• 类别：科学 •标签：混合物, 祖先推论, 多德卡德, 基因, 基因组学, 哈拉帕祖先项目, 个人基因组学, 友情链接

哈拉帕祖先项目@ N〜50

拉齐布汗 •12年2011月XNUMX日

•800字 • 5 Comments

RSS

扎克·阿杰马尔（Zack Ajmal）现在拥有 Harappa祖先项目的50多名参与者。这不包括HGDP中的巴基斯坦人口，古吉拉特人的HapMap，SVGP中的印第安人。尽管如此，所有这些样本仍几乎无法覆盖南亚的广大地区，即印度恒河平原。这是Zack到目前为止提交的样本的来源：

旁遮普邦：7
伊朗：7
泰米尔语：6
孟加拉：5
安得拉邦：2
比哈尔邦：2
卡纳塔克邦：2
加勒比印第安人：2
克什米尔：2
北方邦：2
斯里兰卡：2
喀拉拉邦：2
伊拉克阿拉伯人：2
英印：1
罗马：1
果阿：1
拉贾斯坦邦：1
och路支：1
未知：1
埃及/伊拉克犹太人：1
马哈拉施特拉邦：1

同样， 请注意，印度人口最多的两个州北方邦（约200亿）和比哈尔邦（比哈尔，约100亿）的代表性不足。 尽管如此，该项目已经产生了一些有趣的收益。在下面，我用个人标签重新编辑了Zack的静态图片（尽管请访问他的网站以获得更动态的内容）。我用红色指针突出了我自己和我的父母。

左边是我从扎克（Zack）的屋子里拼接出来的一组地块和桌子。各个职位。您需要知道的是，在K = 12时，我使用了Zack给出的各种假定的“祖先种群”标签，这些标签是从他的ADMIXTURE运行中得出的。到目前为止，我还展示了哈拉帕祖先项目的参与者及其种族标签。最后，在中间sm一下，您会看到第一时间值，由最小的人口差异标准化。因此，框中的值代表了 行和列中的推断祖先人口 （我也四舍五入，因为我不想给人以过分精确的印象）。最后一点很重要，它们不在实际人口之间的人口距离度量之间。相反，它们是跨生成的群体的等位基因频率的距离测度，这些频率来自于您将ADMIXTURE约束的参数，以及您首先放入算法中的遗传变异。

从广义上讲，跳到您身上的第一件事是“巴布亚人”与其他所有人之间的高距离值。这是有趣的。实际上，巴布亚人与其他祖先人口之间的遗传距离大于假定的非洲人口与除巴布亚人以外的其他非非洲人之间的遗传距离。 这说明您需要非常谨慎地从这类程序中做出明确的推断。有趣的是，巴布亚人遗传距离最小的人群是“南亚人”。这意味着什么？我认为这有一个简单明了的解释。我相信，南亚集群是一个混杂的复合体，正如重建印度历史，并且大洋洲的人口代表了长期居住的南亚群体的相对“纯粹”的东部扩张，这些群体通常被与侵入该地区的其他群体混合而淹没。这也解释了一个事实，柬埔寨人与各种南亚人口共享了这个巴布亚人的某些组成部分。最后，我不会做太多事情，但是在ADMIXTURE中，我完成了HGDP数据集中真实的巴布亚人口，分为两个祖先部分，其中从巴基斯坦到柬埔寨的南亚群体仅占一个。请记住，大洋洲最初是由美拉尼西亚人和澳大利亚人定居的，大约40-50,000年前，看起来像是美拉尼西亚人和澳大利亚原住民到这个初始时期的日期。因此，南亚人与巴布亚人之间的联系可能很古老，并且这两个群体在很长一段时间以来一直很独特。

对于到目前为止接受调查的南亚人来说，什么都没有这奇怪。随着南亚和东亚的发展，南亚元素趋于增加。这就是您所期望的。而且，跨越西亚和中亚大部分地区的巴基斯坦/高加索地区是将伊朗样本与南亚样本联系起来的要素。伊朗人所占的南亚部分很少。如果南亚元素仅仅是混合人口的结果，并且从中衍生出这一祖先群体之一的“祖先南印度人”通常不在巴基斯坦西部，那么这是有道理的。正如您所期望的那样，孟加拉语中东亚成分丰富，但在来自南亚北部边缘的许多人中，东亚成分的比例却有所不同。显然，您越往西走，“东方”元素就越有可能成为土耳其人，而越往东（在某种程度上朝南），则起源越可能在南部。其他大多数模式都是您所期望的。最后，我想指出的是，我怀疑Zack是第一个发布某人祖先分数的人。游泳使用SNP芯片标记的种姓。

这都是有关参与的详细信息.

• 类别：科学 •标签：基因, 基因组学, 哈拉帕祖先项目, 印度遗传学, 印度基因组学, 南亚遗传学, 南亚基因组学

通过可视化更好地理解

拉齐布汗 •23年2011月XNUMX日

•100字 • 1 Comment

RSS

Zack已开始改善带有Google图表的静态R图。一探究竟。 las，我无法在自己的帖子正文中插入脚本标签，因此这对我来说是不可行的。注意在扎克的情节上 我比任何一个父母都更东亚。 这种趋势首先在23andMe的祖先绘画中出现，并且在我自己的ADMIXTURE运行中已经看到过，所以我不再将其视为V2 vs. V3芯片了。尽管我已经自己下令升级，但我们一定会看到。另外，尽管我的父母都在同一东亚地区，但他们在东亚各组成部分之间表现出不同的平衡。我在自己的ADMIXTURE节目中已经看到了这一点，并且我将很快检查与HGDP东亚人口的更细粒度匹配，以确定他们的东祖先组合是否不同。美好的时光。

• 类别：科学 •标签：基因, 基因组学, 哈拉帕祖先项目

网上个人基因组学

拉齐布汗和访客管理员 •10年2011月XNUMX日

•100字 • 1 Comment

RSS

只是一些指针。丹尼尔·麦克阿瑟（Daniel MacArthur）博士提出了客户后在这里，我概述了自己在个人基因组学方面的经验。我们生活中很酷的时光。此外，扎克·阿杰马尔（Zack Ajmal）也开始发布 HAP参与者的较高K。他现在在第二批。我的父母将排在第三位。许多泰米尔人和旁遮普人。汗人是迄今为止唯一的孟加拉人。一个人代表整个北方邦。这是一个到目前为止的参与者列表.

最后，我知道3-D可视化是一种不好的形式，但无论如何我还是坚持不懈地追求它。下面的多维数据集显示了HapMap中的古吉拉特人，华裔，墨西哥裔美国人和犹他州白人和托斯卡纳人的位置，以及一些来自朋友和家人的样品。你能告诉我父母在哪里吗？

• 类别：科学 •标签：基因, 基因组学, 哈拉帕祖先项目

Dodecad公开征集

拉齐布汗 •8年2011月XNUMX日

•100字 • 10 Comments

RSS

由于我知道很多朋友正在获得或刚刚获得他们的V3结果，所以我想我会继续讲下去， 23andMe数据的开放式提交机会（＃2）:

谁有资格

具有欧洲，亚洲或北非血统的所有人以及他/她的四个祖父母都来自相同的欧洲，亚洲或北非种族群体或相同的欧洲，亚洲或北非国家。

此外，扎克还拥有超过 HAP中的30个人。 “牛腰带”的代表性仍然不足。数据集中唯一的孟加拉人是我的父母。

• 类别：科学 •标签： 23andMe, 多德卡德, 基因组学, 地理, 哈拉帕祖先项目, 个人基因组学

祖先分析的收益递减（对我而言）

拉齐布汗和访客管理员 •2年2011月XNUMX日

•700字 • 1 Comment

RSS

扎克终于开始了发布结果来自行动计划。在左侧，您可以看到K = 5时从他的前10个HAP成员的合并数据集中生成的结果。我是HRP002。 Zack是HRP001。属于亚述人的Paul G.是HRP010。其他一些人已经“淘汰”了自己，因此我可以通过其他酒吧的淘汰过程继续进行。这里没有什么令人惊讶的。扎克（Zack）是1/4埃及人，因此他的血统颇为多样。与印度次大陆东部或南部的人相比，来自印度西北部的贾特人对西方人口的亲和力更高。有了这些知识，您就可以对从ADMIXTURE推断出的“祖先成分”在具体意义上可能对应进行一些有根据的猜测。提交后多德卡德和 BGA项目我几乎知道与我有关的期望。我是一个相当普通的南亚人，除了，我有明显的“东方”血统。

这就是Dienekes也发现的。将各种祖先成分聚合在一起，类似于Zack在K = 5时产生的结果，您可以从他的运行中获得以下柱状图：

我认为所有血统分析都会发现我在东亚欧亚血统中占很小的比例。我有类似的血统，显然与西欧亚大陆有关。我的其余血统将归入“南亚人”这一统称，由Reich等人撰写。在重建印度历史争论实际上是类似西欧亚大陆的人口（“北印度祖先”，ANI）和南欧亚人口（“南印度祖先”，ASI）之间的化合物，与远东欧亚人比西欧亚人关系更密切，尽管距离较远这样就可以了（现代西方欧亚人可以与ANI互换，但ASI不会以非混合形式存在）。

最后，这里是对1号染色体及其对各种参考人群的亲和力的分析。我给自己贴了标签。毫不奇怪：

我是HAP中的HRP002。在Dodecad的DOD075。 BGA中的IN8。如果他们愿意，我愿意接受任何这些新的基层祖先项目。但是我怀疑我现在会发现任何令人惊讶的东西。它们收敛于相同的大致比例（应有的比例）。

我现在正想更深入地了解“东方”掺和物发生多长时间的细节。它似乎从都父母。如果是最近的话，应该可以检测到一些连锁不平衡，因为重组还没有打破每个种族特有的等位基因关联（这在非裔美国人中很明显）。但是我不确定，这已经是最近了，就像我想的那样。我怀疑在人口膨胀期间（公元1000年至1500年间成为孟加拉国），孟加拉人农民吸收了藏缅语和蒙达语元素，并且祖先现在在整个人口中分布良好。

但是，即使我自己也不会发现任何东西，但HAP和类似项目之所以有用的原因是，我们需要更好地报道世界的变化。我们已经提出了一些大的粗略问题，但是仍然有很多空白需要填补。我愿意为此而努力（或者更确切地说，在这一点上，我已经起草了我的父母，因为他们没有亲戚关系，因此代表了孟加拉的两个独立数据点）。

附录： 我知道对于许多欧洲血统的人来说，这种事情并没有告诉他们任何新的东西。对我来说不是。由于我的大家庭的表型，我一直怀疑东亚混合物（在某种程度上，我。直到20多岁，我才需要定期刮胡子），但是我一直对它的程度感到好奇。另外，出于表型的原因，我以为母亲的血统很少，而父亲的血统很大。事实证明，事实上，我的母亲可能比我的父亲更“东方”。

• 类别：科学 •标签：基因, 基因组学, 哈拉帕祖先项目, 个人基因组学

我们所处的人类变异的基因组图

拉齐布汗 •1年2011月XNUMX日

•800字 • 16 Comments

RSS

扎克有开始探索他的合并数据集的K 用于HAP。一种评论者建议：

在您开始解释参考结果时，请允许我发出一个友好的警告：您必须记住，大多数参考族裔的样本量非常有限（只有2至25个人），并且样本量非常晦涩资料来源，并且您应该避免基于如此有限的人数得出关于数以百万计的人的结论。

这似乎是一个相当合理的警告。但是我认为这样含糊的建议并没有真正增加任何价值。这些警告取决于：

–所问问题的范围（即，您要测量的变异程度有多细）

–样本量

–代表性

–标记集的厚度（10个常染色体标记对500,000个SNP）

这不是定性问题，很容易分为“正确”和“错误”。有时N = 1非常有见地。这就是为什么的全基因组一种 Bushman 非常有用。实际上，任何撒哈拉以南非洲地区，以及任何随机的非非洲人（这意味着那些地区的血统始于1500年之前），将在基因组变异方面清楚地反映出这两种广泛的种群之间的差异。随后添加个体以生成更大的样本将是非常当然可以提供更多信息，并允许我们回答更多问题。但要点是，即使样本量很小，也可以回答框架合理的查询。

另一个问题是代表性。这人均国内生产总值数据集一开始偏向于更孤立和独特的群体。人们认为，其中许多族群将在一个世代中消失，因此应记录其遗传独特性（这似乎已经正确）。因此，很明显，HGDP产生的集群在分离方面要比HGDP的集群“清洁”。人口样本，来自更国际化的城市人口。我们也有堆图样本，其中一些扎克已合并为HGDP和HapMap（可能还有其他公共数据集，Zack正在寻找与南亚人有关系的数据集）。

从这些数据集获得10年的结果后，我认为我们对代表性和偏倚的偏见以及样本量较小（HapMap的标记集较厚，但HGDP的覆盖范围更广）引入了一些误解和认识。换句话说，我们应该对应该注意的地方和不应该注意的地方有一些直觉。例如，由于长期的有效种群数量少，小型部落群体可能表现出遗传特征（以及罗姆人等文化分离物）。另一方面，如果您有一组不同的部落群体，则可以假定这些共同的模式将反映出广泛的宏观区域遗传变异。在Zack的综合数据集中，他有一个南印度部落和一个巴基斯坦部落（我的意思是卡拉什，我知道Pathans和Baloch是部落人，但它们是广泛而异质的）。这两类人与伊朗人之间的任何共同点，大概都不是巧合。随机遗传漂移通常会导致种群之间的等位基因频率不同，因此不同分离株之间的遗传共性可能反映了共同的祖先。

我要提出的主要观点是，我们超出了通用注意事项。相反，有具体陷阱我们需要意识到这一点。因此，如果您知道特定的民族志详细信息，这将很有用。如果有统计技巧和窍门，那也很有用（较大的样本量显示出统计功效的收益递减）。另外，需要牢记确定性的偏见，当前一代的SNP芯片已调整为欧洲多态性，因此它们可能会错过其他人群具有多态性的基因座，而欧洲人并非如此。

以此类推，无抵押信用可能会成问题。 是的，我想我们知道这一点。 关键是要确定那些有能力和能力负责任地使用信贷的人。这些工具和数据现在可供大众使用。一个大的 “小心” 贴纸无济于事。有帮助的是具体和具体的指针。

值得一提的是，我发现Zack的条形图很难看懂，因此这是我使用较大标签（K = 6）生成的：

昨天，扎克给了我一个私人的向量：66、1、4、10、14、0、4、0、0、3。如果您一直在阅读我的文章，我想您知道如何解释……。

• 类别：科学 •标签：基因, 基因组学, 哈拉帕祖先项目, 人类变异, 个人基因组学, 人口子结构

Harappa祖先项目，T减一天

拉齐布汗 •31年2011月XNUMX日

•500字 • 6 Comments

RSS

扎克将发布第一批结果止行动计划明天。看来他将主要使用合并后的 HGDP，HapMap，SVGP和Behar 数据集，辅之以第二个集合，该第二个集合也合并了邢等。样本（Xing等人与其他结果的相交之处是SNP的数量要少得多，但是它涵盖了各个南亚群体的更好的覆盖范围）。如您所见，他最初将发布ADMIXTURE估算值多德卡德。我对向Zack发送样本的盎格鲁-印度和罗马人特别感兴趣。我不了解前者的任何基因组研究，而有关罗姆人遗传学的已发表研究并未包括SNP芯片结果（通常是mtDNA，Y或仅是一些常染色体标记）。我很想知道罗姆人个体中可能存在纯合或连锁不平衡的证据，这是由于其他研究已经发现了人口瓶颈（我认为将来会如此）。罗姆人很像是印度，西亚和欧洲（通常是巴尔干）集团的混合体，但是，他们的内婚制历史和小型创始集团经历了快速的人口扩张，因此记住这一点也至关重要。

这里是区域细分到目前为止：

旁遮普邦：7
泰米尔语：4
伊朗：3
孟加拉：2
安得拉邦：2
比哈尔邦：1
英印：1
罗马：1
卡纳塔克邦：1
克什米尔：1

他替我换了父母。我的父亲将是HRP0022，母亲将是HRP0023。我是HRP0002（会有一些结果包括在内，尽管由于我只是父母的组合，所以我不会参加“创始人”竞赛）。记住， 23andMe 现在每年 260 美元（预付 199 美元，一年 5 美元/月）。现在看来，V1 分析可能需要 3-4 周的周转时间。尽管印度侨民可能负担得起这些费用，但我担心的是这些社区中达利特人和部落人民的代表性不足（尽管一些公共样本包括这些，部落特别表现出由于遗传漂变引起的特殊性的证据，因此从一些部落在代表性方面可能存在很大问题）。古吉拉特邦被 HapMap 覆盖，巴基斯坦被 HGDP 很好地覆盖。 SVGP 和 HAP 似乎也很好地覆盖了泰米尔人。 真正缺少的是中北部的广阔地带，而这不在公共数据集或HAP中。

这里的如何参与。而且往脸书页面。最后，我知道有些人已经过分着迷，但只订阅 RSS。您永远都不知道Zack的女儿何时会垄断运行ADMIXTURE的机器，从而推迟结果报告！

• 类别：科学 •标签：哈拉帕祖先项目, 个人基因组学

第一波之前的哈拉帕祖先项目

拉齐布汗 •28年2011月XNUMX日

•200字 • 4 Comments

RSS

Zack已发布他的数据来源，以及他本周如何过滤和格式化它们。我认为第一波结果将很快上线。到昨天为止，这就是他所拥有的（我知道他今天还有更多）：

–旁遮普邦7
–孟加拉1
–比哈尔邦1
–泰米尔5
–卡纳塔克邦1
–英裔印度人1
–罗马1
–伊朗3

印度中北部的整个地区都不见了。 我希望在第一波结果发布之后会有更多的人加入。 但是，，从我与Zack讨论的内容来看，由于需要采取初步步骤，因此第一波浪潮可能会产生更丰富的结果，这似乎是合理的。因此，早起有一些好处。拥有1个代表北方邦和比哈尔邦300亿人口的样本真是荒谬。那是一个人代表的南亚人的25％。我已经从一个出生于UP的朋友那里得到了一份承诺，一旦输入数据就将其提供给他，但是那里肯定还有其他人。（当我替父母换班时，孟加拉国的N应该上升到2）

公共数据源包括古吉拉特人，泰米尔人，巴基斯坦人（旁遮普人，帕坦人，信德斯人）和一些南印度人团体（泰米尔人和泰卢固人）。这在空白处留下了空白 北印度平原.

这是再次为项目做简要介绍.

• 类别：科学 •标签：基因, 基因组学, 哈拉帕祖先项目, 印度基因组学, 个人基因组学, 南亚基因组学

Harappa祖先项目，更新

拉齐布汗 •24年2011月XNUMX日

•300字 • 6 Comments

RSS

上周我宣布了哈拉帕祖先项目。现在有自己的专用网站, http://www.harappadna.org。此外，它有自己的往脸书页面。为了让Zack获得自己的网址，他还需要大约10次“点赞”，所以请喜欢！（如果您是如此处决）最后，从我听到的第一波 23andMe 假期销售结果将于本周上线。实际上，我购买该套件的亲戚之一正在处理中，所以我知道我们很快就会在系统中有很多新人。

说到人们，最后我听说扎克得到了十几打回应。这足以开始一轮试运行， 但显然他需要更多人。 更重要的是，这里的目标是获得更好的人口覆盖率。我们从直觉上也从最新研究中了解到的一件事是，南亚存在着许多由社区构成的区域内人口变异。换句话说，一个30人的样本中，您来自3个不同社区的10个具有地理和种姓多样性的社区，现在比来自印度哈里亚纳邦的300吉特人有用得多。为哈里亚纳邦赚取300吉特会很有趣，因为这将为您提供一个了解社区内部差异的窗口，但是您对整个南亚人所做的推论的收益却在不断减少。

如果您知道有人做过23andMe测试，并且有来自南亚，伊朗，缅甸或西藏的杰出血统， 请转发该网址哈拉帕祖先项目. 如果您是23andMe的成员，并且参与了论坛，那么在此项目上发表评论主题可能会很有用，因为与您共享基因的人们会看到它。

• 类别：科学 •标签：基因, 基因组学, 哈拉帕祖先项目, 印度遗传学, 南亚遗传学

介绍哈拉帕祖先项目

拉齐布汗 •17年2011月XNUMX日

•900字 • 15 Comments

RSS

几周前，我暗示了一个相当于多德卡德 & 欧洲基因 BGA。它现在是公开的，并且处于数据收集阶段。您可以在这里阅读全部内容：

http://www.zackvision.com/weblog/2011/01/harappa-ancestry-project

这是提要：

http://www.zackvision.com/feed/

如果您的祖先来自以下国家：

阿富汗
孟加拉国
不丹
缅甸
印度
伊朗
马尔代夫
尼泊尔
巴基斯坦
斯里兰卡
西藏

继续阅读！如果不是，则为“仅用于娱乐目的”…。

多年来，我一直在公开场合和私下里讨论用于南亚基因组学的“参考”人群。由于许可证拉吉，HGDP必须使用巴基斯坦人口。此外，由于HGDP的任务是集中于可能具有遗传独特性的较小群体，因此您有一些非常晦涩的部落，但只有一个来自讲印度－雅利安语的人口样本。即使在那，也只是少数，而不是旁遮普语占巴基斯坦的大多数。

近年来，其中一些变化了。诸如重建印度历史和印度的遗传多样性和欧亚人口扩张的推论已经增加了更多的人口。 HapMap的当前阶段有来自休斯敦的古吉拉特人。但是，当您以较小的人群代表更大范围的人群时，总会出现问题。大约有1.3亿南亚人。使用来自休斯敦的古吉拉特人（古吉拉特人）的种姓范围仍然很窄，这仍然是个问题。由于内部配偶的历史悠久，且种姓和地理结构细密，南亚人必须具备良好的人口覆盖率。以北京的HapMap样本作为汉族人的代表并不是最佳选择，但是在南亚，这种事情就不那么理想了。

因此，当狄涅克（Dienekes）开始 Dodecad祖先项目我很好奇。我已经玩了一段时间ADMIXTURE，但是它促使我自己开始玩它。我的计划是等着看迪涅克斯的表现如何。特别是，在有效使用劳动力方面没有取得成功。像每个人一样，我的世界是有限的。我的中期计划是在2011年上半年的某个时候启动一个相当于Dodecad的南亚地区。

然后扎克走近我。自2003年以来，我通过博客通过互联网了解Zack。他对博客的主要兴趣是关于巴基斯坦的文化和自由派政治（他是巴基斯坦裔美国人和自由派）。但是他还拥有电气工程博士学位，因此他具有一些技术技能。事实证明，由于扎克自己独特的遗传背景（他是1/4埃及人），他一直问我问题。最终，很明显，他对开办类似于Dodecad的东西很感兴趣……我告诉了他我自己的未来计划，并鼓励他立即举起火炬。我知道Zack拥有技术上的突破，并且可能比我本来可以投入更多的时间和精力。

我立即给了他我的23andMe样品。自从我有了Dienekes的基因组后，我们就知道该期待些什么。看起来Zack的软件运行良好。他包括了一个尼泊尔样本，事实证明，在MDS群集中，我掉落了占主导地位的尼泊尔群集的71％。这是我所期望的。

无论如何，详细信息：

请不要从近亲寄送样品。 我将近亲定义为表亲或近亲。如果您有自己和父母的数据，最好从父母那里发送样本（假设它们彼此不相关），而不发送自己的样本。

如果不确定您是否有资格参加，请给我发送电子邮件（[电子邮件保护]）进行查询，然后再发送您的原始数据。

发送什么？
请发送您的所有DNA 原始数据 从下载的文本文件（压缩更好） 23andme 至 [电子邮件保护] 随着 有关您和您所有的四个祖父母的祖传背景信息。背景信息将包括他们的出生地，母语，他们的种姓/社区等。请提供尽可能多的祖先信息，并尽量具体。特别要包括有关南亚以外任何祖先的信息。

数据隐私
您发送给我的原始遗传数据和血统信息不会与任何人共享。

您的数据将仅用于血统分析。不会对身体或健康/医学特征进行分析。

此博客上发布的个人血统分析将使用HRPnnnn形式的ID来完成，只有您和我才知道。

你得到了什么？
血统分析的所有结果（个人和小组）都将发布在此博客的Harappa祖先项目类别下。这将包括掺混物分析以及聚类到人群等。

我建议你读一下狄更斯的分析 on 南亚人了解有关期望的想法。

您可以从以下位置访问与此项目相关的所有博客文章：哈拉帕祖先项目网站每个页面上的导航菜单上的链接。您也可以订阅项目提要.