-Unz评论

拉齐布汗 •17年2011月XNUMX日

•800字 • 2 Comments

最近我在看一个 3-D PCA 动画，它扎克生成来自哈拉帕祖先项目数据集。单击链接并返回。注意到离群值集群了吗？ Burusho 人直截了当，他们似乎含有低水平的藏族混合物。 但是古吉拉特语集群呢？ 再次，我们看到了我们之前看到的情况，PCA 中的古吉拉特人分成两组，一组是紧密的集群，另一组分布相对广泛。这促使我更仔细地研究 HapMap Gujarati 样本。今天我正在探索这个问题普林克的血统身份特征。首先，我将从一个较小的数据集开始，我的家人（父亲、母亲、兄弟姐妹 1、兄弟姐妹 2 和我自己）以及印度人（来自北方邦）和巴基斯坦人作为不相关的个体。我合并了 23andMe 衍生的基因型，并使用约 900,000 个标记计算了成对的 IBD：

./plink --bfile IBDControl --genome

以下是相关结果：

个人1	个人2	Z0	Z1	Z2	PI_帽子	DST	竞价排名	RATIO
印度	父亲	0.768	0.027	0.205	0.218	0.760	0.160	1.940
印度	母亲	0.782	0.010	0.209	0.214	0.759	0.026	1.886
印度	拉齐卜	0.767	0.032	0.202	0.218	0.759	0.500	2.000
印度	兄弟姐妹1	0.769	0.025	0.206	0.219	0.760	0.198	1.949
印度	兄弟姐妹2	0.766	0.032	0.203	0.219	0.760	0.685	2.030
印度	巴基斯坦	0.781	0.017	0.203	0.211	0.758	0.533	2.005
父亲	母亲	0.776	0.018	0.207	0.215	0.759	0.284	1.965
父亲	拉齐卜	0.002	0.777	0.221	0.610	0.851	1.000	450.800
父亲	兄弟姐妹1	0.001	0.785	0.214	0.606	0.850	1.000	898.800
父亲	兄弟姐妹2	0.002	0.779	0.220	0.609	0.851	1.000	643.143
父亲	巴基斯坦	0.778	0.019	0.203	0.213	0.758	0.201	1.950
母亲	拉齐卜	0.002	0.788	0.211	0.605	0.849	1.000	639.429
母亲	兄弟姐妹1	0.002	0.781	0.218	0.608	0.850	1.000	639.857
母亲	兄弟姐妹2	0.002	0.782	0.216	0.607	0.850	1.000	447.900
母亲	巴基斯坦	0.779	0.020	0.201	0.211	0.758	0.052	1.904
拉齐卜	兄弟姐妹1	0.183	0.408	0.409	0.613	0.866	1.000	11.386
拉齐卜	兄弟姐妹2	0.194	0.432	0.374	0.590	0.858	1.000	11.491
拉齐卜	巴基斯坦	0.781	0.016	0.203	0.211	0.758	0.933	2.095
兄弟姐妹1	兄弟姐妹2	0.236	0.412	0.351	0.557	0.849	1.000	9.413
兄弟姐妹1	巴基斯坦	0.777	0.024	0.199	0.211	0.758	0.327	1.973
兄弟姐妹2	巴基斯坦	0.774	0.024	0.202	0.214	0.758	0.443	1.991

您甚至可以在不知道列的含义的情况下推断出一些事情。请注意，父子、兄弟姐妹和不相关的比较之间存在差异。距离度量 DST 与 23andMe 中的全基因组比较基本完全相同。 Web 应用程序正在运行 Plink，或者它使用完全相同的算法。 Z0 = IBD 0，Z1 = IBD 1，Z2 = IBD 2。请注意，在我的兄弟姐妹中，我有相当数量的 IBD 2，但在我父母的情况下要少得多。那是因为父母给你一份，但你可以与你的兄弟姐妹分享一个基因的零个、一个或两个。相比之下，我们的父母几乎没有任何 IBD = 0，因为他们保证给你一份。我假设在这种情况下 IBD = 2 是一个变体的人群范围内的固定。请注意，在最后一列中，无关个体 (~2)、兄弟姐妹 (~10) 和父子 (~500) 的值不同。

我在古吉拉特人中进行了类似的测试。请记住，我根据 PCA 集群将它们标记为 Gujarat_A 和 Gujarati_B，后者形成了紧密的人口集群，而前者则没有。以下是成对组的平均成对 DST 值：

平均值：0.746

仅 Gujarati_A 的平均值：0.744

仅 Gujarati_B 的平均值：0.749

仅 Gujarati_A 和 Gujarati_B 对的平均值：0.745

Gujarati_B 比 Gujarati_A 更接近。我不确定这些 DST 值是否与 23andMe 文件中的值完全可比。我会告诉你为什么。我将这些对限制为 RATIO > 2.5 的那些。这是我发现的：

个人1	个人2	Z0	Z1	Z2	PI_帽子	DST	竞价排名	RATIO	流行音乐	流行音乐
NA20900	NA20891	0.003	0.974	0.023	0.510	0.842	1.000	188.250	古吉拉特语_A	古吉拉特语_A
NA20909	NA20910	0.003	0.970	0.027	0.512	0.842	1.000	140.438	古吉拉特语_A	古吉拉特语_A
NA20891	NA20907	0.412	0.557	0.032	0.310	0.803	1.000	5.730	古吉拉特语_A	古吉拉特语_A
NA20900	NA20907	0.684	0.292	0.024	0.170	0.775	1.000	3.251	古吉拉特语_A	古吉拉特语_A

注意 Z2 ~ 0，与上面的计算相反。我假设阅读本文的人知道这是一个简单的原因，所以一定要告诉。 IBD 对 23andMe 的估计总是让我觉得太高了。无论如何，令我惊讶的是 绝对相关的个人似乎在 Gujarati_A 集群中！ 那里发生了什么事？我的第一个想法是我弄乱了数据，或者我编码错误。我假设这是在进入 HapMap 数据集之前经过仔细检查的。有没有其他人看到这个奇怪的结果？如果不是，我认为我犯了一个错误（实际上这是我现在的工作模式）。

• 类别：科学 •标签：基因, 基因组学, Gujaratis

那些休斯顿古朱斯是谁？

拉齐布汗 •14年2011月XNUMX日

•500字 • 5 Comments

RSS

左图是从休斯敦的古吉拉特人和丹佛的中文生成的主要成分1、2和3的三维表示。当这两个人口聚集在一起时，中国人形成了一个非常同质的群体。它们在遗传变异的三个主要解释维度上相差不大。相比之下，古吉拉特人 do 各不相同。这不足为奇。在补充重建印度人口史值得注意的是，古吉拉特人确实倾向于在PCA中陷入两个截然不同的集群。当您处理HapMap Gujarati数据集时，您会一遍又一遍地发现这一发现。实际上，没有两个等效的集群。相反，有一个“紧密”集群，从现在开始，我将在数据集中将其标记为“ Gujarati_B”，另一个集群“ Gujarati_A”，实际上仅由Gujarati_B集群之外的所有个人组成。即使与其他相比南亚人口这两个不同的类别在HapMap古吉拉特人中仍然存在。

扎克已经确定了两个集群之间的主要区别： 古吉拉特邦（Gujarat_A）的某些人拥有更多的“西欧亚”血统。 为了将来对此更加正式，我只是根据合并数据集中的个人，根据其在前两台PC中的位置，将其分配到两个古吉拉特语群集中的一个。昨天晚上，我以2个SNP运行ADMIXTURE K = 10到75,000。我还删除了美国原住民组织，并从HapMap中添加了更多的欧洲和东亚样本。以下是K = 4时的一些人口：

让我们深入到个人层面。这里有古吉拉特人，信德人，还有我的父母（孟加拉人）。我按“欧洲”和“南亚”组成部分（分别是浅蓝色和绿色）分类，而在巴布亚语中是紫色，在东亚人中是红色。

ADMIXTURE图与PCA完全对齐。在PCA中，Gujarati_A展示了与欧洲集群的距离谱，而在ADMIXTURE中，您看到了相同的距离。相反，Gujarati_B相对统一。发生什么了？我将在发布类似的内容棕褐色叛变即将推出。但是我的猜测是Gujarati_B是以下内容的子集帕特尔。换句话说，它们在基因上是不同的加提。我怀疑Gujarati_A是来自许多不同群体的更多样化的群体 贾蒂斯.

这有关系吗？我相信是的。 If 古吉拉特语_B是古吉拉特语的一个子集，是一个独特的民族社会群体，因此它们可能不像古吉拉特语_A那样好地代表南亚医学遗传学。更具体地说，古吉拉特语（Gujarati_B）可能是频率较高的稀有疾病等位基因，因为它们是近交氏族。相反，虽然古吉拉特语_A可能表现出南亚内婚制的所有特征，但如果它们数量更多，不同组，那么他们将拥有各种不同的稀有等位基因。他们有的 共同点 可能更一般地说是南亚。

• 类别：科学 •标签：文化塑造, 基因, 基因组学, Gujaratis, 堆图, 健康管理, 医学遗传学, 药物, 个人基因组学