最近我在看一个 3-D PCA 动画,它 扎克生成 来自 哈拉帕祖先项目 数据集。 单击链接并返回。 注意到离群值集群了吗? Burusho 人直截了当,他们似乎含有低水平的藏族混合物。 但是古吉拉特语集群呢? 再次,我们看到了我们之前看到的情况,PCA 中的古吉拉特人分成两组,一组是紧密的集群,另一组分布相对广泛。 这促使我更仔细地研究 HapMap Gujarati 样本。 今天我正在探索这个问题 普林克的血统身份 特征。 首先,我将从一个较小的数据集开始,我的家人(父亲、母亲、兄弟姐妹 1、兄弟姐妹 2 和我自己)以及印度人(来自北方邦)和巴基斯坦人作为不相关的个体。 我合并了 23andMe 衍生的基因型,并使用约 900,000 个标记计算了成对的 IBD:
./plink --bfile IBDControl --genome
以下是相关结果:
个人1 | 个人2 | Z0 | Z1 | Z2 | PI_帽子 | DST | 竞价排名 | RATIO |
印度 | 父亲 | 0.768 | 0.027 | 0.205 | 0.218 | 0.760 | 0.160 | 1.940 |
印度 | 母亲 | 0.782 | 0.010 | 0.209 | 0.214 | 0.759 | 0.026 | 1.886 |
印度 | 拉齐卜 | 0.767 | 0.032 | 0.202 | 0.218 | 0.759 | 0.500 | 2.000 |
印度 | 兄弟姐妹1 | 0.769 | 0.025 | 0.206 | 0.219 | 0.760 | 0.198 | 1.949 |
印度 | 兄弟姐妹2 | 0.766 | 0.032 | 0.203 | 0.219 | 0.760 | 0.685 | 2.030 |
印度 | 巴基斯坦 | 0.781 | 0.017 | 0.203 | 0.211 | 0.758 | 0.533 | 2.005 |
父亲 | 母亲 | 0.776 | 0.018 | 0.207 | 0.215 | 0.759 | 0.284 | 1.965 |
父亲 | 拉齐卜 | 0.002 | 0.777 | 0.221 | 0.610 | 0.851 | 1.000 | 450.800 |
父亲 | 兄弟姐妹1 | 0.001 | 0.785 | 0.214 | 0.606 | 0.850 | 1.000 | 898.800 |
父亲 | 兄弟姐妹2 | 0.002 | 0.779 | 0.220 | 0.609 | 0.851 | 1.000 | 643.143 |
父亲 | 巴基斯坦 | 0.778 | 0.019 | 0.203 | 0.213 | 0.758 | 0.201 | 1.950 |
母亲 | 拉齐卜 | 0.002 | 0.788 | 0.211 | 0.605 | 0.849 | 1.000 | 639.429 |
母亲 | 兄弟姐妹1 | 0.002 | 0.781 | 0.218 | 0.608 | 0.850 | 1.000 | 639.857 |
母亲 | 兄弟姐妹2 | 0.002 | 0.782 | 0.216 | 0.607 | 0.850 | 1.000 | 447.900 |
母亲 | 巴基斯坦 | 0.779 | 0.020 | 0.201 | 0.211 | 0.758 | 0.052 | 1.904 |
拉齐卜 | 兄弟姐妹1 | 0.183 | 0.408 | 0.409 | 0.613 | 0.866 | 1.000 | 11.386 |
拉齐卜 | 兄弟姐妹2 | 0.194 | 0.432 | 0.374 | 0.590 | 0.858 | 1.000 | 11.491 |
拉齐卜 | 巴基斯坦 | 0.781 | 0.016 | 0.203 | 0.211 | 0.758 | 0.933 | 2.095 |
兄弟姐妹1 | 兄弟姐妹2 | 0.236 | 0.412 | 0.351 | 0.557 | 0.849 | 1.000 | 9.413 |
兄弟姐妹1 | 巴基斯坦 | 0.777 | 0.024 | 0.199 | 0.211 | 0.758 | 0.327 | 1.973 |
兄弟姐妹2 | 巴基斯坦 | 0.774 | 0.024 | 0.202 | 0.214 | 0.758 | 0.443 | 1.991 |
您甚至可以在不知道列的含义的情况下推断出一些事情。 请注意,父子、兄弟姐妹和不相关的比较之间存在差异。 距离度量 DST 与 23andMe 中的全基因组比较基本完全相同。 Web 应用程序正在运行 Plink,或者它使用完全相同的算法。 Z0 = IBD 0,Z1 = IBD 1,Z2 = IBD 2。请注意,在我的兄弟姐妹中,我有相当数量的 IBD 2,但在我父母的情况下要少得多。 那是因为父母给你一份,但你可以与你的兄弟姐妹分享一个基因的零个、一个或两个。 相比之下,我们的父母几乎没有任何 IBD = 0,因为他们保证给你一份。 我假设在这种情况下 IBD = 2 是一个变体的人群范围内的固定。 请注意,在最后一列中,无关个体 (~2)、兄弟姐妹 (~10) 和父子 (~500) 的值不同。
我在古吉拉特人中进行了类似的测试。 请记住,我根据 PCA 集群将它们标记为 Gujarat_A 和 Gujarati_B,后者形成了紧密的人口集群,而前者则没有。 以下是成对组的平均成对 DST 值:
平均值:0.746
仅 Gujarati_A 的平均值:0.744
仅 Gujarati_B 的平均值:0.749
仅 Gujarati_A 和 Gujarati_B 对的平均值:0.745
Gujarati_B 比 Gujarati_A 更接近。 我不确定这些 DST 值是否与 23andMe 文件中的值完全可比。 我会告诉你为什么。 我将这些对限制为 RATIO > 2.5 的那些。 这是我发现的:
个人1 | 个人2 | Z0 | Z1 | Z2 | PI_帽子 | DST | 竞价排名 | RATIO | 流行音乐 | 流行音乐 |
NA20900 | NA20891 | 0.003 | 0.974 | 0.023 | 0.510 | 0.842 | 1.000 | 188.250 | 古吉拉特语_A | 古吉拉特语_A |
NA20909 | NA20910 | 0.003 | 0.970 | 0.027 | 0.512 | 0.842 | 1.000 | 140.438 | 古吉拉特语_A | 古吉拉特语_A |
NA20891 | NA20907 | 0.412 | 0.557 | 0.032 | 0.310 | 0.803 | 1.000 | 5.730 | 古吉拉特语_A | 古吉拉特语_A |
NA20900 | NA20907 | 0.684 | 0.292 | 0.024 | 0.170 | 0.775 | 1.000 | 3.251 | 古吉拉特语_A | 古吉拉特语_A |
注意 Z2 ~ 0,与上面的计算相反。 我假设阅读本文的人知道这是一个简单的原因,所以一定要告诉。 IBD 对 23andMe 的估计总是让我觉得太高了。 无论如何,令我惊讶的是 绝对相关的个人似乎在 Gujarati_A 集群中! 那里发生了什么事? 我的第一个想法是我弄乱了数据,或者我编码错误。 我假设这是在进入 HapMap 数据集之前经过仔细检查的。 有没有其他人看到这个奇怪的结果? 如果不是,我认为我犯了一个错误(实际上这是我现在的工作模式)。