Unz评论•另类媒体选择$
美国主流媒体大都排除了有趣,重要和有争议的观点
通过电子邮件将此页面发送给其他人

 记住我的信息



=>
作者 筛选?
拉齐布汗
没有发现
 玩笑基因表达博客
/
Gujaratis

书签 全部切换变革理论添加到图书馆从图书馆中删除 • B
显示评论下一个新评论下一个新回复了解更多
回复同意/不同意/等等 更多... This Commenter This Thread Hide Thread Display All Comments
同意不同意谢谢LOL轮唱
这些按钮可将您的公开协议,异议,感谢,LOL或巨魔与所选注释一起注册。 仅对最近使用“记住我的信息”复选框保存姓名和电子邮件的频繁评论者可用,并且在任何八个小时的时间内也只能使用三次。
忽略评论者 关注评论者

最近我在看一个 3-D PCA 动画,它 扎克生成 来自 哈拉帕祖先项目 数据集。 单击链接并返回。 注意到离群值集群了吗? Burusho 人直截了当,他们似乎含有低水平的藏族混合物。 但是古吉拉特语集群呢? 再次,我们看到了我们之前看到的情况,PCA 中的古吉拉特人分成两组,一组是紧密的集群,另一组分布相对广泛。 这促使我更仔细地研究 HapMap Gujarati 样本。 今天我正在探索这个问题 普林克的血统身份 特征。 首先,我将从一个较小的数据集开始,我的家人(父亲、母亲、兄弟姐妹 1、兄弟姐妹 2 和我自己)以及印度人(来自北方邦)和巴基斯坦人作为不相关的个​​体。 我合并了 23andMe 衍生的基因型,并使用约 900,000 个标记计算了成对的 IBD:

./plink --bfile IBDControl --genome

以下是相关结果:

个人1 个人2 Z0 Z1 Z2 PI_帽子 DST 竞价排名 RATIO
印度 父亲 0.768 0.027 0.205 0.218 0.760 0.160 1.940
印度 母亲 0.782 0.010 0.209 0.214 0.759 0.026 1.886
印度 拉齐卜 0.767 0.032 0.202 0.218 0.759 0.500 2.000
印度 兄弟姐妹1 0.769 0.025 0.206 0.219 0.760 0.198 1.949
印度 兄弟姐妹2 0.766 0.032 0.203 0.219 0.760 0.685 2.030
印度 巴基斯坦 0.781 0.017 0.203 0.211 0.758 0.533 2.005
父亲 母亲 0.776 0.018 0.207 0.215 0.759 0.284 1.965
父亲 拉齐卜 0.002 0.777 0.221 0.610 0.851 1.000 450.800
父亲 兄弟姐妹1 0.001 0.785 0.214 0.606 0.850 1.000 898.800
父亲 兄弟姐妹2 0.002 0.779 0.220 0.609 0.851 1.000 643.143
父亲 巴基斯坦 0.778 0.019 0.203 0.213 0.758 0.201 1.950
母亲 拉齐卜 0.002 0.788 0.211 0.605 0.849 1.000 639.429
母亲 兄弟姐妹1 0.002 0.781 0.218 0.608 0.850 1.000 639.857
母亲 兄弟姐妹2 0.002 0.782 0.216 0.607 0.850 1.000 447.900
母亲 巴基斯坦 0.779 0.020 0.201 0.211 0.758 0.052 1.904
拉齐卜 兄弟姐妹1 0.183 0.408 0.409 0.613 0.866 1.000 11.386
拉齐卜 兄弟姐妹2 0.194 0.432 0.374 0.590 0.858 1.000 11.491
拉齐卜 巴基斯坦 0.781 0.016 0.203 0.211 0.758 0.933 2.095
兄弟姐妹1 兄弟姐妹2 0.236 0.412 0.351 0.557 0.849 1.000 9.413
兄弟姐妹1 巴基斯坦 0.777 0.024 0.199 0.211 0.758 0.327 1.973
兄弟姐妹2 巴基斯坦 0.774 0.024 0.202 0.214 0.758 0.443 1.991

您甚至可以在不知道列的含义的情况下推断出一些事情。 请注意,父子、兄弟姐妹和不相关的比较之间存在差异。 距离度量 DST 与 23andMe 中的全基因组比较基本完全相同。 Web 应用程序正在运行 Plink,或者它使用完全相同的算法。 Z0 = IBD 0,Z1 = IBD 1,Z2 = IBD 2。请注意,在我的兄弟姐妹中,我有相当数量的 IBD 2,但在我父母的情况下要少得多。 那是因为父母给你一份,但你可以与你的兄弟姐妹分享一个基因的零个、一个或两个。 相比之下,我们的父母几乎没有任何 IBD = 0,因为他们保证给你一份。 我假设在这种情况下 IBD = 2 是一个变体的人群范围内的固定。 请注意,在最后一列中,无关个体 (~2)、兄弟姐妹 (~10) 和父子 (~500) 的值不同。

我在古吉拉特人中进行了类似的测试。 请记住,我根据 PCA 集群将它们标记为 Gujarat_A 和 Gujarati_B,后者形成了紧密的人口集群,而前者则没有。 以下是成对组的平均成对 DST 值:

平均值:0.746

仅 Gujarati_A 的平均值:0.744

仅 Gujarati_B 的平均值:0.749

仅 Gujarati_A 和 Gujarati_B 对的平均值:0.745

Gujarati_B 比 Gujarati_A 更接近。 我不确定这些 DST 值是否与 23andMe 文件中的值完全可比。 我会告诉你为什么。 我将这些对限制为 RATIO > 2.5 的那些。 这是我发现的:

个人1 个人2 Z0 Z1 Z2 PI_帽子 DST 竞价排名 RATIO 流行音乐 流行音乐
NA20900 NA20891 0.003 0.974 0.023 0.510 0.842 1.000 188.250 古吉拉特语_A 古吉拉特语_A
NA20909 NA20910 0.003 0.970 0.027 0.512 0.842 1.000 140.438 古吉拉特语_A 古吉拉特语_A
NA20891 NA20907 0.412 0.557 0.032 0.310 0.803 1.000 5.730 古吉拉特语_A 古吉拉特语_A
NA20900 NA20907 0.684 0.292 0.024 0.170 0.775 1.000 3.251 古吉拉特语_A 古吉拉特语_A

注意 Z2 ~ 0,与上面的计算相反。 我假设阅读本文的人知道这是一个简单的原因,所以一定要告诉。 IBD 对 23andMe 的估计总是让我觉得太高了。 无论如何,令我惊讶的是 绝对相关的个人似乎在 Gujarati_A 集群中! 那里发生了什么事? 我的第一个想法是我弄乱了数据,或者我编码错误。 我假设这是在进入 HapMap 数据集之前经过仔细检查的。 有没有其他人看到这个奇怪的结果? 如果不是,我认为我犯了一个错误(实际上这是我现在的工作模式)。

 
• 类别: 科学 •标签: 基因, 基因组学, Gujaratis 

左图是从休斯敦的古吉拉特人和丹佛的中文生成的主要成分1、2和3的三维表示。 当这两个人口聚集在一起时,中国人形成了一个非常同质的群体。 它们在遗传变异的三个主要解释维度上相差不大。 相比之下,古吉拉特人 do 各不相同。 这不足为奇。 在补充 重建印度人口史 值得注意的是,古吉拉特人确实倾向于在PCA中陷入两个截然不同的集群。 当您处理HapMap Gujarati数据集时,您会一遍又一遍地发现这一发现。 实际上,没有两个等效的集群。 相反,有一个“紧密”集群,从现在开始,我将在数据集中将其标记为“ Gujarati_B”,另一个集群“ Gujarati_A”,实际上仅由Gujarati_B集群之外的所有个人组成。 即使与其他相比 南亚 人口这两个不同的类别在HapMap古吉拉特人中仍然存在。

扎克已经 确定了两个集群之间的主要区别: 古吉拉特邦(Gujarat_A)的某些人拥有更多的“西欧亚”血统。 为了将来对此更加正式,我只是根据合并数据集中的个人,根据其在前两台PC中的位置,将其分配到两个古吉拉特语群集中的一个。 昨天晚上,我以2个SNP运行ADMIXTURE K = 10到75,000。 我还删除了美国原住民组织,并从HapMap中添加了更多的欧洲和东亚样本。 以下是K = 4时的一些人口:


让我们深入到个人层面。 这里有古吉拉特人,信德人,还有我的父母(孟加拉人)。 我按“欧洲”和“南亚”组成部分(分别是浅蓝色和绿色)分类,而在巴布亚语中是紫色,在东亚人中是红色。

ADMIXTURE图与PCA完全对齐。 在PCA中,Gujarati_A展示了与欧洲集群的距离谱,而在ADMIXTURE中,您看到了相同的距离。 相反,Gujarati_B相对统一。 发生什么了? 我将在发布类似的内容 棕褐色叛变即将推出。 但是我的猜测是Gujarati_B是以下内容的子集 帕特尔。 换句话说,它们在基因上是不同的 加提。 我怀疑Gujarati_A是来自许多不同群体的更多样化的群体 贾蒂斯.

这有关系吗? 我相信是的。 If 古吉拉特语_B是古吉拉特语的一个子集,是一个独特的民族社会群体,因此它们可能不像古吉拉特语_A那样好地代表南亚医学遗传学。 更具体地说,古吉拉特语(Gujarati_B)可能是频率较高的稀有疾病等位基因,因为它们是近交氏族。 相反,虽然古吉拉特语_A可能表现出南亚内婚制的所有特征,但如果它们数量更多, 不同 组,那么他们将拥有各种不同的稀有等位基因。 他们有的 共同点 可能更一般地说是南亚。

 
拉齐布汗
关于拉齐卜·汗

“我拥有生物学和生物化学学位,对遗传学,历史和哲学充满热情,虾是我最喜欢的食物。如果您想了解更多信息,请访问http://www.razib.com上的链接”