Unz评论•另类媒体选择$
美国主流媒体大都排除了有趣,重要和有争议的观点
 博客浏览詹姆斯·汤普森档案馆
遗传性:失物招领处?
救援的最佳预测。

书签 全部切换总目录添加到图书馆从图书馆中删除 • B
显示评论下一个新评论下一个新回复了解更多
回复同意/不同意/等等 更多... This Commenter This Thread Hide Thread Display All Comments
同意不同意谢谢LOL轮唱
这些按钮可将您的公开协议,异议,感谢,LOL或巨魔与所选注释一起注册。 仅对最近使用“记住我的信息”复选框保存姓名和电子邮件的频繁评论者可用,并且在任何八个小时的时间内也只能使用三次。
忽略评论者 关注评论者
搜寻文字 区分大小写  确切的词  包括评论
列表 书签

许预测和实际身高

“遗漏遗传力”问题:目前的遗传分析无法解释像群体遗传力估计所建议的那样多的变异。 这一直是“打倒双胞胎研究”论点的线索,其中那些具有戏剧性倾向的人选择想象遗传力估计因此被推翻。 不是这样。 我从来没有特别担心这个论点,认为它只是一个时间问题,基因密码被充分破解以弥合差距。

破解遗传密码的另一个问题是,一些重要的人类特征,如身高和智力,是由许多影响很小的基因控制的。 至于身高,这实际上是一个比例问题:高个子的人通常更高,不仅因为他们的腿更长,但他们通常更长,因此更高。 建立一个更高的身体涉及大量的变化。 实际上,可能需要多达 20,000 个 SNP,每个 SNP 只做一点点。 同样,可能涉及多达 10,000 个 SNP 的情报。 但是,如果一个重要特征需要许多 SNP,而每个 SNP 都做得很少,则很难证明或反驳它们的参与。 与仅仅识别重要的 SNP 不同,表明一种技术可以占整体方差的很大一部分是很重要的。 预测很重要。

现在出现了一篇论文,声称已经通过使用机器学习(即 LASSO 或压缩感知技术)来计算身高的 SNP 遗传力方差。 它还获得了 9% 的学业成绩方差,接近我之前提到的当前上限的 10%。

人类身高的准确基因组预测。 Louis Lello、Steven G. Avery、Laurent Tellier、Ana I. Vazquez、Gustavo de los Campos 和 Stephen DH Hsu。 bioRxiv 预印本于 18 年 2017 月 XNUMX 日首次在线发布。
摘要:

我们使用现代高维统计方法(即机器学习)为可遗传和极其复杂的人类数量特征(身高、足跟骨密度和教育程度)构建基因组预测因子。 重复测试表明,这些预测因子分别捕获了三个性状总方差的 40%、20% 和 9%。 例如,预测高度与实际高度相关约 0.65; 验证样本中大多数个体的实际身高与预测值相差几厘米。 捕获的身高方差与 GCTA (GREML) 分析估计的 SNP 遗传力相当,似乎接近其渐近值(即,随着样本量趋于无穷大),这表明我们已经捕获了大部分遗传力使用的 SNP。 因此,我们的结果解决了“遗漏遗传力”问题的常见 SNP 部分——即预测 R 平方和 SNP 遗传力之间的差距。 我们的身高预测器中的~20k 个激活的 SNP 揭示了人类身高的遗传结构,至少对于常见的 SNP。 我们的主要数据集是英国生物银行队列,由近 500 万个具有多种表型的个体基因型组成。 我们还使用早期 GWAS 中发现的其他数据集和 SNP 对我们的结果进行样本外验证。

http://www.biorxiv.org/content/biorxiv/early/2017/09/18/190124.full.pdf

介绍清楚地阐述了问题,并将 SNP 狩猎技术与基因组预测区分开来,后者“基于全基因组回归方法,寻求构建最准确的表型预测因子,容忍可能包含一小部分假阳性 SNP预测器集。 用于构建预测因子的分子标记的 SNP 遗传力可以解释为预测因子可以捕获的方差的上限”。

作者使用了包含近 500,000 个基因型的英国生物银行数据库。 这篇论文有非常必要的技术性补充附录,但其基本方法是使用大量数据样本来训练学习过程,然后在为此目的而分开的 5,000 种基因型样本上测试结果。 在我的原始术语中,发现样本用于生成最佳预测器、疣等等,并在证明样本上进行测试。 我喜欢这个,因为它务实,没有太多关于基因的先验假设的负担,利用所有数据优势,并愿意包括弱信号。

上面显示的图 3 显示了与高度数据的良好拟合。

正如作者在讨论中所说

直到最近,大多数处理大型基因组数据集的工作都集中在寻找标记(例如,SNP)和表型之间的关联。 相比之下,我们专注于根据可用数据对表型进行最佳预测。 我们表明,即使对于受数千种变异影响的复杂性状,也可以捕获来自常见 SNP 的大部分预期遗传力。 最近使用 UKBB 临时发布数据的研究报告了大约 0.5 的人类身高预测相关性,在训练中使用大约 100 万个人[19]。 这些研究预测,随着样本量的增加,预测精度会进一步提高,这已在此处得到证实。

我们乐观地认为,如果有足够的数据和高质量的表型,其他数量性状(例如认知能力或特定疾病风险)可能会获得与身高相似的结果。 有许多遗传性在 0.5 范围内的疾病,例如阿尔茨海默氏症、I 型糖尿病、肥胖症、卵巢癌、精神分裂症等。即使这些疾病的遗传风险由数千种遗传变异控制,我们的工作表明有效预测变量可能是可获得的(即,与图 (4) 中的高度预测变量相当)。 这将允许仅从基因型识别高风险个体。 公共健康益处是巨大的。

我们可以粗略估计捕获大部分疾病风险差异所需的病例对照数据量。 对于 h2∼0.5 的数量性状(例如,身高),我们的模拟预测 LASSO 性能的相变发生在 n∼30s,其中 n 是样本中的个体数量,s 是特征的稀疏性(即,具有非零效应大小的变体数量)。 对于病例对照数据,我们发现 n∼100s(其中 n 表示具有相同数量对照的病例数)就足够了。 因此,使用我们的方法,对大约 100 万个病例和相似数量的对照进行分析可能会很好地预测高度遗传的疾病风险,即使遗传结构很复杂并且取决于一千个或更多的遗传变异

总之,这是令人兴奋的事情。 看起来,鉴于大样本并满足信号稀疏性要求,压缩感知可能有助于追踪许多特征和条件的预测公式。 好处是巨大的,最大的好处是理解的增加。

 
• 类别: 科学 •标签: 身高遗传学, 基因组学, 高度, 遗传力 
隐藏40条评论发表评论
忽略评论者...跟随Endorsed Only
修剪评论?
    []
  1. hyperbola 说:

    仍然不是很有说服力,也不是很有用。

    为了“预测”一个简单的表型,比如身高,作者使用了大约 10,000 个变量(样本量只有 500,000)。 奇怪的是,作者似乎从来没有告诉我们这 10,000 个 SNP 代表了多少基因,但图 5 似乎确实表明它们(随机?)分布在大部分基因组中,即基因的数量大概是也在成千上万。

    让我们给作者一个怀疑的好处,并想象这种“成功”适用于复杂的疾病,如阿尔茨海默氏症(正如他们所建议的那样)。 知道几千个基因可能会影响任何特定患者自出生以来是否易患“遗传性”阿尔茨海默氏症,是否有任何真正的医学效用? 知道几千个基因可能对阿尔茨海默氏症有(主要是非常小的)贡献是否可能有助于产生治疗方法?

    最后,这样的“分析”,其实是不是有很多未经证实的假设? 例如,假设“养育”确实对成年身高有重要作用(很有可能是因为人类的突变速度不够快,无法产生过去几代观察到的身高大幅增加)。 这意味着整个分析集 (500,000) 被未知和不受控制的因素扭曲。

    这篇文章似乎是目前 GWAS 风格方法棺材中的另一个钉子。

    • 回复: @dearieme
    , @res
    , @candid_observer
  2. dearieme 说:
    @hyperbola

    “知道几千个基因可能会影响任何特定患者自出生以来是否易患“遗传性”阿尔茨海默氏症,是否有任何真正的医学效用? 了解数千个基因可能对阿尔茨海默氏症有(主要是非常小的)贡献是否可能有助于产生治疗方法?”

    是的,如果你有神奇的能力提前告诉它没有任何好处,为什么还要费心去做研究呢?

    • 回复: @hyperbola
  3. C T 说: • 您的网站

    基因告诉身体或多或少地制造特定分子。 弄清楚这些分子是什么,你就可以在不改变 DNA 的情况下“破解”智能。 例如,1) 给予天冬氨酸或 2) 大脑中具有较高内源性(即,由于最有可能由遗传而自然发生)天冬氨酸的小鼠具有更好的工作记忆。 (有趣的是,对于那些关注人口智力的人来说,东亚人和海鲜消费者似乎是他们饮食中天冬氨酸含量最高的人)。

    • 回复: @C T
  4. C T 说:
    @C T

    对不起,老鼠不是老鼠。

    氨基酸。 2010 年 38 月;5(1561):9-10.1007。 doi:00726/s009-0369-2009-x。 电子版 5 年 XNUMX 月 XNUMX 日。
    D-天冬氨酸参与大鼠学习记忆的证据。
    Topo E、Soricelli A、Di Maio A、D'Aniello E、Di Fiore MM、D'Aniello A.
    抽象
    D-天冬氨酸 (D-Asp) 是一种存在于神经内分泌系统中的内源性氨基酸。 在这里,我们报告了大鼠中 D-Asp 参与学习和记忆过程的证据。 口服 D-天冬氨酸钠 (40 mM) 12-16 天提高了大鼠在莫里斯水迷宫系统中找到隐藏平台的认知能力。 每天两次,连续三天在两组 12 只大鼠中进行。 一组用 Na-D-天冬氨酸处理,另一组用对照处理。 与对照组相比,治疗组的认知效果显着增加(重复测量的双向方差分析:F ((2, 105)) = 57.29;P 值 < 0.001)。 再进行五次重复训练,包括改变平台位置,也显示出显着的治疗效果 [F ((2, 84)) = 27.62; P 值 < 0.001]。 在治疗大鼠的海马体中,D-Asp 与对照相比增加了约 2.7 倍(82.5 +/- 10.0 与 30.6 +/- 5.4 ng/g 组织;P < 0.0001)。 此外,随机选择的 20 只海马内源性 D-Asp 浓度相对较高的大鼠到达隐藏平台的速度要快得多,这一事件表明它们的认知能力增强与高水平的 D-Asp 在功能上有关。 在 20 只大鼠中计算的相关系数为 R = -0.916,df 为 18; P < 0.001。 总之,这项研究提供了确凿的证据,表明 D-天冬氨酸在调节学习和记忆中起着重要作用。

  5. res 说:
    @hyperbola

    为了“预测”一个简单的表型,比如身高,作者使用了大约 10,000 个变量(样本量只有 500,000)。 作者似乎从来没有告诉我们这 10,000 个 SNP 代表了多少基因,这似乎很奇怪

    首先,您了解什么是样本外测试吗? 上面 Thompson 博士描述了一种相关技术,但没有使用这些词:

    基本方法是使用大量数据样本来训练学习程序,然后在为此目的而分开的 5,000 种基因型样本上测试结果。 用我的原始术语来说,发现样本用于生成最佳预测器、疣等等,并在证明样本上进行测试。 我喜欢这个,因为它务实,没有太多关于基因的先验假设的负担,利用所有数据优势,并愿意包括弱信号。

    我相信这段摘录表明使用了两种不同的技术(即图 3 是 Thompson 博士描述的 UKBB 数据,而不是 ARIC 数据):

    图 (3) 显示了未用于上述训练优化的 5000 个人的验证集中的预测表型和实际表型之间的相关性 - 这显示了身高和足跟骨矿物质密度。

    论文摘要说:“我们还使用早期 GWAS 中发现的其他数据集和 SNP 来对我们的结果进行样本外验证。”

    请注意,这比 Thompson 博士描述的更严格(区别在于使用完全独立的数据集 (ARIC) 进行验证,而不是原始数据集 (UKBB) 的保留子集,我怀疑他出于解释目的进行了简化)。 这是论文中更详细的解释:

    对于身高,我们通过使用 SNP 构建预测模型来测试样本外有效性,SNP 的状态可用于 UKBB 个体(通过插补)和社区研究 (ARIC) [18] 个体(后者是美国样本)的动脉粥样硬化风险)。 该 SNP 集与上面使用的 SNP 集不同,并且由于 UKBB 和 ARIC 使用的基因分型阵列不同而受到更多限制。 对 UKBB 数据进行了培训,并在 ARIC 数据上测试了样本外有效性。 由于 SNP 的限制和插补的限制,最大相关性降低了约 5%:在 UKBB 内进行测试时,相关性降至约 0.58(从 0.61)。 在 ARIC 参与者中,相关性进一步下降了约 7%,最大相关性为约 0.54。 只有后者的预测能力下降实际上是由于样本外效应。 如果 ARIC 参与者
    在与 UKBB 训练集相同的阵列上进行基因分型时,预测器性能仅存在约 7% 的差异。 类似于图 (4) 的 ARIC 散点图显示在补充资料中。 大多数 ARIC 个体的实际身高在预测身高的 4 厘米以内或更少。

    对于身高的样本外验证,我们提取了在先前质量控制措施中幸存下来的 SNP,并且还存在于来自社区动脉粥样硬化风险研究 (ARIC) [18] 的第二个数据集中。 这导致总共 632,155 个 SNP 和 464,192 个样本。

    有关样本外测试的更多信息,请访问 http://ec.europa.eu/eurostat/statistics-explained/index.php/Glossary:In-sample_vs._out-of-sample_forecasts

    我相信在完全独立的数据集上进行样本外测试可以被原始研究人员视为验证的黄金标准。 更好的是让一个单独的小组用更多的数据集来做这件事。 希望这也会发生。

    关于你的基因点,我同意这令人失望。 作者并没有深入研究生物学。 我在另一个线程中链接的 2014 年高度 GWAS: http://neurogenetics.qimrberghofer.edu.au/papers/Wood2014NatGenet.pdf
    恕我直言,对于一些可能的分析来说,它是一个很好的模型。 希望一些核心系统生物学家加入现有的合作。 最近这篇论文的一个显着特点是与许多当前的 GWAS 论文相比,作者很少。

    • 回复: @James Thompson
    , @hyperbola
  6. @res

    感谢您的有益评论。 是的,我正在简化并跳过其他证明样本,因为每个人都可以阅读这篇论文,当然你已经这样做了! 我使用了“发现样本”与“证明样本”之间的区别,但其他人将后者称为“测试样本”,有时会被误解。 也许“验证样本”会更好。 任何,这是另一种“一价两”的纸。
    是的,测试完全不同的样本比为此目的而保留的子集更严格,但如果在另一个样本中进行不同的测量,则可能是一种不公平的测量。
    作者没有提到任何生物学。 我认为他们的观点是他们可以通过 CS 得到一个很好的预测方程,如果他们愿意,其他人可以查看生物学。 正如你所指出的,他们不是众多生物学家,而是一小群倾向于物理学的人。 除了他们都是数学家,还有什么比这更好的呢? 尽管如此,我会看看他们是否愿意发表评论。

  7. lauris71 说:

    在我看来,在这种情况下,关于 SNP 的讨论有点误导。
    20 000 个 SNP 与欧洲人群中的单倍体数量处于同一数量级。 因此,他们或多或少地将种群的总遗传变异性捕获到模型中,并用它来预测表型。 这是一种有趣且肯定有用的方法,例如预测疾病风险。 但是从这样的模型转向生物学解释——即找到应该被操纵以治愈某些症状的基因,还有很长的路要走。

    • 回复: @res
  8. res 说:
    @lauris71

    我们对这 20k 个 SNP 代表多少个单倍体有任何了解吗? 你有欧洲人口中单倍体数量的参考吗? 有没有人尝试制作基于单倍体的身高预测器?

    我只是在寻找对单倍块的引用,而我看到的大部分内容都已经有十年或更久了。 鉴于我们现在对跨种群的遗传结构了解得更多,我不确定对旧参考文献的重视程度。

    我不知道如何评估的一件事是 CS 获得实际因果 SNP 的可能性有多大。 在传统的 GWAS 中,往往有多个附近(在 LD 不平衡中)高显着性 SNP。 我认为 CS 对稀疏性的压力只会帮助选择这些 SNP 中的一个,但它是因果关系还是(如您所讨论的)仅代表单倍型?

    我对学习和使用 L1 正则化所花费的时间的回忆是,在不同的惩罚级别上,强制稀疏存在一些问题,尤其是相关变量。 我不知道这是否与 CS 完整解决方案有关。

    但在这个有趣的讨论中,一些看似知情的人认为这没什么大不了的: https://stats.stackexchange.com/questions/30486/when-does-lasso-select-correlated-predictors

    PS 图 5 的标题确实为您所说的提供了一些支持:“激活的 SNP 大致均匀地分布在整个基因组中。”

    PPS 一开始我没有注意到的一件事是结论的最后:

    对于病例对照数据,我们发现 n ∼ 100s(其中 n 表示具有相同数量对照的病例数)就足够了。 因此,使用我们的方法,对大约 100 万个病例和相似数量的对照进行分析可能会很好地预测高度遗传的疾病风险,即使遗传结构很复杂并且取决于一千个或更多的遗传变异。

    我想知道他们是否还在考虑那些高智商的病例对照研究? 或者这更多地与疾病有关?

    我觉得奇怪的是,病例对照数据的必要样本量是广泛人群数据(n ∼ 3s)的 30 倍左右。 正如最近的智商元研究所建议的那样,我本来希望病例对照方法更强大。 也许相对较低的功效与着眼根本不同的问题有关(例如,低流行病而不是数量性状)?

  9. hyperbola 说:
    @res

    “样本外”测试并不是什么新鲜事。 从某种意义上说,不同研究小组在不同数据集上对同一疾病执行“gwas”的每个“平行”案例都是“样本外”测试。 正如您所指出的,您喜欢吹捧的“样本外”测试可能被视为通常的科学要求,即结果可以由其他人通过独立数据收集复制。

    GWAS 风格的方法在“罕见”疾病方面取得了惊人的成功,因为“必要和充分”标准只涉及非常有限的基因数量。 我认为现在越来越清楚的是,有许多“复杂”的特征/疾病,简单地测量更大的队列规模不会让我们走得更远。 正如您所建议的,“系​​统生物学”在实现生物状态时基因“共同作用”的意义可能是必须去的地方。 但是,我认为我们需要其他类型的测量(粗略地描述为大量基因/蛋白质的高度平行的传统生物学),而不是更多的当前类型的 GWAS。 正如 GWAS 技术的开发是必要的,现在我们需要专注于开发测量其他事物的新技术。

    • 回复: @res
  10. hyperbola 说:
    @dearieme

    哦,我赞成更多的研究,甚至是针对“罕见”疾病的更多 GWAS 类型的研究。 但是,我不希望更多的 GWAS 对许多医疗情况(或 IQ 等复杂特征)产生很大的影响。 幸运的是,它现在足够便宜,我们不需要大量资源来进行 GWAS 测量(接触患者可能是主要瓶颈?),并且可以越来越多地将资源用于其他研究方法。 我想我对 res 的回复会让你明白我的意思:

    GWAS 风格的方法在“罕见”疾病方面取得了惊人的成功,因为“必要和充分”标准只涉及非常有限的基因数量。 我认为现在越来越清楚的是,有许多“复杂”的特征/疾病,简单地测量更大的队列规模不会让我们走得更远。 正如您所建议的,“系​​统生物学”在实现生物状态时基因“共同作用”的意义可能是必须去的地方。 但是,我认为我们需要其他类型的测量(粗略地描述为大量基因/蛋白质的高度平行的传统生物学),而不是更多的当前类型的 GWAS。 正如 GWAS 技术的开发是必要的,现在我们需要专注于开发测量其他事物的新技术。

    • 回复: @dearieme
  11. res 说:
    @hyperbola

    “样本外”测试并不是什么新鲜事。

    当然。 但我确实认为这是验证的黄金标准。 实施它可能很困难(参见论文中描述的协调数据集所涉及的扭曲),因此我认为即使发布结果也是作者对验证结果的认真程度的一个很好的指标。 看到良好的样本外结果甚至更好。

    我认为我们需要其他类型的测量(粗略地描述为大量基因/蛋白质的高度平行的传统生物学),而不是更多的当前类型的 GWAS。

    我不认为这两种方法是排他性的。 我同意将新的遗传结果整合到系统生物学层次结构中(从酶反应的速率常数到细胞到组织再到生物体)很重要,并且随着时间的推移应该证明是有价值的。

  12. Factorize 说:

    res,我认为 infoproc 站点在调用疾病 1 位传感方面非常具有描述性。
    正如您所提到的,身高等数量特征提供了每个人的可用信息
    样本中的人申请 Beta 版。 疾病的问题在于,通常你
    有这种病,或者你没有。 在疾病出现之前需要跨越一些风险阈值。

    我不完全确定上述想法是否一定适用于阿尔茨海默氏症的典型方式。 到 90 岁时,每个人都患有阿尔茨海默病。 因此,对于 AD,是否患有痴呆症并不是最重要的,而是在出现这种损害时。 这可能使 AD 更类似于数量性状,例如身高,而不是疾病。

    • 回复: @res
  13. res 说:
    @Factorize

    这可能使 AD 更类似于数量性状,例如身高,而不是疾病。

    我认为有许多疾病/病症具有这种相似性。 参见责任,阈值模型: http://www.wikilectures.eu/index.php/Genetic_Liability,_Threshold_Model.

    问题是在很大程度上,诊断是二元的,尽管存在对状态进行定量测量的例外情况。 正如您所注意到的,发病年龄通常可能有用。

    PS这里真的没有说太多新东西。 更多的表达同意。

  14. Factorize 说:

    res,可以使用 MMSE 评分来量化痴呆症。
    MMSE GWAS?

    将疾病转化为可量化的特征可能会极大地增强 CS L1 Lasso 的威力:您可以将 n 从 100 秒移回 30 秒,同时还可以从非零 SNP 较少的疾病中受益。 infoproc 建议疾病有 1000 个 SNP,而特征可能有 10,000-40,000 个 SNP。

    我相信数据处理社区中的许多人一定对阻碍完成工作的所有数据共享障碍感到非常沮丧。

    如果他们开放对这些数据服务器的访问,将会引发一场真正的大规模分析狂潮。 我们需要等多久才能获得 GCHD 的身高? 天? 几个月? 年?

    这项研究对于任何应对遗传性疾病或担心智商或收入不平等的人都至关重要……每个人。 故意阻碍这项研究是非常不道德的。

    如果没有障碍,这可以在不到一天的时间内完成。 他们为什么不简单地开放对运行分析的访问,同时保持数据安全? 他们可以把它变成一个只返回处理过的结果的黑盒子。 这可以在开放共享的基础上完成。

    科学文献可以从散文变成大规模的数据下降,然后可以反馈到服务器进行进一步分析。

    我们离实现真正的开放科学还很远。 如果数据官僚们真的允许科学家不受阻碍地完成他们的工作,那么将会有巨大的飞跃。

    • 回复: @James Thompson
  15. @Factorize

    那些将智力遗传学的合作项目放在一起的人发现它们非常耗时,他们告诉我,达成一致参与需要 3 年的工作并不少见。

    • 回复: @res
  16. res 说:
    @James Thompson

    这太有趣了。 他们是否就哪些部分花费的时间最多提出了任何想法? 是否主要符合 HIPAA(或等效的非美国要求)?

    PS Re:MMSE,我在那里没有任何真正的知识,但听起来似乎有道理。

    • 回复: @James Thompson
  17. Factorize 说:

    汤普森博士,我在考虑更多当有一个准备好进行分析的大规模基因数据库时会发生什么,比如 UKB。 线性套索 CS 的理论于 4 年前发表。 UKB 于 XNUMX 月上传了结果,而我们在 XNUMX 月已经有了第一轮结果。

    我将特别感兴趣的是将当前输出回收到 UKB 需要多长时间。 例如,非线性分析,然后可能是额外的迭代。 理论工作已经完成,数据反馈的连续步骤需要多长时间? 所需要的只是让超级计算机处理数字。 计算时间
    可能是最小的。 官僚主义障碍可能更令人生畏。

    如果 UKB 数据库允许更开放的访问方法来分析数据,那么结果
    几乎可以立即发生。 数据本身可以保留在防火墙后面。

    res,你有没有注意到 gigascience 的文章几乎完全忽略了关于复合异质性的讨论? 最近的 GCDH 文章有 CH 的交集项。 最大的
    相互作用几乎比最大的 SNP 最大。 千兆文章几乎只关注上位性。

    我一直担心非线性项会发生计算爆炸,尽管这似乎并不适用。 如果您在第一轮中提取所有线性 SNP,那么非线性相互作用,尤其是 CH 的非线性相互作用可能非常温和。 {CH 相互作用只发生在给定的基因内。 因此,这种交互可能非常稀缺。}

    令我感到困惑的是,由于从步骤 2 得出的信息,第 1 阶段的相界可能会发生怎样的变化。
    在步骤 1 中,即去除相图中的所有红色区域,那么步骤 2 中的相边界会是什么样子? 那么你会有更严格的界限吗?

  18. @hyperbola

    我觉得这种批评令人困惑。

    看,如果我们能够以至少一定程度的准确度预测疾病,那么这本身通常在医学上是有用的。 假设我们可以根据某人的基因可靠地预测某人患结肠癌或前列腺癌的倾向——否则这些预测是不可能的。 然后我们可以仔细监测此类病例,并仅对此类病例进行诊断程序,而排除那些极低易感性的病例。 很多疾病完全有可能归入这个范畴,包括多种形式的癌症。

    当然,从科学的角度来看,确定一个性状是遗传的,以及在多大程度上是遗传的通常是非常重要的,尤其是当其他方法(如双胞胎研究)在方法论上,或至少被认为是,有问题。

    • 回复: @James Thompson
    , @hyperbola
  19. @candid_observer

    我同意。 更有针对性的筛查将是一个很大的优势,同时也可以更好地了解使用或开发哪些药物。

    • 回复: @res
    , @hyperbola
  20. @res

    细节我没有问,这个话题很微妙,因为进一步的合作取决于进一步的合作。

    • 回复: @res
  21. res 说:
    @James Thompson

    明白了。 我尊重您的判断和判断力。

  22. res 说:
    @James Thompson

    更有针对性的筛查在许多方面可能是一个优势:
    – 筛选成本控制。 这可能不是二元的(比如每 2 年筛查一次高风险,每 5 年筛查一次低风险)。
    – 由于确定的人群中更高的疾病基础率,潜在的更好的筛查效果。 我认为这可能是一件大事,但对数字一无所知。
    – 如果假阳性相对于真阳性(以前)减少,则净治疗结果可能会改善。 还将改进治疗的成本控制。
    还有更多想法吗?

    还相关:
    – 面临风险的个人可能更有动力采取先发制人的措施,例如改变饮食习惯。

    当您注意到建立联系的潜在能力时,例如疾病遗传学 -> 相关组织或代谢途径 -> 更有针对性的药物
    可能很有价值。

    这对于像精神分裂症这样的疾病特别有用,我认为它被认为有许多可能的致病因素,并且是“一组具有相似症状的综合征”。 我认为更有针对性的药物很有可能在那里得到很大的改善。 我很想听听精神分裂症专家对此的看法。

    • 回复: @James Thompson
  23. @res

    我认为主要的好处是克服基本率误报。 它们会引起焦虑和不必要的痛苦调查。 Gerd Gigerenzer “Reckoning with risk”是关于这个主题的一本很好的读物。

    • 同意: res
    • 回复: @candid_observer
    , @dearieme
  24. @James Thompson

    这超出了痛苦的调查。 许多激进的程序取决于对潜在侵袭性癌症的估计。

    前列腺癌就是一个很好的例子。 有证据表明,例如 65 岁以上的男性患有前列腺癌的比例非常高——可能超过 50%。 这很可能会出现在活检中。 但在绝大多数情况下,这种癌症不会具有侵略性,并且可能会在几十年内保持在较低的、相对被动的水平。

    问题是,如果您在活组织检查中发现癌症,您会切除前列腺吗? 有复杂且有争议的协议用于做出此决定。 任何可以增加癌症是否会变得侵袭性的可靠预测的东西都将是一个巨大的福音,一方面可以挽救生命,另一方面是不必要的激进手术。 显然,来自遗传学的更多好的信息可以在这方面发挥很大的作用。

    当然,类似的观点也适用于乳腺癌。 其他癌症和其他疾病的治疗同样会从这种洞察力中受益。

    • 回复: @res
  25. Factorize 说:

    res,对我来说迫在眉睫的是当前研究对最近出生或即将出生的人的影响。 将在环境中做出哪些改变来帮助他们成为更具适应性的公民?

    例如,我们现在可能离智商、EA 和其他行为特征的遗传预测因素不远了。 即使在很小的时候,我们也会很快开始基于遗传的流媒体程序吗?

    对于精神分裂症,如果能够将认知障碍与其他症状分开,会发生什么? 那么,这种疾病是否会转变(如您所指出的书名所暗示的那样)成为一种新的存在方式,而不会像今天发生的那样使人衰弱的后果?

  26. res 说:
    @candid_observer

    同意,说得好。 前列腺癌是我在这方面的一个例子(这实际上是我在写我之前的评论时所考虑的,注意筛查间隔——对于 PSA ;)因为你提到的原因以及筛查目前在美国存在争议——主要是因为你描述的原因。 也因为在这个领域有重要的文献,而且因为争论似乎相对平衡,我认为已经为开发良好的定量证据和论点做出了不错的努力。

    更好定义的筛选层次结构s 前列腺癌的治疗将是医学的宝贵补充。 特别是如果它可以通过遗传知识获得信息。

    我认为值得扩展您的(我认为是隐含的)观点,即值得将前列腺癌毒力的遗传学与前列腺癌发病率的遗传学分开来研究。

    PS re:筛选间隔: https://www.ncbi.nlm.nih.gov/pubmed/21948815

  27. res 说:

    biorxiv 上这篇论文的最新版本: https://www.biorxiv.org/content/early/2017/09/19/190124
    有一份引用该论文的博客文章列表(包括这篇)。

    我仍在经历那件事,但我推荐的一件事是查看 Rick Hyatt 的评论: http://marginalrevolution.com/marginalrevolution/2017/09/accurate-genomic-prediction-human-height.html

    其中一个评论引用了这篇论文: https://www.biorxiv.org/content/early/2017/07/07/160291.1
    它着眼于智力并使用一种名为 MTAG(全基因组关联的多特征分析)的相对较新的技术。 我想知道这是否会被证明是普遍有用的。

    Razib 有一个简短的帖子: https://gnxp.nofe.me/2017/09/18/release-the-uk-biobank-the-prediction-of-height-edition/
    但它比内容包含更多的热情(我是在投射吗?;)

  28. hyperbola 说:
    @candid_observer

    区别又是“罕见”与“复杂”疾病的难题。 当“必要且充分”的基因很少时,寻找疗法(甚至是出生前的基因改造)是合理的。 当成百上千的基因导致某种疾病时,如果基因识别的统计数据正确,那么可以用成百上千种不同的基因组合来构建这种疾病的单一度量,例如“患病倾向”。 那么您想要监测什么作为疾病发生/进展的指标(可遗传基因没有改变)? 如果您有一个可靠的疾病指标,但这涉及数百个基因(即每个基因的两个变体的 2 的 100 次方),那么针对特定基因集的某种治疗的可能性有多大?已经知道特定患者的身份? 需要什么样的患者样本量来测试/验证针对不同患者的此类疗法,以及如何获得这些疗法?

    现在似乎越来越多地从复杂疾病的 GWAS 中揭示出纯粹的顽固性,这表明只有“罕见”疾病才能真正得到当前的 GWAS 方法的帮助。

    • 回复: @candid_observer
  29. hyperbola 说:
    @James Thompson

    我不同意。 你建议筛选什么? 请参阅我在 #28 处对 candid_observer 的回答。

  30. dearieme 说:
    @James Thompson

    'Gerd Gigerenzer'Reckoning with risk' 是关于这个主题的好读物。

    这是关于许多主题的大量阅读。 无论我在哪个十年购买它,这都是我的十年之书。

    • 回复: @res
  31. @hyperbola

    你似乎连我的意思都没有理解。

    对于许多重大疾病,一个关键的医学问题是,有多少人必须进行手术以防止出现另外一种不良后果?

    https://en.wikipedia.org/wiki/Number_needed_to_treat

    例如,关于前列腺癌,这个问题出现在以下上下文中(除其他外):有多少人发现前列腺癌具有给定的 Gleason 评分,应该切除他们的前列腺? 当然,“安全”的事情是在所有这些发现中都将它们切除——但切除前列腺对男人来说是一个重要的步骤,不能掉以轻心。 而且,由于格里森评分较低,侵袭性癌症的概率相对较低——在许多情况下可能是较低的个位数——在大约 95% 以上的情况下,去除所有这些前列腺将是不必要的。

    这就是当今前列腺癌治疗的现实。

    什么会使一切不同? 更准确地估计具有给定 Gleason 评分结果的个体实际上发展为侵袭性癌症的可能性。

    这正是我们在本文中看到的那种遗传预测可能能够为我们提供的信息。

    同样的问题出现在乳腺癌和许多其他类型的疾病中。 预测是游戏的一半以上。

    并且期望提供有关所涉及途径的信息的疾病的遗传解释实际上会直接转化为治疗也是相当幼稚的。 从一个到另一个有一个巨大的飞跃。 我们已经知道某些基因对乳腺癌有显着影响。 我们有治愈方法吗?

    只是不能以任何方式确定我们需要更多的遗传信息来治疗癌症。 治愈方法,如果有的话,很可能来自非常不同的来源。

    • 回复: @hyperbola
    , @hyperbola
  32. res 说:
    @dearieme

    如果我已经阅读了 Gigerenzer 的“计算的风险:如何知道数字何时欺骗了你”和“直觉”,你认为阅读“考虑风险”有多大用处? 我觉得“计算的风险”与“计算风险”有相当的重叠。

    我认为您(亲爱的)早先的推荐可能是促使我阅读其中一个或两个的部分原因。 谢谢!

    • 回复: @James Thompson
    , @dearieme
  33. @res

    我接触到的他的第一本书是“让我们变得聪明的启发式方法”。 是的,有重叠,但“考虑风险”是一个很好的合集。 我有 7 个关于他的帖子,但这是我的表扬:

    “很少有人说心理学家写的所有东西都值得一读。 Gigerenzer 就是这样一位心理学家。 他用简单的英语(大概是他的第二语言)写作,对材料的理解如此透彻,以至于他可以简单地解释它,这是一位聪明而诚实的老师的标志。 这种直截了当的方法意味着您可以遵循这种启发式方法来使您变得聪明:如果您第一次无法理解他,那么值得多读几遍直到您理解为止。 对于较弱的作家,如果您第一次无法理解他们,请转向别处。”

  34. hyperbola 说:
    @candid_observer

    我真的没有看到我们每个人所说的话之间有任何矛盾。 你带来了额外的预后问题——这对治疗来说当然是至关重要的。 我只想说,罕见与复杂的区别在这里可能也是有效的,并且在复杂疾病(许多贡献基因)的情况下,预后也将保持高度模棱两可,并且很难纯粹从基因模式中明确定义。 对于这个说法,

    并且期望提供有关所涉及途径的信息的疾病的遗传解释实际上会直接转化为治疗也是相当幼稚的。 从一个到另一个有一个巨大的飞跃。 我们已经知道某些基因对乳腺癌有显着影响。 我们有治愈方法吗?

    我的论点是,对于复杂的疾病,只有当我们了解功能网络时,治疗和预后才会有很大进展。 换一种稍微不同的方式,也许我们应该将癌症等疾病视为一种慢性、半稳定状态,处于一种不会以“正常”方式对其环境做出反应的反应环境中(与温斯坦的一些建议)。 然后,我们需要了解这些状态以及这些状态之间的转换(可能有许多途径)以取得医学进步。 鉴于个体的不同遗传背景,这些状态/途径可能会显示出一些变化,但据推测,疾病表型反映了系统生物学水平上的一些共同潜在特征。

    当你这样说时,我们可能有一些共同点:

    只是不能以任何方式确定我们需要更多的遗传信息来治疗癌症。 治愈方法,如果有的话,很可能来自非常不同的来源。

  35. hyperbola 说:
    @candid_observer

    发布脚本。

    这些相同类型的考虑中的一些也可能适用于传染病。 这是我觉得有趣的事情。

    Annu Rev Genomics Hum Genet。 2013;14:215-43。 doi:10.1146/annurev-genom-091212-153448。 电子版 2013 年 29 月 XNUMX 日。
    传染病的遗传理论:简史和精选插图。

    卡萨诺瓦 JL1,阿贝尔 L.

  36. Factorize 说:

    请注意使用以下方法得出的身高结果的差异(请参阅补充第 10 页等)。这项研究发现的 SNP 少得多(2000 对 22,000)。

    https://www.biorxiv.org/content/biorxiv/early/2017/09/27/194944.full.pdf

  37. Factorize 说:

    有没有人知道可以选择单个染色体以包含在卵子/精子/早期胚胎中的技术?

    仅仅从 10 个胚胎中选择最高 IQ PGS 就可以将 IQ 提高 1 个标准差。 使用相同的技术进行更严格的选择,或许可以将智力提高几个 SD。

    如果可以独立选择具有最有利特征的染色体(选择因子高达 1~10 中的 23),那么使用非常低端的技术可能会导致非常极端的变化。

    评论?

    • 回复: @RaceRealist88
  38. dearieme 说:
    @res

    对不起,我无能为力,res; 我没有他的其他书。 也许是时候将它们添加到我的圣诞节清单中了。

当前评论者
说:

发表评论 -


 记得 我的信息为什么?
 电子邮件回复我的评论
$
提交的评论已被许可给 Unz评论 并可以由后者自行决定在其他地方重新发布
在翻译模式下禁用评论
通过RSS订阅此评论主题 通过RSS订阅所有James Thompson的评论