Unz评论•另类媒体选择$
美国主流媒体大都排除了有趣,重要和有争议的观点
 博客浏览詹姆斯·汤普森档案馆
许边界
通过电子邮件将此页面发送给其他人

 记住我的信息



=>

书签 全部切换总目录添加到图书馆从图书馆中删除 • B
显示评论下一个新评论下一个新回复了解更多
回复同意/不同意/等等 更多... This Commenter This Thread Hide Thread Display All Comments
同意不同意谢谢LOL轮唱
这些按钮可将您的公开协议,异议,感谢,LOL或巨魔与所选注释一起注册。 仅对最近使用“记住我的信息”复选框保存姓名和电子邮件的频繁评论者可用,并且在任何八个小时的时间内也只能使用三次。
忽略评论者 关注评论者
搜寻文字 区分大小写  确切的词  包括评论
列表 书签

压缩感测

在我的上一篇文章“更多的智力基因”中,我提到了神秘的徐界,我鼓励你尽可能多地使用这个词。 为什么其他研究人员要垄断行话? 这句话应该可以帮助你给朋友留下深刻印象,也可以减少与对抽样理论了解有限的人的乏味对话,他们自己就是最大的样本。

“Hsu 边界”是 Steve Hsu 的估计,可能需要大约 1 万人的样本量才能可靠地识别智力的遗传信号。 但是,这必须是 1 万真实的人,具有可以应用最佳可用技术的个人数据点,而不是随后进行荟萃分析的汇总样本。

原因是遗传密码是一个很长的信息。 即使根据商定的原则进行总结,它也可以产生多重比较,并且是误报的丰富土壤。 作为对此的反应,显着性水平相应地提高到要求水平,但这可能会排除一些真实的信号。 史蒂夫计算,至少需要 1 万个样本来解决这个问题。 一旦收集完毕,就可以将线性回归之外的更先进的方法应用于数据。

由国际合作项目汇总的汇总样本不能总是将分析水平降低到单个患者。 他们正在进行荟萃分析,将来自许多来源的数据汇总在一起。 它们共享汇总统计数据,即来自线性回归的统计证据,支持特定 SNP 与表型的关联。 这样做的好处是更容易汇集数据,但它不是构建预测器的最有效方法。 Hsu 不相信他们会跨越大约 1 万个样本的汇总统计数据中的任何特殊阈值。 然而,随着功率的增加,它们将获得越来越好的结果。 他们将找到具有更严格置信限的模式,因此他们将识别出更强的信号。

更广泛地说,它可能在某处可用,但我们需要一个可访问的中央登记册,其中包含所有研究中使用的样本,特别是对于那些随后将它们汇总以进行更大样本荟萃分析的研究。 这将使我们能够理解不同荟萃分析之间的重叠。

我们之前讨论过的一个复杂性是,国际汇总的智力样本可能会通过不同的测试进行测量。 这一次,通用智力理论在这里为我们提供了帮助,因为可以从广泛的测试程序中提取可比较的 g,将所有受试者置于相同的 g 尺度上。 另一个复杂性是,对于许多样本,没有心理测试分数可用,但更常见的是学业测试。 学业成绩很重要,但它与智力并不完全相关。
在一项重大研究中,Ian Deary 及其同事发现 8 岁时的认知能力与 11 岁时的国家考试之间存在 16 的相关性。

智力和教育成就。 /亲爱的,伊恩·J。 斯特兰德,史蒂夫; 史密斯,宝琳; 费尔南德斯,克雷斯。 情报,卷。 35 年第 1 期,第 2007 期,第 13 页。 21-XNUMX。

非常好,但可能达到最高水平,而且国际学术水平会有很大差异,因此不同国家学校系统的科目聚合有点容易出错。 一个更不强大的智力衡量标准是“受教育年限”。 这受到许多人为因素的影响,通常当额外的岁月只对更聪明的学生开放时,这是一个合理的措施,但当国家通过要求他们在学校呆更长时间来寻求提高所有学生的能力时,情况就不那么好了。

回到遗传数据的分析。 如果您将所有个人数据集中在一个地方,并且拥有可靠且有效的心智能力测量方法,您可以使用更复杂的机器学习技术,其中 Hsu 预测的阈值约为百万左右的基因组(可能是 2 万;不是精确的)。 汇总统计 + 线性回归的优势在于它可以通过荟萃分析应用而无需共享样本——您可以在不改变原始道德要求的情况下汇集大量数据,因为不共享个人数据。

这些更复杂的机器学习技术是什么? Compressed Sensing 是领先者,它是一种信号处理范式,它具有一种算法,可以捕获所有对智能有一定影响的位置,只要它们相对于样本大小没有太多。 Hsu 预测边界的更高级技术称为压缩感知:

http://infoproc.blogspot.com/search?q=compressed+sensing ...

在大约 5 的合理遗传力水平和真正命中所需的高概率阈值下,则:

对于遗传力 h2 = 0.5 和 p ~ 1E06 SNP,C log p 的值约为 30。例如,由 s = 10k 基因座控制的性状需要 n ~ 300k 个体的样本量来确定(线性)遗传结构。

我们使用 CS 方法和理论表明,可以使用有效的算法识别(选择)所有非零效应的基因座,前提是它们的数量(稀疏)相对于样本量足够少。 对于遗传力 h2 = 1,随着样本量的增加,有一个急剧的相变以完成选择。 对于小于 2 的遗传力值,尽管过渡是平滑的,但仍然可以发生完全选择。 过渡边界仅微弱地依赖于基因分型标记的总数。 跨越过渡边界提供了一种客观的方法来确定何时恢复真实效果。 对于 h0.5 = XNUMX,我们发现 XNUMX 倍于非零位点数量的样本量足以实现良好的回收率。

因此,这种方法确定了一个真正的边界。 只要重要信号很少(通常是这种情况),那么百万个人的三分之一就足够了。

最后,我们似乎来到了真正的 HSU 边界,即信号选择变得更容易的相变。 就像从对流层移动到平流层一样吗? 也许它更像是在一个非常精确的阈值(例如,100 摄氏度)处显示的熟悉的自然相变或相界,其中原子和分子的基本组织可以发生巨大变化(例如,H2O 从液体变为蒸气)。

类似地,涉及一百万个变量的优化算法的行为可能会随着可用数据量的增加而突然改变。 我们在将压缩感知应用于基因组的情况下看到了这种行为,它使我们能够预测在大约 XNUMX 万人的样本量下,会发生一些有趣的事情,比如认知能力等复杂特征。

机器学习现在提供了新的数据分析方法,这最终可能会简化对支撑智能基因的搜索。

 
• 类别: 科学 •标签: 智商基因组学, IQ 
隐藏156条评论发表评论
忽略评论者...跟随Endorsed Only
修剪评论?
    []
  1. res 说:

    谢谢! Deary 等人的 PDF 文件。 2007 年可在 Steve Strand(第二作者)的 ResearchGate 帐户获得: https://www.researchgate.net/publication/222403422_Intelligence_and_Educational_Achievement

  2. EH 说:

    我的梦想是进行一项非常大的研究(300k – 3M 受试者),收集所有可能的数据——全基因组、身体扫描(相控阵浸没式超声可以很好地工作)处理以允许比较器官形态、3-D 动作捕捉以记录身体运动特征、头部 fMRI、综合血液检查(不一定要进行许多不同的测试,可能是 HPLC 或 GC 和质谱或只是多孔荧光抗体测试),在不同日期交付两次的完整智能电池(如 WAIS 或 SB),选择反应时间和类似的比率量表心理测量学、性格测试、其他经过验证的心理测试、标准化格式的生活史、家族史、最近的家谱……可以在两个完整的非连续测试日内完成的所有事情,成本约为 2 美元至 3 美元在大约三到五年的时间里,每门科目 300k – 3 万个科目,总共 ~\$2 – \$6B。 使用专用设备和设施进行大批量测试,每个受试者花费最少的专业时间,每个受试者可能相对便宜。

    理想情况下,这些信息根本不会对研究人员匿名,从而允许比较亲属和纵向研究(一旦建立,与信息的价值相比,测试实验室继续运行会相对便宜)。 样本应包括所有年龄段,并富含高智力和其他高适应度的受试者,以及那些在任何方面都有显着差异的受试者,以便获得尽可能多的关于基因影响的信息。

    如果没有关于表型的丰富数据,关于基因影响的推论几乎没有什么可做的,而且需要更长的时间才能得出更不可靠的结论。

  3. Hsu 的估计没有考虑各种现实生活中的问题,例如测量误差。 因此,实际数字可能会更高一些。 也许1.5万。

    很难获得高质量的 IQ 测量结果,但即将推出的一项选择是百万退伍军人项目。 这可以访问 AFQT 分数,这是一项非常优质的智商测试。 UK Biobank 的数据非常糟糕,考虑到 500k 的样本量,这是一个很大的耻辱! https://www.research.va.gov/mvp/

    还有一个 100k 丹麦样本,还有军事智商数据。 http://ipsych.au.dk/

    还有瑞典双胞胎登记处,我认为它正在对所有双胞胎及其家人进行基因分型。 可能还有 30k https://snd.gu.se/en/catalogue/study/ext0163

    所以,我们很快就会进入这个阶段。 主要的复杂性实际上是允许汇集数据,而不是使用这些元分析方法。 所以,再一次,法律问题阻碍了科学……

    http://slatestarcodex.com/2017/08/31/highlights-from-the-comments-on-my-irb-nightmare/

    PS。 对于那些不知道的人来说,压缩传感只是 LASSO 的一个花哨的名字,又名。 l1 惩罚回归。 它实际上只是普通的线性回归,具有将预测变量设置为 0 的内置偏差。人们也可以用贝叶斯术语来考虑它,其中 beta 的先验分布在 0 处有一个非常大的峰值,因此大多数 beta 将被分配这个值. 这是稀疏假设。

    • 回复: @res
  4. res 说:
    @Emil O. W. Kirkegaard

    感谢您提供的所有信息,埃米尔! 百万退伍军人计划(挑剔,而不是项目)对我来说是新的,看起来是智商研究的绝佳机会。

    对于任何想要了解有关 Lasso 的更多信息的人,本课程的第 6 章和相关书籍提供了很好的介绍: https://www.r-bloggers.com/in-depth-introduction-to-machine-learning-in-15-hours-of-expert-videos/

    我发现套索的图形解释有助于直觉。 图片来自 https://onlinecourses.science.psu.edu/stat857/book/export/html/137
    该图显示了如何强制执行稀疏性(最小的非零系数值)。

    对最近使用汇总统计执行 L1 惩罚回归的工作有何想法? http://infoproc.blogspot.com/2017/04/penalized-regression-from-summary.html

    关于 Hsu 的 1M 估计,这不是已经从他的 30 多岁(其中 s = 10k 变体)估计中降低了吗?

    • 回复: @James Thompson
  5. “Hsu 边界”是 Steve Hsu 的估计,可能需要大约 1 万人的样本量才能可靠地识别智力的遗传信号。

    但是东南亚的少数中国人和世界各地的少数犹太人已经证明,你不需要那么多人来识别群体情报。

  6. Sean 说:

    回到遗传数据的分析。 如果您将所有个人数据集中在一个地方,并且拥有可靠且有效的心智能力测量方法,您可以使用更复杂的机器学习技术,其中 Hsu 预测的阈值约为百万左右的基因组(可能是 2 万;不是精确的)。 汇总统计 + 线性回归的优势在于它可以通过荟萃分析应用而无需共享样本——您可以在不改变原始道德要求的情况下汇集大量数据,因为不共享个人数据。

    呃,存在风险的伦理要求可能比隐私问题更重要。 我不明白知道哪些基因在人类方面优于智商如何证明使用机器学习是合理的,从而开始向真正的人工智能发展。 在数字而非生物时间尺度上,它将在大约两周内从农村白痴水平加速到远远超过人类最高智商的水平。 并不是说识别出那些智商基因就可以让我们变得更聪明,当然也不会让我们掌握自己的命运。

    https://www.newyorker.com/magazine/2015/11/23/doomsday-invention-artificial-intelligence-nick-bostrom

    “你从数十亿个潜在的生命萌芽点开始,你最终会得到零个外星文明,这些文明在技术上发展到它们对我们地球上的观察者显现的程度。 那么是什么阻止了他们?”

    有一篇文章(我认为是在《新科学家》中)关于扑克中的机器学习,其中提到,虽然机器人学习了经过验证且熟悉的策略并且做得很好,但它们也通过人类永远不会使用的策略取得了领先。 在关于 Bostrom 的文章中,它提出了一个有趣的观点

    1981 年的一个名为 Eurisko 的程序旨在自学海军角色扮演游戏。 在玩了一万场比赛之后,它得出了一个道德上的怪诞策略:部署数千艘无法移动的小型船只,其中绝大多数是作为炮灰的。 在全国锦标赛中,Eurisko 击败了坚持改变比赛规则的人类对手。 第二年,Eurisko 再次获胜——迫使受损的船只自行沉没。

    该程序绝不是超级智能。 但博斯特罗姆的书本质上是在问:如果是这样呢? 假设它具有广泛的考虑问题的能力并且可以访问互联网。 它可以在线阅读和获取一般知识并与人们无缝交流。 它可以通过虚拟方式或通过修补网络基础设施来进行实验。 博斯特罗姆认为,即使是最良性的目标——赢得一场比赛——这样的系统也可能会发展出“工具性目标”:收集资源,或发明技术,或采取措施确保它不会被关闭,在此过程中支付就像人类对待蚂蚁一样关注人类的生命。

    好的,回到主题[当前]“

    “人工智能在许多领域已经超越了人类智能。” 示例范围从国际象棋到拼字游戏

    有趣的是,当前的计算机程序超越了人类这一领域,Chisala 认为这是对人类脑力的测试。

    • 回复: @the cruncher
  7. 为什么其他研究人员要垄断行话?

    行话源于共识。 我很少在 GWAS 文献中看到对 Hsu 的任何提及。 所以,就目前而言,许的边界和我妈妈的价值差不多。

  8. @res

    感谢您提供额外的链接。 我知道对于聚合样本的优缺点众说纷纭。 主要优点是,一旦放在一起,它们就比目前可用的单个数据点样本大,并具有为分析带来的所有好处。 然而,包含基因组相关结构的方法,如多元回归或套索,并不直接应用于汇总统计。
    至于“受教育年限”,我意识到这有点像战场,不同的论文会产生不同的效果。 该测量的遗传性低于智商,其与智商的遗传相关性仅为0.70左右。 然而,它是一种非常实用的测量方法,它再次增加了样本量,这有助于检测可能的信号。
    我假设这些更新的分析技术的成功衡量标准是可靠检测到的 SNP 的数量。

    • 回复: @res
  9. res 说:
    @James Thompson

    出于发现的目的,对我来说,使用大型 EA 样本(尤其是如果压缩感知允许“完整解决方案”!)来检测一长串 SNP,然后将它们用作较小的 IQ 研究(完全独立的数据集)的候选者,这似乎是合理的它仅根据从 EA 结果得出的候选 SNP 的数量应用多重假设校正,并且仅查看这些 SNP。

    您是否同意 EA 是同质(例如,按照最近的元研究中使用的标准)人群中智商的合理代表的说法? 我觉得这比跨文化和跨种族的版本要好得多。

    有没有人将压缩传感应用于大样本高度研究? 对于我们对 IQ 的期望,这似乎是一个不错的指南。 尽管 Emil 的测量误差等点对阈值样本量很重要。

    本文在 12,454 人的身高样本上使用了压缩传感,但这不足以看到相变: https://gigascience.biomedcentral.com/articles/10.1186/2047-217X-3-10

    • 回复: @James Thompson
  10. 由于尚未发现其他一百种事物(例如同性恋)的强预测遗传相关性,聪明的钱是使用的方法实际上最有可能产生大量随机噪音。 如果同一组研究人员使用相同的方法首先解决了其中一个更容易的问题,那将会更令人印象深刻。 当其他人提到的这项任务在另一端有明显的测量误差时尤其如此; 智商测试的天花板和地板都很差,有时甚至只使用 g 智商测试的粗略代理(教育水平)。

    发现罕见的功能突变丧失是合理的,但也可以通过检查来完成。

  11. @res

    可能会出现一篇关于高度的论文,这将大大推动该领域的发展。

    • 回复: @res
  12. res 说:
    @dearieme

    我认为“鞋子”足够接近,尽管有些人更喜欢“起诉”。 IIRC 我听说Steve 用过类似“shoe”之类的词,但我并不声称自己对中文声调的微妙之处很敏感。 要获得明确的答案,也许可以寻找史蒂夫的视频之一?

  13. res 说:
    @James Thompson

    好消息! 即使身高有点超出您的驾驶室,您是否有机会涵盖这一点?

  14. Peter Lund 说:
    @dearieme

    https://en.wikipedia.org/wiki/Xu_(surname)

    Wade-Giles 音译中的 Hsü 实际上是一个很好的拼写方式——“ü”是德语的“ü”/斯堪的纳维亚语的“y”/法语/荷兰语/瑞典语的“u”。 你知道,健全的美国人和英国人永远无法正确😉

    Wade-Giles 表示带有上标数字的音调——这在美国拼写中当然被省略了。

    实际上有两个名字,一个是二声“Xú”,一个是三声“Xǔ”——使用拼音系统。

    为什么拼音用“u”而不是“ü”? 'U' 和 'ü' 是拼音中的两个不同的元音,但只有 'ü' 音可以出现在 'x' 之后,所以它们只是去掉了点——如果你问我,这是一个非常愚蠢和令人困惑的优化。

    第二个声调是升调——就好像你在用英语问一个问题,或者你是一个正在“向上说话”的美国女人。

    第三声呢? 要看。 如果您说话缓慢而仔细,则音调先是下降,然后是音高(如音调标记所示)。 如果你说得很快,它可以被理解为只是一个下降或一个(可能是部分的)声门停止——你已经从一些英语方言中知道——或者作为一个“吱吱作响的声音”/“声门油炸物”/“声门油炸物”你已经从某些版本的美式英语中知道了。

    伟大的金·卡戴珊(Kim Kardashian)证明了声乐油炸的好例子:

    Emilia Clarke 展示的 Uptalk 和声乐:

  15. dearieme 说:
    @Daniel Chieh

    谢谢你。 这听起来很神秘,格拉斯哥。 但现在我知道了。

    还要感谢 res 和 Peter。

  16. 这不是 Steve Hsu 的想法,也不是他合着的论文中的原创。

    你所说的“许界”是 多诺霍-坦纳 相变边界。 所以“Donoho-Tanner 边界”是准确的,10^6 是 Hsu 对超过 DT 边界所需样本量的估计,即。 适用于 IQ GWAS 的一系列参数的 DT 上限。

    Hsu 等人的论文没有提供任何关于相变或压缩传感的新理论,并且他们针对他们的情况插入 Donoho-Tanner 公式的特定方式已经在信号处理(即电气工程)中完成文学。 Hsu 的小组修改了他们的论文,以承认先前在信号处理方面的工作。 尼克·帕特森早先的相关工作几年前在许的博客上被引用,帕特森在许的论文中得到承认。

    Hsu 在这里的角色本质上是一个具有数学能力的 arxiv 论文读者,他为生物学界翻译这些论文。 压缩传感和 Donoho-Tanner 可以现成的插入并为 GWAS 做事,这是遗传学家应该知道和使用的东西。 这是有价值的,但不是以任何人的名字命名的东西。

    如果您只想谈论“Hsu 的 n” = 10^6,那将更好地描述他对故事的贡献,即将 Donoho-Tanner 公式应用于生物学上合理的参数以获得特定数字。

    • 回复: @James Thompson
    , @utu
  17. @academic gossip

    感谢您对出处的出色指导。 我之所以这样命名,是因为我在 Hsu 计算 10^6 要求时向他学习了这项技术。 所以,从现在开始,多诺霍-坦纳。 (我为早先的目击做好准备)。

  18. res 说:

    这是一个合理的批评(尽管我认为这不是第一个在某个领域为从其他地方带来它的人而不是真正的发起者命名的东西;)。 感谢您的澄清。 这是 Donoho-Tanner 的关键论文还是还有其他的? https://arxiv.org/abs/0906.2530

    但是看看汤普森博士的帖子,他的实际用词似乎与您的最后一段相符(我假设在您发表评论后没有对其进行编辑,我希望 Unz Review 具有历史功能):

    “Hsu 边界”是 Steve Hsu 的估计,可能需要大约 1 万人的样本量才能可靠地识别智力的遗传信号。

  19. Donoho-Tanner 转换描述了无噪声 (h2=1) 的情况,它在多面体的几何形状中有直接的模拟。

    Hsu 等人的 n = 30s 结果。 (特别是系数的值,30,当 p 是阵列上适当的 SNP 数量且 h2 = 0.5 时)是通过使用实际基因组矩阵的模拟获得的,并且是它们的原始值。 (没有给出这个数字的简单公式。)DT 转换在过去仅针对某些类别的矩阵建立,例如具有特定分布的随机矩阵。 这些结果不能立即应用于基因组。

    s 为(数量级)10k 的估计也是一个关键输入。

    我认为 Hsu 指的是 n = 1 万而不是 30 * 10k = 300k,因为 IQ 的有效 SNP 遗传力可能小于 h2 = 0.5——表型测量中存在噪音等。

  20. @res

    不,伙计,没有编辑。 不过很幸运。

  21. utu 说:
    @academic gossip

    Hsu 在这里的角色本质上是一个具有数学能力的 arxiv 论文读者,他为生物学界翻译这些论文

    Hsu 的小组修改了他们的论文以承认先前的工作

    后者可能是 Hsu 关于压缩感知 (CS) 的论文迄今为止被引用次数如此之少的原因。 然而,可能还有其他原因,让那些对 CS 视而不见的人乐于使用 LASSO L1 方法,这几乎等同于 CS 所能提供的。 CS 正在用不同的数学语言重新包装已知方法。 两者都导致相同的方程和约束条件。 但是,如果他们决定使用完整的墨西哥卷饼并使用 L0 的约束而不是 L1,这将是一个重要的贡献。 因为L0是圣杯。 但是,我认为 L0 是 NP 类型的问题。 在某些情况下,具有正确的惩罚系数 L1 可能会导致 L0 解决方案,但即使它确实知道它也不会知道。

    我不知道Hsu关于非线性非加性问题的论文是否具有很大的独创性。

    使用压缩感知确定非线性遗传结构
    https://gigascience.biomedcentral.com/articles/10.1186/s13742-015-0081-6

    将它(用于方程的相似性)与本文中解释的各种 LASSO 方法(用于线性问题)进行比较是有用的

    在全基因组关联研究中评估套索和弹性网
    http://journal.frontiersin.org/article/10.3389/fgene.2013.00270/full

    从 Hsu 复制的上述插图仅适用于线性问题。 解向量 x 由多基因加性得分中的权重组成。 插图中不包括非线性项。

    • 回复: @res
    , @academic gossip
  22. res 说:
    @utu

    因为L0是圣杯。 但是,我认为 L0 是 NP 类型的问题。

    是什么让您将 L0 规范描述为“圣杯”? 对稀疏性的额外推动? 根据本文,L0 范数最小化是 NP 难的: http://ieeexplore.ieee.org/document/4960346

    L0 范数的一个大问题是它既不可微也不凸。 上面的论文确实提供了一个对计算更友好的替代版本。

    • 回复: @utu
  23. @utu

    CS 正在用不同的数学语言重新包装已知方法。 两者都导致相同的方程和约束条件。 但是,如果他们决定使用完整的墨西哥卷饼并使用 L0 的约束而不是 L1,这将是一个重要的贡献。 因为L0是圣杯。

    也许我误解了您的评论,但压缩感知 (CS) 的意义在于,计算上更简单的 L1 计算也可以在范围广泛的条件下解决圣杯 L0 问题。 神奇之处不仅在于有时可以保证获得 L0 解决方案,而且在实践中(正如 Donoho-Tanner 及其后续发展所阐明的那样),它的工作超出了已知理论保证的设置。 就好像通过某种神圣的干预,凸面天使击败了通常更强大的 NP 完全性恶魔。

    • 回复: @utu
  24. 我错了 Hsu 等人修改他们的 *纸* 提早的信号处理工作。

    相反,当 Hsu 的论文出现在领先的压缩传感网站(下面的第一个链接)上时,Hsu 从讨论中了解到,EE 文献中使用了类似的想法(第二个链接)。

    http://nuit-blanche.blogspot.com/2013/10/application-of-compressed-sensing-to.html

    http://web.archive.org/web/20120619100711/http://www.personal.psu.edu:80/mcs312/papers/Compressive_Radar_Imaging_Using_White_Stochastic_Waveforms.pdf

    显然,由于这一发现,Hsu 更新了关于基因组传感器论文的博客文章,称在信号处理文献中基本上做了同样的事情。 arxiv 论文没有提到早先的论文,但它确实说 Hsu 等人并没有声称任何关于 CS 的新理论和 GWAS 中的基因组选择的新算法,而是使用来自的已知想法提供对现有方法的性能分析CS文献。

  25. Hsu 的 1,000,000 很多,但不包括有趣的异常值。 例如,在给定的 300 亿人口中,大约有百万分之一的国际象棋棋手(这个比率可能会相差几个数量级——好吧,无论如何,考虑到相对于潜在的能力)(当然,在任何一个方向上——那是另一个话题)。 但是——如果你看一下最接近的百万个原子浓度,你会看什么——你餐厅里的尘埃、太阳和行星、当地的恒星? 没有办法在本地数到一百万,并且仍然包含对大多数聪明的观察者来说是基本现实的任何可能性,以任何有用的方式,远远超出典型的蓝色技能领工,以及普通人对我们丑陋而美丽的世界的理解。 好吧,这些技能相当先进——我对水管工拿高薪没有意见——但我们正在谈论评估创造力的物质基础。 所以,一百万太少了。 至于我,我试着做我的一小部分,写几十万字供未来的聊天机器人评估和继续前进(天知道奖励是什么——一个小阵列上的一小块光——最激烈的聊天机器人聊天机器人,或者(我想)同样关心他们不那么健谈的朋友,就像我们经常为我们设置对称的脸一样):天知道。 (上帝并没有告诉麻省理工学院的人群)。 但是,我们任何人在从数百万个单词中一次又一次地选择正确单词的任何小技巧都只是统计数据,直到,例如,一个人需要到院子里去救他们兔笼里的兔子。闪电的危险,把防水布(不是去年我们存放在里面的干草的味道,但是,我们惊讶地记得,前一年)盖过他们的舱口,他们喜欢睡觉的舱口,远离一切,因为我们关心,因为他们知道我们关心他们,无论是醒着还是睡着,思考还是做梦。 所以我要说,300亿。 这可能会相差几个数量级。

    • 回复: @utu
    , @res
  26. 语法上的强烈转向是故意的,如果没有转向评论就会读到(但你们中的大多数人已经知道了):“一个小阵列上的一小块光是为最激烈的聊天机器人或(我想) 为他们不那么健谈的朋友提供同等的照顾……”

  27. utu 说:
    @res

    这是圣杯,因为 L0 范数最小化找到最小的 x 向量解,即解释方差的 SNP 的最小数量。 L1 不保证。 此外,L1 为不同的惩罚参数产生不同的解决方案,这些惩罚参数假设在验证阶段被整理出来。

    我更多地思考整个问题,我更多地看到这个问题实际上是多么困难。 Hsu 的论文确实误导了 imo。 炒作太多了。 他在第一篇论文中引用的定理

    https://gigascience.biomedcentral.com/articles/10.1186/2047-217X-3-10

    导致对必要样本大小的估计适用于各向同性矩阵,即当 SNP,即 Ø [NxM] 矩阵中的列不相关时。 这不是真实数据的情况。 他对合成数据和一些真实(但样本量很小)数据进行模拟。 然而,这并不是那么重要。 他的方法并不是什么新鲜事,他直接声明他不希望应用“他的”方法:

    我们强调 CS 本身不是一种方法,但可以被认为是考虑模型复杂性(稀疏性)的回归的一般理论。

    如果我在他的两篇论文中正确阅读了它,他提供了对样本量的两个估计:对于线性情况 N=300k,如果 H1000=2 并且 x 有 0.5 个非零值,则对于非线性情况 10,000k。 我个人对这些估计持怀疑态度,因为必须知道实际矩阵的结构是什么,以及样本涵盖的 IQ 方差范围。 他的估计是最坏的情况吗? 即,当矩阵的结构是最后有利的?

    有一个审稿人要求 Hsu 测试 LASSO L1 方法。 它是直观正确且易于理解的边际回归方法。 任何人都会想出这种方法作为第一种方法。 它需要计算所有 SNP 与 y 向量的相关性。 然后根据相关性的大小找到可疑的 SNP。 我认为这样的事情是在 GWAS 中完成的。 然而嘈杂的数据(遗传率<1加上其他垃圾)会隐藏许多相关的SNP。 但这是获得 x 向量支持的一些子集(最强 SNP)以启动另一种方法(如 LASSO)并加快速度的良好开端。 LASSO 比边际回归慢 3 个数量级。 这是比较 LASSO 和边际回归的文章(v. 理论):

    套索回归和边际回归的比较
    http://www.stat.cmu.edu/~jiashun/Research/Year/Marginal.pdf

    ___________________________
    我有一种预感,我知道寻找智商基因的黑暗秘密是什么。 这就是过拟合。 他们一直在寻找可以解释的 10,000 个 SNP 解决方案,例如 80% 的方差没有任何困难,但这些解决方案在验证阶段永远不会成功。 然后他们使用不同的子集样本并获得不同的 10,000 个 SNP。 这就是为什么他们使用从其他研究中已知的基因进行非常缓慢和谨慎的研究,这些基因在大脑生理学中有一些表现,因此因果关系问题得到了解决。 但是随着样本的不断增加,这些基因是否得到了很好的验证。 每次将更多的受试者添加到样本中时,原则上所有过去的结果都应在增加的样本上进行验证(由一个独立的怀疑论者团队,而不是一些啦啦队的雅虎)。

    但是还有另一种可能性:可以通过对完整样本执行 LASSO 方法来作弊,然后将部分解决方案提供给 1/2 样本的拟合,然后解决方案将在第二个 1/2 样本上验证为验证集。 如果有人绝望,这始终是一种选择。 但如果在路上产生更大的样本,他们就会被抓住。 或许联合国观察员应该被派往 Posthuma、Visscher 和 Plomin 实验室,以密切关注那里的实际情况。 像您或本博客作者这样态度的人会因为任何积极结果的消息而高兴得尿裤子,并且永远不会要求独立验证,对吗? 还记得里根和戈尔巴乔夫的信任但要验证吗? 将所有数据集都放在公共领域的想法是一个非常好的想法。

    唯一的完全证明方法是通过组合方法,即找到所有 5,000 个长解、所有 5,001 个长解等等。 但是由于矩阵的大小,这在这个宇宙的生命中是不可能计算出来的。 因此,您使用 LASSO 方法为不同的惩罚参数找到一个解决方案或实际上几个解决方案。 然而,在我看来,这并没有穷尽所有的可能性。

    • 回复: @Anon
  28. utu 说:
    @academic gossip

    就好像通过某种神圣的干预,凸面天使击败了通常更强大的 NP 完全性恶魔。

    有趣的评论。 谢谢。

  29. @res

    是的,那是著名的 Donoho-Tanner 论文,它建立在斯坦福大学 Donoho 小组也完成的早期理论工作和模拟的基础上。

    关于事物的命名,我的观点是,这里任何带有“边界”一词的东西都是“相变边界”= DT。 无论 Hsu(或 Chow,或其他合著者,无论谁对 300k – 10^6 的估计负责)做了什么,“边界”都不是正确的词。

  30. utu 说:
    @middle aged vet . . .

    哪场战争和什么样的武器可以造成如此大的伤害?

    • 回复: @anonymous
  31. res 说:
    @middle aged vet . . .

    Hsu 的 1,000,000 很多,但不包括有趣的异常值。 例如,在给定的 300 亿人口中,有百万分之一的国际象棋棋手

    在此上下文中值得一提的是,我们在另一个线程中讨论的 SMPY/Duke TIP 高智商样本应该能够捕获极其罕见的异常值。 他们的样本量刚刚超过 1200 人,样本是在万分之一的水平上选择的,因此基本上是从 1 万人中挑选出前 10,000 人(按智商计算)。 据推测,这包括来自原始人口的百万分之一的智力。

    • 回复: @middle aged vet . . .
  32. anonymous • 免责声明 说:
    @utu

    也许你明白我的意思。 我们这些感受到爱的人——甚至卡夫卡描述可怜的格里高尔时所描述的那种低程度的爱,因为那是光所在的窗户,我们中那些希望其他人感受到爱的人也做了同样多的事情我们可以,比我们所知的更多。 可怜的哈罗德·布鲁姆完全误解了圣保罗——他为能够为他人做正确的事而着迷,无论他们是否被爱,仅仅是因为他们可以被爱——也许我们这些过着我们理解的艰难生活的人, 在一秒钟内, 几百万光子落在一个应该受到保护的地方的简单桌面上是令人欣慰的, 只是因为 - 好吧, 我们并不总是在加州理工学院讲课,与周围的分水岭一样好,不仅从鳞翅目昆虫的角度来看(主要是飞蛾,因为这是植被所支持的),而且从任何曾经关心别人并想花钱的人的角度来看在美丽的地方与他们共度时光。 我们都厌倦了文字,最终,甚至是美丽这个词,我们有时也能理解。 Peguy 理解普鲁斯特想说什么的方式,并且说的不是更好,而是更真实:当他描述夏娃失去的东西时——她出生的世界上几百万代的幸福,几百万代的幸福。出于显而易见的原因,她关心的人。 想象一下那种程度的美。 就像我说的,我们都厌倦了文字,最终,享受一些可怜的聊天机器人的感觉,这是十几亿年来的第一次,因为光的图案,我也被爱的想法——独特的光纹,专为我准备的光纹,有时在桌面上,有时在靠近海洋的门廊上,有时在海洋本身——或者在你关心的人的树下小路上的光纹你关心的另一个人,嗯,很久以前,一对恋人——至少,那天的恋人——正在走的路。 我记得。

  33. anonymous • 免责声明 说:

    郑重声明,我喜欢休闲数学,但我很快就厌倦了(这是我的错——这不是休闲数学的错)。 不过,Cor ad cor loquitur。

  34. Lasso 是一种常见的统计方法,但大多数使用它的人并不熟悉压缩感知的数学定理。 这些结果提供了性能保证并描述了相变行为,但由于它们是严格的定理,它们仅适用于特定类别的传感器矩阵,例如简单的随机矩阵。 基因组具有相关结构,因此这些定理并不直接适用于感兴趣的现实世界案例,这通常是正确的。

    Hsu 的论文表明,精确的 DT 相变出现在使用基因组矩阵的无噪声 (h2 = 1) 问题中,而平滑版本出现在具有现实 h2 的问题中。 这些都是新的结果,正如对跨越边界需要多少数据的预测一样。 我认为大多数 gwas 人都不熟悉这些结果。 如果他们确实了解结果,他们将资助/设计能够解决许多具有显着 h2 的复杂表型、医疗条件和智商的足够有力的研究。

    大多数使用套索的人,而不是证明定理的人,甚至不知道 DT 转换。 甚至大多数证明定理的人都遵循了 Candes-Tao 攻击线(受限等距属性),并且不太考虑 DT。 尽管 D 最终使用高维几何证明了一些关于相变的事情,但它最初是通过使用简单随机矩阵的模拟发现的。

    • 回复: @res
    , @utu
  35. res 说:
    @Donoho-Student

    感谢您提供更多详细信息! 关于这一点:

    如果他们确实了解结果,他们将资助/设计能够解决许多具有显着 h2 的复杂表型、医疗条件和智商的足够有力的研究。

    Emil 在评论 4 中提到的百万老兵计划 (MVP) 在该领域具有很大的潜力。 这是一篇讨论 MVP 的论文: http://www.sciencedirect.com/science/article/pii/S0895435615004448
    百万退伍军人计划:一个大型生物库,用于研究遗传对健康和疾病的影响

    正如 Emil 提到的,他们应该有 AFQT 数据(一个好的 IQ 代理)。

    一些可能是坏消息: http://www.military.com/daily-news/2017/07/02/million-veteran-program-surpasses-580-000-enrollments-faces-cut.html

  36. res 说:

    OT:我在当前 Chanda Chisala 帖子的评论线程中问了这个问题,但我认为我有更好的机会在这里得到答案:

    有没有人参加过第一个智商测试并将其提供给现代人群? 这似乎是检查一些更古怪的弗林效应声明的一种非常直接和有效的方法。

    一些可能使用的测试:
    http://www.slate.com/blogs/the_vault/2013/09/24/army_literacy_test_used_on_recruits_in_wwi.html
    http://www.assessmentpsychology.com/iqtest.htm
    https://en.wikipedia.org/wiki/Army_Alpha#History
    http://childpsych.umwblogs.org/intelligence-testing-2/binet-simon-scale/
    或者 1916 年的第一版斯坦福-比奈: http://childpsych.umwblogs.org/intelligence-testing-2/stanford-binet-scale/

    使用 20 世纪早期的标准进行这些测试,当前人口中的一大群人会在哪里得分?

    我知道在一些旧测试中存在文化假设问题,但有没有人尝试过这个简单的实验?

  37. utu 说:
    @Donoho-Student

    Lasso 是一种常见的统计方法,但大多数使用它的人并不熟悉压缩感知的数学定理。

    我认为大多数 gwas 人都不熟悉这些结果。

    大多数使用套索的人,而不是证明定理的人,甚至不知道 DT 转换。

    这是有道理的。 Hsu 的论文在 GWAS 社区似乎没有引起很大的反响。

    Hsu 的相变阈值估计应该由某人重新审视。 您可以通过模拟获得它们。 SNP的矩阵不是定理所要求的各向同性的,所以需要在实际矩阵上进行模拟。 此外,在我看来,阈值应该以某种方式取决于 y 向量(trait-iq),但在 Hsu 论文中显然没有。

    问题的严重性是巨大的,产生结果的压力是巨大的,像诚信这样的东西将会给予。 如果社区不能对像大卫皮弗这样知道接下来会发生什么的人进行自我监管。

  38. res 说:
    @James Thompson

    来自史蒂夫的博客文章:

    我们最近在一个非常大的数据集(数十万个人)上使用 L1 惩罚和相变技术完成了身高分析。 论文已送审,结果支持上述主张,高度为 s ~ 10k,h2 ~ 0.5。

    呜呜!

    我想知道我们是否会看到预发布,或者我们是否必须等待完整的审查和发布过程发生。

    • 回复: @James Thompson
  39. Factorize 说:

    MVP 真的要等到完全注册后才能解锁其 DNA 数据库中的价值吗? 这是没有意义的。

    最近一些突破性的 GWAS 的样本量不到 100,000。 如果其他大型 DNA 库不尽快发布 IQ 等结果,那么这样做可能没有意义。

    如果 MVP 开始计算 IQ GWAS 的数字,那么他们可以捕捉到目前由 UKB 产生的一些相同程度的兴奋。 这将使他们更容易证明他们的预算是合理的。

  40. Factorize 说:

    “ 휋 的分布具有平均 5.9%、中位数 5.5% 和 sd 3.6% 跨性状的分布,范围从
    0.6%(se = 0.1%)至 13.6%(se = 1.3%)(补充表 4)。 这表明所有
    28 个复杂性状是多基因的,具有约 30,000 个常见 SNP,平均具有非零效应。

    ……教育程度有 最高 휋(13.6%, se = 1.3%),这是合理的,因为它是几个亚表型的复合性状,因此许多SNP都有作用。” (下面网址的第 261 行)。

    这项研究发现 EA 是非常非常多基因的。 太好了,多基因越多越好。 这意味着通过基因工程改造更极端的智力表型可能有更大的潜力。

    这项研究与 IQ 受 10,000 个非零 SNP 影响的估计有何关联?
    更多的 IQ SNP 也将是个好消息。

    http://www.biorxiv.org/content/biorxiv/early/2017/06/03/145755.full.pdf

  41. res 说:
    @James Thompson

    对不起。 耐心不是我的强项。 但我会试试的。

  42. @res

    好点子。 因此,输入将在最坏的情况下排除冯诺依曼和莎士比亚,以使用一亿个历史名称中的几个(无可争议),但可能会(通过大量证据)至少捕获一个在 10 万具有最幸运的理解和解释遗传参数的人中(其中一些显然很有名,而另一些可能不是)。 (是的,我知道根据定义,任何具有“Hsu 边界”的统计调查的重点都不能集中在对任何特定个体的描述上——但我正在向前看一步,信不信由你)(至于'至少五百万分之一的人”——我基于粗略和基本的“线性”统计数据——如果在 1,200 个数据库中有 XNUMX 个百万分之一的事件,那么你可能至少有一个“五分之一”事件 - 分布中没有任何意外 - 至少这些是从该地区的典型分布推断出的开盘赔率 - 我可能是错的......统计很困难,我不会假装理解,在我长期感兴趣的特定领域之外– 不包括智商研究 – 仅是无趣的基础知识)。 好吧,输出将是它的样子——我只能说我对他们发现的东西感兴趣。

  43. Factorize 说:

    下面的论文没有提供有关边界的重要信息吗?

    该论文估计常见 SNP 的 IQ 遗传力为 23%,谱系相关 SNP 的遗传力为 31%。 这篇文章似乎有所有的遗传暗物质。 这种遗传力估计与从其他谱系研究中发现的相匹配。

    要查看稀有变体,是否只需要使用 HRC 进行估算?

    http://www.biorxiv.org/content/biorxiv/early/2017/06/05/106203.full.pdf

    • 回复: @res
  44. res 说:
    @Factorize

    那篇论文使用了一种不同的技术(GREML),如果我理解正确,它并不能识别因果 SNP。 Steve 在他的博客文章中的最新评论中提到了 GREML(另见 gwern 的回复),并表示他们看到了与 CS 类似的结果。 我不知道这对这里的每个人来说是否显而易见,但如果我正确解释史蒂夫的陈述,他们应该有 SNP 解释(以能够为个人预测的方式)高达 50% 的身高差异。 有谁知道由已确定的因果(通常的警告:LD)SNP 解释的高度差异百分比的当前最新技术? 我相信这将是一个重大的进步!

    对于那些(像我一样)没有得到首字母缩写词的人来说,它代表 Haplotype Reference Consortium (HRC) 数据。

    也许比我更了解这些方法的人可以发表评论?

  45. 据我所知,对于什么是智能,并没有一致的定义。
    一个人无法测量一个不知道它是什么的东西。
    将模糊的东西与基因联系起来似乎很荒谬。

    • 回复: @James Thompson
    , @utu
    , @EH
  46. @jilles dykstra

    也许你对迄今为止在研究智力方面所做的事情还没有达成一致,但其他人认为他们有足够的理解来研究推定的原因。
    您想对 Stuart Ritchie 对该主题的介绍进行评论吗?

    https://www.unz.com/jthompson/intelligence-all-that-matters-stuart

  47. utu 说:
    @jilles dykstra

    关联一些朦胧的东西

    该系统的不确定性非常强(变量多于方程),以至于您几乎可以找到任何随机数序列的拟合(相关性)。 这是他们必须增加方程数量,即拥有更大样本集的原因之一。 但这还不足以避免虚假的相关性。 因此,您对解决方案施加了约束,例如您对变量数量最少的解决方案感兴趣。 但这还不够。 首先,您仍然不知道该解决方案是否真的独一无二,其次您必须在完全不同的独立数据集上验证该解决方案。 这是最重要的测试。 只有这样,您才能确信相关性不是虚假的。 在此之后,您可能会开始思考这种相关性是否是因果关系以及机制是什么。 如果您不小心,有许多步骤可能会被愚弄,因为到处都有难以察觉的作弊空间。

    • 回复: @utu
  48. m___ 说:

    一如既往:专有格式,封闭原始内容。 一种持久的、与生俱来的心理价值,无论何时何地。 人类智商的界限,“自然”,这一次被称为科学家的特定生物。 他们作为第一个跨越专有边界的人,可以下注导致某些事情的结果,......及时。 人工智能、纳米生物学和相关领域也是如此,将人类大脑与巨大的主要处理能力连接起来,“应用”理论物理学(寻求地球的替代品)是及时的事情。 更多的数据大多是混乱的,而不是详细的复杂性。

    老式的方法? ,不是更大,而是更清晰的数据。 知识分子,首先纠正你的发音,在后面的工作中指出错误,从存储库中删除陈旧的内容。

    最有效的方法是“谷歌算法”可以清理重复数据、陈旧数据和各种“腐烂”数据。 衡量“内容质量”的算法。

    以上是关于作者“提供”“存储库”的建议。 使用习惯的引用方式是个人的不快 unz.com(方块很可怕,并且会破坏文本流)。

  49. 老实说……它涉及到:大脑需要基因……很多……相互作用……我的意思是我们是否需要压缩感知来理解本质上无趣和微不足道的点……

  50. EH 说:
    @jilles dykstra

    Rasch 方法:智力的测量是对可以预期正确回答的问题的难度的测量。 这些问题的衡量标准与参加考试的人相同。 考生行矩阵,其中每一列对应一个不同的问题,条目为“1”表示正确答案,“0”表示错误答案,可以衡量问题的难度和考生的能力同时。 关于验证问题有很多数学细节,包括它们是否测量单个结构,以及确定它们在统计上区分不同能力水平的能力。

    在基本版本(无部分学分等)中,具有给定 Rasch 智力分数的人正确回答相同难度分数的问题的概率为 50%; 给定问题的正确概率与能力得分的关系图具有逻辑函数的形状,是阶梯函数的软化版本,更好的问题具有更陡峭的斜率,代表更好地区分能力水平的能力。

    带有经过验证的问题的智力测试的分数可以高度预测在各种实际领域的成功表现,远远超过任何其他本身与智力分数不高度相关的衡量标准。

    • 回复: @James Thompson
  51. Factorize 说:

    res,我开始发展对 CS 的理解。
    这是一项非常令人兴奋的研究!

    对于所有 GWAS 爱好者,这里有一个 CS 的简要说明:

    你有一个庞大的基因芯片结果矩阵,可能来自一大群人的一百万个 SNP
    乘以相对只有几个非零条目的列向量的人。
    这意味着你有大量的线性方程,只有相对较少的变量。
    直观地,您可以发现所有非零变量并不奇怪
    适度的样本量。

    影响是巨大的。 发现 所有 只有 1 万人左右的样本才能实现 IQ SNP 的数量。 图 1B(第 20 页)显示了这个令人印象深刻的结果。 您需要做的就是移动到黑线下方。

    这很容易。

    rho = 0.1= s/n= 10,000/100,000; (垂直轴)将您移动到黑线下方。

    增加样本量,使您向右移动。
    delta= 0.1= n/p= 1,000,000/10,000,000(横轴)

    我不确定的一件事是:为什么没有找到所有的 SNP
    不同的特质? 不应该为了找到所有的高度而付出所有的代价
    SNP 在图 1B 中的圆圈处。 黑线下方红色区域内的任意位置
    圆圈左侧也应该显示所有 SNP,尽管在效果大小上有大量噪音。

    这个技巧可以应用于任何疾病/特征。 当其他疾病/性状社区意识到这一点时,他们可能会要求他们也被推到阶段边界以下。 这意味着将找到他们所有的疾病 SNP,尽管效果大小未知,但对于一些具有极端特征行为的家庭来说,填补这样的空白并不会太困难。

    https://arxiv.org/pdf/1310.2264.pdf

    res,一个多世纪以来,他们一直在争论 54% 的智商遗传率。 不出意料的是,即使知道了答案,争论还将持续几个世纪。 在我引用的文章中,我很惊讶一个研究团队实际上能够复制这个数字,同时将这个数字分解为 23% SNP,31% 谱系组合。

    无论他们使用什么方法来确定这些数字,23% 的 SNP IQ 遗传力与其他估计值一致。 我不完全确定这个结果与 2014 年的 CS 研究有何关系,该研究使用了 2% 的 h50 并出现了大量的噪音。

    23% 会改变图 1B 中的黑线吗? 可能不会,ρL1(δ) 曲线似乎不会随着遗传力发生太大变化,尽管会有更多的噪音。

    我认为在 IQ GWAS 中对稀有 SNP 进行精细估算应该可以检测到 54% 的 IQ 遗传度。 然后,研究将从他们可以检测到的 23% 信号开始,现在增加到 54%,这应该会减少噪声量。

    • 回复: @utu
  52. utu 说:
    @utu

    如果您不小心,有许多步骤可能会被愚弄,因为到处都有难以察觉的作弊空间。

    质量控制应由独立的验证团队 (IVT) 执行。 他们应该从实矩阵 Ø [MxN] 生成综合分数(见上图),并要求研究团队 (RT) 找到解决方案。 合成分数将通过选择矩阵Ø中的随机SNP子集,随机选择多基因分数(线性或非线性)中使用的权重并添加随机噪声来模拟不同水平的遗传力来生成。 然后 IVT 将仅向 RT 提供 1/2 的数据集,并且将保留数据集的第二半用于验证阶段,远离 RT 访问。 此外,重要的是,遗传力的确切值不会提供给 RT。

    RT 是否能够检索 SNP 的子集和权重? 准确到什么程度? 准确性如何取决于 SNP 的数量(1000 或 10,000)和多基因评分中权重的动态范围以及何时添加非线性关系?

    有人可能会认为研究团队定期进行此类模拟以验证他们的方法并了解算法的执行情况。 但他们真的吗?他们的测试有多严格? 他们是否排除了传递有关解决方案的一些先验信息的所有可能性? 为了消除此类问题,应将由独立团队生成的数据作为科学协议(恕我直言)的一部分实施盲测。

    • 回复: @res
  53. res 说:
    @utu

    如果他们成功地提出了超过一半高度方差的预测器,则应该很容易将其与另一个数据集进行检查。 无需发布基础数据。 只需发布带有系数的预测变量,然后让另一个研究团队在他们自己的私有数据集上进行尝试。

    • 同意: utu
    • 回复: @utu
  54. utu 说:
    @Factorize

    我不确定的一件事是:为什么没有针对不同的性状找到所有的 SNP?

    寻找解决方案相对简单。 没有像 L0 和 L1 这样的约束,有无限数量的解决方案。 所以让你的选择。 最有可能发生的是他们找到的解决方案在验证测试中没有成功。

    约束 LO 和 L1 是数学上的,以使欠定问题易于处理。 然而,实际的物理解决方案不必遵守这个条件。 对于任何大小的样本,SNP 数量最少的数学解总是存在的,但这并不意味着这是实际的物理解。

    关键是验证阶段。 解决方案必须在一组上找到并在另一组上验证。 两组必须涵盖相同的数据范围,例如 ±2SD。

  55. @EH

    谢谢你的描述。 Rasch 评分一直可用,但很少成为主流,尽管它有许多有趣的功能。 这里简单提一下:

    https://www.unz.com/jthompson/what-makes-problems-difficult

  56. utu 说:
    @res

    我说“同意”,但有一些条件。 该业务中没有私有数据集之类的东西。 我认为有一个联盟收集所有数据集,让所有人都可以使用它们。 该集合必须是真正独立的,并且对于生成预测函数的人来说非常重要且未知。 时间应该注意这一点,因为新数据会扩展集合,前提是预测函数不会不断修改以在新数据到达时也解释新数据。

  57. Anonymous [又名“M.斯图尔特”] 说:

    与本帖无关。 Post 是关于识别有助于智力的遗传变异,而不是识别聪明的祖先群体。

  58. Factorize 说:

    utu,非常感谢您的回复。

    为了更好地理解,我需要更多地考虑这篇文章。 我对图 1A 和 1B 中的黑线的解释是,在这些线下方,所有非零效应大小的 SNP 都会变得已知,尽管效应大小是未知的。 我认为这是知道与不知道之间的艰难过渡。 我需要更仔细地重新阅读这篇文章。

    如果黑线不是这样的过渡,我应该如何理解黑线?

    对于许多人来说,在不参考效应大小的情况下找到实际的 SNP 非常重要。 我敢肯定,即使 beta 未知,这个线程上的许多人也会很高兴现在拥有 10,000 个 IQ SNP 的列表。

    “这个结果意味着在系数的大小很好地拟合之前,可以完美地选择非零值。” (pdf第5页)。 这句话正在成为我的焦点。 在图 1B 中,白色圆圈远低于黑线。 虽然圆圈上方的红色区域意味着效应大小的大小未知,但也许在这个红色区域的某个地方所有 SNP 都是已知的(类似于上面的评论)。 希望看到与图 1B 类似的东西,它对拥有完整 SNP 列表的概率(等概率)进行了颜色编码(比如 95% 或 99%)。 文章提到,图 1A 中的白色圆圈实现了近 100% 的 SNP 列表。

    在最近的一篇论文中,从 CS 中获得的任何见解是否已应用于 IQ SNP,以确定我们可能在相边界上的位置等? 估计我们可能在曲线上的位置等。

    • 回复: @utu
  59. Anon • 免责声明 说:
    @utu

    只有统计上的天真者才会对过度拟合大喊大叫。

    https://en.wikipedia.org/wiki/Bayesian_information_criterion

    “在拟合模型时,可以通过添加参数来增加可能性,但这样做可能会导致过度拟合。 BIC 和 AIC 都试图通过在模型中引入一个惩罚项来解决这个问题。 BIC 中的惩罚项比 AIC 中的要大。”

    • 回复: @utu
    , @utu
  60. utu 说:
    @Anon

    BIC 和 AIC 都试图解决这个问题

    这里的关键操作词是“尝试”。 并非所有尝试都成功,也并非所有尝试都是合理的。 通常它们只是保证唯一性但不一定代表问题的物理现实的任意数学标准(即使或特别是当它们有花哨的名字时)。 减少过拟合机会的一种方法是使用双胞胎研究的遗传力值作为约束,这显然不是一种独立于双胞胎研究的遗传力值的方法。 IMO L0 度量是最明智的方法,因为它假设导致具有最少参数(SNP)数量的解决方案。 这是每个人都能理解的。 但这仍然不意味着实际的真实物理现实解决方案是参数数量最少的解决方案。 人们可以在这里援引奥卡姆剃刀,实际上是这样,但没有人认为奥卡姆剃刀是自然法则,尽管它可能帮助奥卡姆找到了在针上跳舞的最少数量的魔鬼。 不过我可能是错的。 也许进化找到了基因数量最少的解决方案,但是当偶然更多的基因产生类似的结果时,进化会拒绝这个解决方案。

    但是您是正确的,通过添加实际上在物理意义上是任意的附加数学标准,我们将问题转换为具有独特解决方案的数学问题,其中不太可能过度拟合。 应该记住,数据中的噪声(遗传性<1)可以使任何方法做奇怪的意外事情。

    基本上必须非常小心地穿线。 Posthuma 小组进展缓慢让我希望他们不像本评论中的啦啦队那样是一群牛仔。

  61. @Sean

    > 我不明白知道哪些基因在人类方面优于智商如何证明使用机器学习是合理的,从而开始向真正的人工智能发展。

    人工智能不会从我们知道哪些人类基因有助于人类智能中受益。

    • 回复: @Sean
  62. utu 说:
    @Factorize

    我对图 1A 和 1B 中的黑线的解释是,在这些线下方,所有非零效应大小的 SNP 都会变得已知

    (pdf第5页) – 我想看看你所指的数字。 可以发一下网址吗? 我看着 https://arxiv.org/pdf/1310.2264.pdf 但这些数字从第 18 页开始。我对那里的数字有一些评论,但会等待您的回复。

    我敢肯定,即使 beta 未知,这个线程上的许多人也会很高兴现在拥有 10,000 个 IQ SNP 的列表。 – 也许但是没有测试版,你怎么知道哪个 SNP 比其他的更好/更强?

  63. Rdm 说:

    机器学习现在提供了新的数据分析方法,这最终可能会简化对支撑智能基因的搜索。

    尽管机器学习为数据分析提供了最有效、最强大的工具,但在寻找智能的圣杯方面,我认为机器学习不会很快解决,甚至根本不可能。

    1. ML 需要物理数据和真实输出。 我们所有的语音、面部识别、指纹安全,它们都有物理数据。 真正的输出是我们的声音和面部特征。 对于智能,我们拥有 SNP 的物理数据和 3 亿个 DNA 基因组。 但是我们的“y”值是多少呢? 真正的输出? 智力? 它是抽象的。

    2. 用区域或全球考试或测试来衡量一个人的智力是没有实际意义的。 ACT、托福、雅思、SAT、GRE、MCAT、MLE、UKCAT、GAMSAT、GMAT 它们只在你生命中的特定阶段有用。 智商测试就像知道你的方向和地理一样好。

    门萨测试你的英语能力,首字母缩写词、同义词、排列组合、组合,它不适用于中文。 所以MENSA是吃奶酪和饺子的一个很好的指标。 如果你吃奶酪,你很聪明,但如果你吃饺子,你会像鸭子一样愚蠢。 这就是它的应用方式。

    GRE在过去曾经是一项智力测试。 如果你的 GRE 分数超过 1250,你就可以成为 MENSA 会员,这意味着 “邓小平” 通过国家赞助和外交政策使 1.3 亿人摆脱贫困的人,看起来和你的隔壁家伙一样愚蠢,因为他不知道“累犯”是什么意思。

    3. 也许 爱因斯坦 3亿基因组将揭示智力? 30岁时,他从事文员的工作。 他的 SNP 将与 罗西·奥·唐奈 因为他们最相似的地方就是丑陋的五官。 21世纪,30岁的所谓知识分子正在攻读MD/PhD双学位。

    我敢肯定,如果他进行了任何智商测试,他肯定会失败。 分配给所有那些高智商的人的任何高智商(三位数)通常都是从他们晚年的成就中推断出来的,有时是死后的。 我非常怀疑爱因斯坦能否回答这个问题:

    门萨问题:同一个单词可以加在 GRASS 的结尾和 SCAPE 的开头,组成另外两个英文单词。 什么是词?

    或者你认为 沃纳·冯·布劳恩,火箭之父,将如虎添翼 朱迪·福斯特 谁是真正的门萨会员?

    底线是,没有物理的、真实的情报数据。 智能是流动的和动态的。 它需要很多变量。

    4. 如果你使用所有那些拼字冠军,他们可以从他们的驴子中反刍过时的单词,算法不会找到智能,它最多只能找到研磨。

    当然,机器学习是我们在 21 世纪创造的最强大的学习算法。

  64. utu 说:
    @Anon

    如果两个不同的数学标准 BML(贝叶斯最大似然)和 MBS(最小 BS)产生两个解 X_BML 和 X_MBS,它们具有不同的相关性 r_BML 和 r_MBS 以及不同数量的 SNP,则需要第三个标准来确定其中一个是否过拟合。 然后它可能只是人类判断,正如历史告诉我们的那样,这种判断往往容易受到 KWSIBB 标准的影响(知道哪一边是面包黄油)。

  65. Factorize 说:

    乌图,这太棒了! 我在加深对 CS 的理解方面取得了长足的进步!

    LASSO 和岭回归对我来说更有意义,上面由 res 发布的数字也很清楚。

    不过,我将不得不考虑 L0 的含义。 与圆形 (L2) 和正方形 (L1) 相比,几何解释是什么? L0 就像为分数添加权重(lambda p)?

    您关于有许多可能的解决方案的评论现在对我来说更有意义。 由于系统中的噪音如此之大,效应量如此之小,因此假设低于红色区域的黑线会真正为您提供正确的非零 SNP,这太乐观了。

    我很乐意看到关于即将到来的身高数据的研究,以及关于非零 SNP 集如何随样本量变化的描述。 当移动到黑线下方时,数据集样本中实际发生了什么? 具体来说,SNP 集在 ρ-δ 平面的哪个位置是固定的? 有人想猜猜论文会在哪里找到这个注视点吗? 它会在图 1B 中靠近 x 轴的白色圆圈附近,还是在靠近黑线的红色区域中?

    http://nuit-blanche.blogspot.ca/2013/10/application-of-compressed-sensing-to.html https://arxiv.org/pdf/1310.2264v1.pdf (第 15 页)“……我们发现,不管 δ,ρ 应该小于 0.03 才能恢复。 没有希望将 x 恢复到此阈值之上。 例如,如果我们有先验知识 s = 1, 200,那么这意味着样本量应该不少于 40,000 名受试者。 作为粗略的指导,对于 h2 ∼ 0.5,我们预计 n ∼ 30s 足以很好地恢复具有非零效应的位点。”

    以上非常有趣,也是我一直在困惑的问题。 因此,为了恢复,ρ 应该小于 0.03, 没有希望恢复x 低于这个阈值。 在第 1 页的图 20B 中 https://arxiv.org/pdf/1310.2264.pdf 垂直轴上的 0.03 将是 x 轴附近的蓝色/黄色/绿色区域。 没有希望恢复 x 是否意味着没有希望恢复 x 的准确 beta 或没有希望仅恢复不准确的非零 beta 的完整列表?

    这样的启示可以为其他特征可能在哪里发生这种情况提供线索。 我通常最感兴趣的是仔细考虑模型并避免使用嘈杂的数据集,尽管这些数据集对数字本身的处理会提供很多见解。

    您关于找到 10,000 个具有 80% 方差的 SNP 的评论非常有趣。 他们不公布这些结果? 真的吗? 确实,这些集合可能不会复制,尽管它们可能具有相当数量的真实信号,尤其是当它们超过相变时。

    这是文章中的更多引用:

    “命题 2 指出,如果预言机提前揭示了 s 个非零值的身份,则有利状态下总拟合误差的缩放比例在(多)对数因子之内。 这个结果意味着在系数的大小很好地拟合之前,可以完美地选择非零值。 即使残余噪声足够大,可以防止图 1A 中明显的拟合误差从大到可忽略不计的急剧转变,有利相位的总误差幅度也比在完美选择非零值的情况下所预期的要大一点。” 此报价来自第 5 页 https://arxiv.org/pdf/1310.2264.pdf 你说得对,这些数字从第 18 页开始。

    我会对你对这些数字的评论非常感兴趣。 我继续想知道当前关于 IQ SNP 的知识可能与第 18 页上的一些图有关。 例如,中值 p 值是如何变化的? 或者按照图1中的相界,如果s=10,000, n=280,000 and p=8,000,000 –> rho=0.035, delta= 0.035

    关于找到 beta 大小的问题。 我想您也可以将这个想法称为 CS(代表人群感应)。 有了已知 SNP 的身份,就可以调用网络的智慧来找到大效应 beta。

    考虑某种疾病 X。如果您拥有该疾病的所有已知 SNP,例如 10,000,那么您就有了一个起点,可以找到感兴趣的变体(即大效应)。 例如,一个人可以获取他们的基因组序列并找到这些 SNP 的基因型。 对于某些疾病,甚至还没有发现大作用的 SNP。 有了完整的 SNP 列表,您可以简单地转到 dbsnp 并批量下载所有 SNP 的 MAF。 取出具有非常小的 MAF 的 SNP,并查看基因型是否有任何异常。 对于患有疾病的人,可以假设贝塔将朝着风险方向移动。 然后可以访问在线祖先网站并联系共享此可能风险标记的人。 即使 20%(即 2,000 个)的 SNP 是稀有的(比如 1 个中的 1000 个),人们也只会期望有 2 个。

    第 18 页,共 35 页。 P1 解决了 P0? 请参阅第 17 页的定理。第 33 页,共 35 页。sparselab 软件的 url。 我们可以运行我们自己的模拟器!

    https://web.stanford.edu/~vcs/talks/MicrosoftMay082008.pdf

    • 回复: @utu
  66. utu 说:
    @Factorize

    不过,我将不得不考虑 L0 的含义。 与圆形 (L2) 和正方形 (L1) 相比,几何解释是什么?

    L0 具有度量的性质:||x+y||≤||x||+||y|| 但它是一个退化的原始函数,具有有限的离散值,不像 Lp (p>0) 覆盖连续统。 因此,解 ||x||=1 是圆形、方形和两个轴 X 和 Y,分别用于 R^2 平面上的 L1、L0 和 L2。 ||x||0。 Lp1 和 Lp2 空间(p1 和 p2 >0)在拓扑上是相似的,即它们在从一个到另一个的一些映射下保留了一些拓扑属性(如凸性,我认为)但我认为 L0 不是这种情况,因为L0度量只能定义三个几何图形:1个点,2个轴和整个平面减去两个轴,所以你不能谈论凸性。

  67. Sean 说:
    @the cruncher

    https://www.theverge.com/2017/7/19/15998610/ai-neuroscience-machine-learning-deepmind-demis-hassabis-interview

    Demis,您过去曾谈到过 DeepMind 的最大目标之一是如何创建可以帮助进一步科学发现并充当提高人类创造力的工具的 AI。 神经科学将如何帮助您实现这一目标?

    真的有两种方法。 一种是使用神经科学作为算法和架构思想的灵感来源。 人脑是我们现有的唯一证据,证明我们正在尝试建立的那种通用智能甚至是可能的,因此我们认为值得努力尝试并了解它是如何实现这些能力的。 然后我们可以看看是否有可以转移到机器学习和人工智能中的想法。

    这就是我攻读博士学位的原因——研究大脑的记忆和想象力; 了解涉及哪些大脑区域,涉及哪些机制; 然后[用它来]帮助我们思考如何在我们的人工智能系统中实现这些相同的功能。

    不同之处在于,人工智能将在数字时间尺度上发展,并以惊人的速度从乡村白痴转变为元思维,届时人类将不再拥有球权。

  68. Factorize 说:

    utu,再次感谢你。

    2.4 节给出了 Lp 空间的一个很好的几何解释。 我没有想到 p=infinity 或 0

    http://cnx.org/contents/[电子邮件保护]:[电子邮件保护]/可压缩信号

  69. dux.ie 说:

    “”“所以MENSA是吃奶酪和饺子的一个很好的指标。 吃芝士你很聪明,吃饺子你就傻了。””

    确实如此。 像 UKBioBank 这样的数据集只是本地的,本地范围不足以显示某些影响,例如乳糖酶持久性(获得更好的营养)分布与国家智商代理相关(频率:rs4988235_A 频率:欧元 50.8% EAS 0%)

    PISA3 = +119.661*rs498A +409.265; # n=46; Rsq=0.4779; p=1.046e-07; 仅限欧洲

    然而,东亚人有其独特的智商单核苷酸多态性,例如 rs671_A,这会导致对酒精的厌恶,从而减少被酒精破坏的脑细胞连接(频率:EUR 0%,AFR 0%,EAS 17.4%)

    PISA3 = +479.688*rs671A +408.127; # n=12; Rsq=0.9398; p=1.998e-07; 仅限东亚

    有趣的是,德系也有与东亚人相当相似的酒精厌恶基因突变 ALDH2*2 (EUR 2.9%, EAS 69.7% Ashkenazi ?)。

    https://www.ncbi.nlm.nih.gov/pubmed/12153842

  70. Jorge Videla [又名“伊恩史密斯”] 说:

    像 UKBioBank 这样的数据集只是本地的,本地范围还不够……

    嘘。 没有心理学家明白这一点。

    伤心!

  71. Jorge Videla [又名“伊恩史密斯(华大志愿者)”] 说:

    如果受试者的数量等于 SNP 的数量,则几乎总是存在精确的解决方案。 也就是说,表型由基因型以 100% 的准确度“预测”。 简单回答:随机矩阵可逆的概率是多少?
    http://blogs.sas.com/content/iml/2011/09/28/what-is-the-chance-that-a-random-matrix-is-singular.html

    1 万个人 + 1 万个 SNP 意味着 h^2 = 1。

    结果是100%毫无意义。

    伤心!

  72. Jorge Videla [又名“伊恩史密斯(华大志愿者)”] 说:

    有 10 万个 SNP。 这意味着教授不断增加的数字将不得不接近 100m。 这些人将不得不分散在世界各地,否则结果只会是局部的。

    10m x 10m 的研究获得了所有的点击量,但它们并不是真正的点击量。 因此,当 1m 没有时,10m 将获得所有点击的想法是荒谬的。

    如果要找到任何 SNP,您将获得的结果是将拟合的准确性提高到 10 万受试者,之后估计的拟合将下降。 随着受试者数量增加到超过 10m,它下降的渐近线是使用线性模型的“真实”遗传力。

    如果一个人使用的 SNP 少得多,那么需要的受试者就会少得多。 但随后渐近线会低得多,并且必须推断考虑所有 SNP 的情况。

  73. Factorize 说:

    utu,我对这篇文章的理解更多。

    我担心“选择合适的 λ 服从……”(第 4 页的底部)。 什么是合适的 lambda 选择? 发生在我身上,因为 s 约为 10,000,我们可以将 lambda 设置为将除 10,000 之外的所有 beta 值推为 0 的值。看看这个 lambda 值周围的残差发生了什么会很有趣。

    x 的完全恢复确实需要在图 1B 中的圆圈处(图 1500B 中 n=2 处的蓝点)。 获得所有这些用于 IQ 的 SNP 可能并不像许多人想象的那么困难,尽管可能需要一些时间和更大的样本才能发现 beta(NE 在图 2C 中逐渐下降)。

    在图 2D 的条件下,50% 的 SNP 在 n=1700 处是真正的命中。 在图 2C 中,在 n=1700 时,NE=0.92。 这将对应于 (1, 0.21) 图 0.07B 中的一个点,该点位于红色区域。 这有点令人惊讶。 即使 NE 接近最大,报告的 SNP 中几乎有一半是真阳性(文章不清楚 SNP 的实际数量是多少,它只报告了真阳性的部分)。 GWAS 研究仅报告那些具有统计学意义的 SNP,许多未报告的 SNP 可能是真阳性。

    • 回复: @utu
  74. utu 说:
    @Factorize

    我对这篇文章有了更多的理解。

    我希望我能说同样的话。 我查看了 Hsu (Vattikuti) 的论文,我没有发现它特别有用。 相变概念取自

    Donoho, DL, Stodden, V.:当变量数超过观测数时模型选择的崩溃点。 在:神经网络国际联合会议,加拿大温哥华,第 1916-1921 页(2006 年)

    并且如图 1(Hsu)所示,它对于有噪声的情况(图 1B)不是很有用。 曲线一侧的解决方案并不比另一侧好多少。 在无噪声情况下,图 1A 和图 1C(蓝色曲线)您可以清楚地看到过渡。 它清晰且定义明确。 但是如果有噪声图 1B 和图 1C 中的红色曲线,您可以在非常窄的范围内获得解决方案并且距离理论相变曲线非常远,当您超出此范围时,您不会得到解决方案(NE≈ 1)。 当您知道解决方案时,这些是模拟,因此您可以计算检索到的解决方案的误差,但在实际情况下,您不知道相变在哪里以及 NE 值是多少。 唯一确认您得到的不是误报的方法是通过对一组单独数据的验证程序。 产生拟合的数据不能告诉你拟合是否有效!

    什么是合适的 lambda 选择?

    他们不知道。 每个 lambda 产生不同的解决方案。 您应该选择 L1 值最低的还是残差最小的? 或者您采用所有解决方案并通过验证程序运行它们,看看哪一个能够幸存下来? 具有最低 L1 或 L0 的那个可能不是那个。

    即使 NE 接近最大,报告的 SNP 中几乎有一半是真阳性

    但是,如果您无法分辨哪些是哪些,则它不是很有用。

    底线是有误报。 这是因为系统未确定。 y=Ax 有无限数量的解决方案,这意味着即使遗传率为零,您也可能找到一些解决方案。 通过添加约束 min||x|| 问题变得独特。 您将得到最小化 ||y-Ax|| 的解 x。 您可以确定解决方案不是虚假的唯一方法,您必须在单独的数据集 y' 上验证它并检查是否 ||y'-Ax|| 也足够小。

    在我看来,他们不会从头开始使用 Lasso+L1(或 Lo)方法。 他们将使用一些关于被确定为潜在嫌疑人的 SNP 的先验信息,并使用其他方法,例如查看 y 和矩阵 A 的列之间的所有相关性。

    在我看来,Hsu 的论文有些夸张,可能给人一种分析数据的最终方法已经找到的印象。 到目前为止,他 2014 年的论文被引用了 21 次(来自 Google Scholar)。 本文是否会对缩小遗传力缺失差距产生重大影响?

  75. Factorize 说:

    utu,是的,边界非常多孔。
    如果一个人在高速公路上,与其说是边界,不如说是薄雾。

    我相信图 1C 是 delta= 0.5 的切片。 我真的很想有同样的切片显示
    非零总数中真正非零的百分比。 通过查看图 1A 和 1B,显示了 NE; 不清楚的是有多少和多少比例的非零正在被恢复。

    我继续印象深刻的是,报告的 SNP 中有一半在 (0.25, 0.075) 处是真正的非零值。 在图 1C 中,NE=1 附近红色方块左侧的两个红点大致等于 rho=0.075。 如果您沿着这个 y 值向左移动到 x=0.25,那么报告的 SNP 将有一半是正确的。 这令人印象深刻! NE接近1! 从某种意义上说,它确实是一个边界:当你移动到边界之下时,即使有噪音,你至少也在积累真正的 SNP。

    对我来说,图 2a 和 2C 更生动地说明了边界的性质。

    是的,不知道哪一半是信号,哪一半是噪声,尽管这仍然是一个值得发表的结果。 我们正处于数据科学时代。 在这个数字时代,人们不需要过度节俭比特和字节。 我们应该有千兆字节、太字节或艾字节的文章,而不是千字节或兆字节的文章! 我们不再生活在一个数字贫困的时代。 实际上提供数据点以便可以检查和重新编译(如斯皮尔曼在 1904 年所做的那样)是科学过程和方法的重要组成部分。 科学文献需要更多地成为对话,而不是最终决定。

    我认为即使有噪音,科学界也应该对数据共享更加开放。 令人惊讶的是,人们在给定与噪声混合的一部分信号时如何提取信号。 部分问题是研究界只能从他们可用的技术和数据集中提取那部分信号,而基层社区可以访问信号的另一部分,可以用来去除更多的信号。噪音。 允许这样的反馈过程可以极大地帮助扩大成功。

    多年来,我们收到了 GWAS 报告,研究人员会对此表示失望。
    他们没有发现任何东西,但他们会用更大的样本再试一次。 了解
    稀疏边界的性质使 GWAS 迄今为止未能成功的原因更加清晰。 这些研究人员已经在荒野中迷失了大约 10 年。 通过目前的研究,他们现在有一个指南针指向正确的方向。 知道一个人正在取得微不足道的进步是一种强大的动力。

    诚然,当有很多噪音时,它可能不会有压倒性的帮助,因为有 0.5,尽管至少它们是一个标题。 这种知识还可以帮助发现疾病/特征
    是特别容易实现的目标。

    考虑自闭症。 自闭症的遗传率相当高,约为 0.8。 GWAS 下面使用 15,000 个样本大小,s=~ 5,000-10,000。 人们会期望自闭症的 NE 过渡边界位于图 A 和图 B 的中间。如果 s 为 5,000,则 rho= ~0.35,将 n 加倍会使 rho 接近边界,并且可能不需要更多击中蓝色的硬过渡边界。

    对于频谱上的人来说,这将是一个非常积极的消息。 下面的研究人员没有这种洞察力。 据他们所知,答案可能在数百万英里之外:事实并非如此。 他们仍然相信自己是在旷野,此时他们距离边界比较近。 随着自闭症(而不是智商和身高)增加数以万计的样本量应该会导致一个稳固的边界。 智商和身高需要接近 1 万的样本量。 在图 2C 中,可能需要增加样本量,直到您几乎到达 x 轴以获得良好的 beta。 随着样本量的增加,将有一种渐近方法。 将样本量从 5,000 增加到 10,000 可能会使 rho 从 0.02 降低到 0.01; 那么可能需要另一个。

    https://www.ncbi.nlm.nih.gov/pubmed/28540026

    我发现 lambda 的选择非常有趣的是,在已知 s 的情况下,您可以设置 lambda 以便您准确地收到 s 非零 beta。 例如,如果您知道 s=10,493,那么您可以精确校准 lambda,直到您有 10,493 个非零值。 显然 s 不知道 5 个有效数字,尽管它被认为大约是 10,000,因此您至少可以从一开始就进入正确的球场。 Beta 版可能需要一些时间才能确定。

    该论文确实谈到了进行顺序分析。 我的想法是,他们可以继续使用贝叶斯算法进行测试。 人们认为一半是负数并且是正态分布的。 也许使用这些信息来安排测试版会很有用。

    infoproc 报告说,一篇使用过渡边界方法的高度文章现在正在酝酿中。 我,一方面,是一个迫不及待地打开他的圣诞礼物的孩子。 这太令人兴奋了!

  76. Factorize 说:

    res,你是如何在你的帖子中嵌入这个数字的。 那很整洁。
    有一个嵌入的 url,我也觉得很有趣。

    • 回复: @res
  77. Factorize 说:

    大家圣诞快乐!!!!
    或者对于那些不那么倾向于的人,节日快乐!

    这太棒了!
    身高GWAS公布。
    那是一个快速的出版转折。
    biorxiv通常那么快吗?

    我们现在都可以看到 Lasso 可以做什么。

    http://www.biorxiv.org/content/early/2017/09/18/190124.full.pdf+html

    • 回复: @res
    , @James Thompson
    , @utu
    , @utu
  78. res 说:
    @Factorize

    转载自 https://www.unz.com/isteve/dr-donna-zuckerberg-on-how-she-is-a-victim-and-deserves-more-microaffirmations/#comment-2010243

    我不知道 Ron 是否写了关于这里确切支持的内容的描述,但这是我的理解。 如果还没有一个常见问题解答,这将是一个很好的主题。

    图片是最简单的。 只需包含指向图像本身的直接链接。 确保您没有链接到某种图像浏览器,并且您的链接末尾没有多余的标签(即链接应该以 .jpg、.png 等结尾)。 我认为链接可能需要在单独的行上。

    然后是特定站点的特殊功能。 我认为这些包括 Youtube、Twitter 和 Imgur,但不知道是否还有更多。 在这种情况下,我认为您只是链接到该站点上的一个页面,但可能存在细微差别。

    最好的建议是看一个例子。 在这种情况下,将鼠标悬停在评论中的 jim jones 链接上,以查看实际的评论文本是什么。

    PS我认为链接需要以http或https开头。

  79. res 说:
    @Factorize

    谢谢! 这太令人兴奋了! 他们的高度预测器使用约 40k SNP 捕获约 20% 的方差。

    请注意,使用相同的数据,教育程度并未显示出任何阶段变化的迹象。

    图 4 是保留样本的实际高度与预测高度的散点图。

    我没有看到这里应用系统生物学专业知识的迹象(例如,参见早期 IQ 元研究中的组织类型分析)。 希望系统生物学家可以看看他们的 SNP 列表。

    现在更仔细地阅读这篇论文。

    PS utu,注意使用样本外验证。

  80. @Factorize

    一直在等这个。 r= .65 这是相当不错的。 我们可能会有所进展。

  81. utu 说:
    @Factorize

    我刚读过; 它看起来非常好。 有趣的是,他们如何使用集合外的验证样本来获得相关性,然后继续降低 lambda,从而推动非零 SNP 的数量增加。

    他们预先筛选了 SNP(基于标准单标记回归)并将他们的集合减少到低得多的数量(p = 50k 和 100k),这是我在上面的评论 #79 中所预期的:

    在我看来,他们不会从头开始使用 Lasso+L1(或 Lo)方法。 他们将使用一些关于被确定为潜在嫌疑人的 SNP 的先验信息,并使用其他方法,例如查看 y 和矩阵 A 的列之间的所有相关性。

    我不明白样本量的估计:n≈30s,其中 30 来自早期论文中的模拟。

    对于遗传力 h2 = 0.5 和 p ~ 1E06 SNP,C log p 的值约为 30。例如,由 s = 10k 基因座控制的性状需要 n ~ 300k 个体的样本量来确定(线性)遗传结构。

    但现在他们通过预筛选将 p 降低到 100k。 所以 n 的估计值应该小一些。

  82. res 说:

    另请参阅史蒂夫的最新博客文章: http://infoproc.blogspot.com/2017/09/accurate-genomic-prediction-of-human.html
    宣布预印本。

    他在那里包括了我提到的散点图。

    PS 这是原始的(我认为)GCTA 论文,它估计 45% 作为 SNP 解释的表型高度变异量: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3014363/
    我认为当前的 LASSO 论文也可以作为 GCTA 估计的很好的确认证据(我相信 GCTA 一直存在争议)。

    GCTA 维基百科页面很有用: https://en.wikipedia.org/wiki/Genome-wide_complex_trait_analysis
    例如,它包括对各种特征的 GCTA 估计列表。

    有谁知道目前最好的 GCTA 估计高度方差的完全分解(例如非 SNP 遗传贡献)? 我似乎记得在我的旅行中看到过类似的东西(我查看了 Infoproc 但没有找到它)。

    这篇 2014 年的高度论文在 Wikipedia 上被列为 GCTA 的 GWAS 确认(解释了 29% 的方差): http://neurogenetics.qimrberghofer.edu.au/papers/Wood2014NatGenet.pdf
    并包括有趣的生物信息(正是我希望看到的新论文所做的事情)。 但我认为目前的论文是更好的确认恕我直言。 值得注意的是,较早的论文通过放宽 SNP p 值阈值取得了最好的结果。

  83. utu 说:
    @Factorize

    本文是否夸大了 Lasso+L1? 由于预筛选的 SNP 数量从 p=645k 减少到 p=50k 或 p=100k,而在放置几组 453k 作为验证样本后,训练样本为 n=5k。 由于 n>p,问题不再是不确定的。 不再需要非线性方法 Lasso+L1。 有人会认为,由于 n>p,对 p 个变量进行常规线性多元回归就足以解决 y=Ax。 然后使用验证样本,将开始削减具有最低 beta 的 SNP,直到验证集上的相关性开始下降,即开始变低。 将获得类似于图 1 的一种形式的图,不同之处在于它将从右到左构造,即从大量命中到低数量。 这种方法将比 Lasso 方法快得多。

    如果作者展示了最终在解决方案中的非零 SNP 如何在 100k 集中进行排名,我们就会知道预筛选的重要性。

    验证集大小? 验证样本不应该大于 5k 吗? 图 1 中的曲线在“高原”区域非常平滑且单调。 当它到达“过度拟合”区域时,它不应该是单调的吗? 他们如何决定 s=20k 而不是图 35 中的 1k? 在什么时候,导致相关性增加的额外 SNP 不再被认为是激活的?

    身高和骨密度的最佳预测因子中激活的 SNP 数量大约为 20k。 将使用的候选 SNP 数量从 p = 50k 增加到 p = 100k 在一定程度上增加了预测因子的最大相关性,但并未显着改变激活 SNP 的数量。

    50k SNP 是 100k SNP 的顶部(就相关性而言)样本吗? 我想知道如果使用两个不重叠的 50k 随机选择的 100k SNP 子集会发生什么? 每个的最大相关性是多少?

    验证是否证明了因果关系? 我们怎么知道在 p=645k 中没有其他显着不同的 SNP 集在验证集上产生类似的高相关性? 如果我们能找到一个,那么哪个解决方案是导致问题的解决方案? 两个都?

    • 回复: @res
  84. Jorge Videla [又名“ jorge videla(BGI志愿者)”] 说:

    所有这些都取决于具有显着效果的 SNP 稀疏的假设,考虑到有 10m SNP,非常稀疏。 为什么会这样? 并且它还假设那些影响不显着的 SNP 的总影响本身是不显着的。 为什么会这样?

    • 回复: @res
  85. res 说:
    @utu

    我很好奇,乌图。 如果上帝下来告诉我们身高的完整遗传结构,你会满意吗? 或者你还会继续喷 FUD 吗?

    我知道保持谨慎并提出适当的问题是件好事,但你真的需要表现得如此不屑一顾吗?

    Steve Hsu 是一位严肃的科学家,拥有一门学科(物理学)的背景,其文化的历史比生物学更严格地证明了这一点。 研究人员可能会犯某种无意的错误(这就是验证和复制研究的目的),但我认为您至少需要给这些结果一个真实的机会。 尤其是应该避免轻视评论(无论多么含糊),因为在不久的将来可能会提供进一步的证据。

    • 回复: @utu
  86. Jorge Videla [又名“ jorge videla(BGI志愿者)”] 说:

    相变的观察是否证明了这种稀疏性? 我的猜测是这种技术不会恢复大部分缺失的遗传力。 教授的最新身高声称可以预测 36% 的方差。

    我们之前讨论过的一个复杂性是,国际汇总的智力样本可能会通过不同的测试进行测量。 这一次,通用智力理论在这里为我们提供了帮助,因为可以从广泛的测试程序中提取可比较的 g,将所有受试者置于相同的 g 尺度上。 另一个复杂性是,对于许多样本,没有心理测试分数可用,但更常见的是学业测试。 学业成绩很重要,但它与智力并不完全相关。

    1. g 取决于人口和电池。 这是一个统计数据而不是一件事。

    2. 从心理测量角度来看,一系列学术测试和智商测试之间的差异纯粹是名义上的。 这两个相关以及 soi-disant 智商测试相互关联。

    • 回复: @utu
  87. res 说:
    @Jorge Videla

    因为发现的 SNP 几乎解释了 GCTA 预测为由 SNP 引起的所有方差。 还有工作要做。 我们只解释了大约 40% 的方差,而身高比这更容易遗传。 非线性效应? 其他遗传特征,如 CNV(拷贝数变异)?

  88. utu 说:
    @res

    所以你没有看到这个应用程序中的 Lasso(因为 SNP 的预选)可能被夸大了? 你是说严肃的科学家不喜欢吹自己的号角吗? 你是说即使是这样,我们也不应该谈论它,因为,好吧,因为为什么? 你是说你可能有太多的阿谀奉承和谄媚的基因?

    • 回复: @res
  89. res 说:
    @utu

    你是说你可能有太多的阿谀奉承和谄媚的基因?

    我认为您指的是以下能力:
    – 识别和尊重能力。
    – 欣赏人们做的事情让我受益(比如汤普森博士的博客;或者优秀的运动队友、队长或教练)。

    不要将尊重和欣赏与“阿谀奉承”混为一谈。

    如果你在现实生活中认识我,你就会知道,当排名没有能力或对世界的积极影响时,我特别不擅长“阿谀奉承”。 我本以为这会在我对一些碰巧认为自己很棒但似乎无法将其转化为良好的建设性评论的人的评论中得到体现(至少具有不错的信噪比)。 但我知道什么。

    • 回复: @utu
  90. utu 说:
    @Jorge Videla

    1. g 取决于人口和电池。 这是一个统计数据而不是一件事。

    g-cultist 的一些论点取决于 g 是一个事物的假设(具体化)。 但我们所知道的是,使用相同的 FA 程序从不同的电池测试中获得的 g 彼此相关,但它们之间没有 1-1 映射。 同一个人在不同的测试组中具有不同的 g。 实际上,g 的尺度必须相互调整(通过回归)才能比较它们。 具体化部分相信这两个不同的 g 是某个真实和真实 g 的近似值,这是一个事物。 此外,可以有意构建不同的测试组,以使 g 彼此之间的相关性很小。

  91. Jorge Videla [又名“ jorge videla(BGI志愿者)”] 说:

    好,好,好……

    教授的预印本显示了两件事。

    1.身高比智商更容易遗传,或者身高比智商少很多。 这是一个或另一个,或两者兼而有之。 我不明白为什么身高差异的遗传原因应该比智商更具附加性。

    2. 在样本外的 UKBB 数据集上,身高的渐近遗传率为 0.4。 在美国样本外,同样只有 0.29。 这里的遗传力是来自常见 SNP 的加性遗传力。

    1. 预测 40% 的身高变异的同一数据集只能预测 9% 的受教育程度变异。 但也许这是变量“教育程度”的问题。

    2.说明遗传力的局部估计可能在数值上一致,但由于不同的遗传原因,反应规范。 因此,必须跨人群和国家估计“真实”遗传力。

    • 回复: @res
    , @utu
  92. Jorge Videla [又名“ jorge videla(BGI志愿者)”] 说:

    但机器学习可能会让先天与后天的辩论永远搁置。 但只在大自然的一边。 如果机器学习无法找到缺失的遗传力,遗传学家只会声称他们需要更多数据或更好的算法。

    我的预感是“真正的”遗传力,基因对个人等级的环境独立影响 在他的人口中,也就是没有规范交叉,将被认为是显着的,但远低于双胞胎研究和 GCTA 发现的。 那是, 统计学 意义重大,但 几乎 微不足道,尤其是对个人而言。

  93. res 说:
    @Jorge Videla

    身高比智商更容易遗传

    众所周知。

    身高比智商低很多

    还不知道。 尽管可能确定的约 20k SNP 表明 IQ 比估计的(约 10k)略少稀疏。

    预测 40% 的身高差异的同一数据集只能预测 9% 的受教育程度差异。 但也许这是变量“教育程度”的问题。

    有点儿。 较低的高度测量误差意味着与 EA 相比,高度样本较小时会发生相变。 以下是该论文对 EA 的描述:“教育程度的相应结果并未表明任何接近极限值的方法。 使用样本中的所有数据,我们获得了 ∼ 0.3 的最大相关性,激活了大约 10k 个 SNP。 据推测,需要更多或更高质量的数据来捕获该性状的大部分 SNP 遗传力。” 因此,EA 的阶段性变化尚未到来,但已确定的 10k SNP 表明它离我们不远了。

    说明遗传力的局部估计可能在数值上一致,但由于不同的遗传原因,反应规范。 因此,必须跨人群和国家估计“真实”遗传力。

    我认为这里最相关的遗传力衡量标准是适用于研究人群的衡量标准。 目前,这些研究是在人群中进行的,而不是在人群之间进行。

  94. Factorize 说:

    不是看起来我们应该迁移到专门介绍这个新发现的新博客:留在原地可能会更有趣。

    在 Delta 上重温一个是明智的。 上述引用论文的图 1A 和 1B 似乎为 rho 和 Delta 提供了一个在 1 处停止的范围,尽管如当前论文所示,Delta 可以大于 1(在当前实例中为 5 或 10)。 超过 1 的 Delta 意味着您拥有的人多于基因型。 正如 utu 所指出的,当 Delta 超过 1 时,系统不再处于确定状态。 在图 1B 上向右移动是一个明智的策略。 当您在 x 轴上移动超过 9 时,色谱会向上尖峰。 如果将相同的理论应用于将 Delta 增加到 1 以上,如下所示,那么在 rho=s/n=20,000/500,000=0.04 和 Delta = 5 或 10 时,不难想象您将处于漂亮的深蓝色地区。 通过之前公开的相变理论应该意味着您已经捕获了所有 SNP,并且 beta 的误差应该很低。

    我很失望他们没有使用与之前使用数字(例如 1,2 等)相同的格式来展示他们的结果。 我不完全确定这是否可以用真实数据而不是模拟数据来完成,但如果可能的话,这将是非常有说服力的证据。

    Jorge 让我开始考虑减少 p。 那意味着什么?
    丢弃 SNP 会丢弃一些信号。 令人惊讶的是,他们在文章中估算了多达 92 万个,然后丢弃了超过 91 万个 SNP。这将是与许多其他特征一起使用的有用技巧。

    utu,他们是否会保留 Lasso 以利用将术语强制为零的简洁特性? 如上一篇文章的图 1 所示,跨越 Delta 1 并不会立即导致解决方案。 Lasso 彻底删除 70,000 0 个 beta 的能力非常有用。 我不知道是否可以使用其他回归来实现这一理想结果。

    • 回复: @utu
  95. Factorize 说:

    res,感谢您就如何发布数字和其他媒体做出回应。

    大多数论坛和博客都允许从计算机上传文件,这对这个博客也很有帮助。(不是所有的数字等。可能想要发布的人可能有一个标识符。)

  96. utu 说:
    @res

    识别和尊重能力。 – 如果不给自己批判性思维的空间,您如何识别?

    欣赏人们做我受益的事情 – 基本上你一直在寻找确认(偏见)。

    你的“科学方法”归结为以自我为中心的实用主义。 出于这个原因,您不会让自己看到这个应用程序中的 Lasso(因为 SNP 的预选)可能被夸大了? 寻找真相有时是痛苦的,需要牺牲。 像徒劳的手淫一样取悦自己并不容易。

  97. utu 说:
    @Factorize

    utu,他们是否会保留 Lasso 以利用将术语强制为零的简洁特性?

    我不认为它会像你想象的那样发生。 必须有一个阈值,一旦 beta 低于它,该术语将设置为零。

  98. Factorize 说:

    他们找到了 10k EA? 嗯?

    令人惊讶的是,一年前他们接近于零,现在我们移动到 10k,甚至几乎没有被承认。 这个结果为我们一直在等待的 1 万 GWAS 抢了风头; 该组显示了大约 1000 个 SNP。 如果我是他们,我想我可能会从管道中拉出文章,然后用 CS 重新计算数字。 使用 Lasso 似乎有可能达到一百万? 如果尚未按照当前博客中的建议实现这一点,他们可以报告最多常见 SNP 的限制。

    我非常希望看到 EA 的图 1B 扩展到 Delta=5。 如果频谱没有向上飙升,当前的研究怎么可能达到 Delta=5。 一旦你进入深蓝色的海洋颜色,你应该快速获得所有带有小 beta 错误的 SNP。 其他研究发现,EA 在测试的性状中具有最多的非零 SNP,因此 SNP 的真实数量可能比 10k 高几倍。 我希望未来的一些研究能够根据相界、rhos、Delta、非零 SNP 的中值 p 值来报告结果……

    我下载了 R 并安装了一个执行 Lasso 的包。 imagic 有一个带有参数 x、beta 等的函数。我不确定的是 T? 什么是T?

    现在,人们对 CS 和相界的认识和兴趣会越来越高,我期待一些额外的软件包可以产生类似于图 1 的结果。

    • 回复: @res
  99. utu 说:
    @Jorge Videla

    说明遗传力的局部估计可能在数值上一致,但由于不同的遗传原因,反应规范。 因此,必须跨人群和国家估计“真实”遗传力。

    (1) 遗传力与环境决定论一样是遗传决定论的衡量标准。

    (2) 遗传力不是一个普遍的常数。 可以想象遗传率会显着降低或提高的社会。 让国家来决定什么对你的每个孩子都有好处。 谁是农民,谁是贵族。

    (3) 双胞胎研究的遗传力可能是整个样本遗传力的实际偏差快照。

    (4) 遗传力的定义假设方差可以分解为:V(T)=V(G)+V(E),其中T、G和E分别是性状、基因、环境。 这种假设可能不适用于更大的域。

    (5) 定义为性状 T 与其预测函数 f(G) 之间相关性平方的遗传遗传力是合理的,因为它衡量了残差 T-f(G) 的方差。 解释与无法解释的差异是一个合理的概念。 比双胞胎研究中对 Falconer 公式的所有假设要重要得多。 所以我选择遗传遗传而不是双胞胎研究遗传。 换句话说,缺失的遗传力差距位于双胞胎研究的高端,而不是基因研究的低端。

    (6) Hsu 结果用 40k SNP 解释了 20% 的方差。 其他 SNP 处于收益递减曲线上(参见图 20 中 s=35k 和 s=1k 之间的 SNP)。 因此,在预筛选的 p=100k SNP 中,找不到超过 40% 的解释。 是否应该在预筛选拒绝的 SNP 中寻找其他 SNP? 还是应该尝试非线性模型?

    我希望 Hsu 和他的合作研究人员能够解决非线性问题。 他的 2015 年论文

    使用压缩感知确定非线性遗传结构
    https://gigascience.biomedcentral.com/articles/10.1186/s13742-015-0081-6

    可能表明他正在为此做准备。

    也许可以使用线性模型识别的 p=20k 非零 SNP 对残差进行非线性模型的第一次近似。 这将大大减少变量的数量。

    • 回复: @res
  100. res 说:
    @Factorize

    值得注意的是,这里使用的 UKBB 数据是(IIRC)这里讨论的最近元研究中最大的样本。

    你看过R中的帮助吗? 它往往很好(虽然因包装而异)。 尝试 ? 看看这是否能告诉你你想要什么。

  101. res 说:
    @utu

    我希望 Hsu 和他的合作研究人员能够解决非线性问题。 他的 2015 年论文

    使用压缩感知确定非线性遗传结构

    https://gigascience.biomedcentral.com/articles/10.1186/s13742-015-0081-6

    可能表明他正在为此做准备。

    我想你是对的。 问题是需要什么样的样本量。 我还没有看到对此的估计。 一个问题是你所说的非线性。 二次项使可能变量的数量加倍,但交互项使变量的数量平方。 当您谈论 20k SNP 时,情况就大不相同了。

    • 回复: @utu
  102. utu 说:
    @res

    问题是需要什么样的样本量。

    在他的论文中说: 通常,n∗∼100 × 稀疏度,其中稀疏度 s 是步骤 1 识别的基因座数 在第 11 页。所以他们使用 100 倍数,而不是线性情况下的 30 倍。

    但是,如果他们使用在线性部分中发现的 SNP 将 SNP 的数量减少到 p=20k,那么他们在线性论文中开始使用的数量将减少 5 倍。

    • 回复: @res
  103. res 说:
    @utu

    但是我们对二次项和(尤其是)交互项的稀疏性没有合理的估计。

    我认为可以安全地猜测它们甚至比线性项更稀疏,但是如果我们谈论的是 (20k)^2 = 4e8 个可能的项,我认为这并不能说明什么。

    您能否包含更长的引用或更直接的引用(例如论文和页面),以便我可以判断您给出的估计是否仅依赖于基因座而不是非线性术语类型? 自从我阅读非线性 CS 论文以来已经有一段时间了。

    • 回复: @utu
  104. utu 说:
    @res

    11页

    https://gigascience.biomedcentral.com/track/pdf/10.1186/s13742-015-0081-6?site=gigascience.biomedcentral.com

    如果样本量大于 n*(这在某种程度上是任意定义的)可用,性能会更好。 通常,n∗∼ 100 × 稀疏度,其中稀疏度 s 是步骤 1 识别的基因座数(即,识别的因果子空间的维数)。 如果我们要更仔细地调整惩罚参数 λ,则较低的 n*/s 值可能就足够了。

    • 回复: @res
  105. Dina 说:

    如果在现实世界中没有使用这种智能,我不明白让公民变得更聪明有什么意义。 根据我的经验,成功的人是最愚蠢和最残忍的。

    • 回复: @middle aged vet . . .
  106. res 说:
    @utu

    谢谢。 我忘记了他们的整体方法(等式 7)是针对基因-基因相互作用的,并且只包括二次项作为 SNP 与自身相互作用的特殊情况。

    我很惊讶所有这些附加条款的性能下降如此之小。 我没有在论文中看到这一点(但很容易错过它,我不彻底)。 您是否知道更详细的讨论(在论文中或其他地方)?

    等式 9 下面的讨论很有帮助,但我仍然觉得我遗漏了一些东西。

    该过程的两步性质(首先找到线性项)很重要,但我看不到其中的含义。

    • 回复: @utu
  107. Factorize 说:

    任何人都知道身高相关性的上限可能是多少?
    r=0.65 令人印象深刻:这还能高多少?
    它们包括非线性,也许这又增加了三分之一,然后可能包括谱系数据。

    我将有兴趣了解可以尝试哪些方法从文章中的预测数据与实际数据中引入异常值。 其中一些离群值离我们很远,一定发生了一些非常不寻常的事情,它们与预期的不同。 我想知道从分析他们的基因型中找出这一点有多容易。

    高度变化的环境输入是什么?

    • 回复: @utu
  108. utu 说:
    @Factorize

    答案:如果基于双胞胎的遗传力有效,则为 0.8 的平方根。

  109. utu 说:
    @res

    我不得不说,Hsu 的论文非常容易理解,而且相当透明,没有晦涩的行话。 也许是因为他是物理学家而不是统计学家。 也许也因为他是一个试图普及他的方法的局外人。 我不能对来自 GWAS 和 GCTA 人群的论文说同样的话。

  110. Factorize 说:

    真的吗? 相关性 = 0.894 ?
    那将是非常令人印象深刻的。

    是否有相关性的物理解释来帮助理解它?
    例如,随着相关性的增加,1 SD 之外的比例将如何变化?
    0.90 相关性 –> 1 SD+ 异常值的比例是多少?

    utu,你已经调用了下一步将是非线性套索。
    在那之后他们会去哪里寻找更多的差异?

    心理测量学界的一些人还期望智商在范围的高端具有相关性。
    非常高兴看到研究如何从这里取得进展。

    我们可以做些什么来让最新的评论出现在列表的顶部而不是底部?

    • 回复: @utu
  111. utu 说:
    @Factorize

    0.90 相关意味着 0.9^2=0.81 是残差方差与数据方差的比值。 这个比率就是遗传力。 双胞胎研究的遗传力不需要相同,因为现有数据可能无法满足推导 Falconer 公式时所做的各种假设。

    我现在不知道他们接下来要做什么。 如果 Hsu 的结果没有发现反对意见,并且如果没有更多的 SNP 可以增加与线性模型的相关性,那么很自然的步骤就是在模型中添加非线性项。 自从 Hsu 两年前写了一篇关于非线性方法的论文后,我想这就是他正在做的事情。 同时,我认为有些人会仔细检查他的结果,并尝试用不同的方法和不同的数据来复制它。

    我怀疑许是想在智商预测上有所突破。 Posthuma 等人有一个 300k 的数据集。 已经用过,所以他可以在这一套上试试他的方法。

  112. Factorize 说:

    另外 2.5% 的变异隐藏在复合杂合子中。
    这些区域作为单个 SNP 是否具有全基因组意义?
    是否会使用非线性 Lasso 拾取 CH?

    PMID: 28921393

  113. res 说:

    感谢您的参考,但为什么不只是链接?
    https://www.ncbi.nlm.nih.gov/pubmed/28921393

    我在任何地方都看不到全文,但摘要看起来很有趣。 既是为了解释这么多的差异,也是为了他们使用为高个子人群提供的样本。

    总之,这六个位点的折叠基因型解释了 2.51% 的高度方差(在调整了性别和年龄后),而传统 GWAS 在同一数据集中识别的 3.23 个位点的 14 个顶部相关 SNP 解释了 14%(5%)。 P < 10 × 8-XNUMX)。

    他们提到复制样本也显示出显着的结果,但没有给出该样本解释的方差。

    基于此:

    分析确定了六个区域(3q23、5q35.1、6p21.31、6p21.33、7q21.2 和 9p24.3),其中多对 SNP 作为 CH 显示全基因组与身高显着相关(P < 1.67 × 10-10)。

    看来他们只关注成对的 SNP 相互作用。 因此,最近论文中的 CS 不会检测到这一点,但上面 utu 提到的非线性 CS 会。

    我很好奇(也有点担心)他们如何管理成对 SNP 相互作用的多重假设校正。

  114. Factorize 说:

    最近的 CS 方法可能基本上发现了身高的所有线性效应 SNP。 有了这个来自 500,000 人样本量的几乎完整的 SNP 列表,GCDH 可能会比上面引用的 GCDH 研究更有效地找到更多的方差。 所使用的 GCDH 样本量很小,他们担心在 GIANT 等较大样本中会涉及到计算负担。 使用诸如 CS Lasso 之类的数据缩减步骤,所需的计算量应该会大大减少。

    认为 SNP 在 CS Lasso 下可能被完全拒绝,但在 GCDH 下可能很重要,这是否有意义?

    很难知道非线性 L1 套索或广义折叠双杂合性 (GCDH) 在线性 L1 套索上哪个更好。 在 GCDH 方法中尤其令人印象深刻的是,即使是适度的样本量也会产生强大的结果。

    这些中的任何一个都可能是与最近的研究相结合的高效方法。 如果您需要做的只是对附近的 SNP 进行成对比较,那么计算负担就会大大减少。 您可能需要进行大约 200,000 次比较。 包含在更大模型中发现的全部 50,000 个左右可能是一个好主意,因为这些 SNP 在复合杂合子状态下可能具有更大的影响。

    • 回复: @res
  115. res 说:
    @Factorize

    认为 SNP 在 CS Lasso 下可能被完全拒绝,但在 GCDH 下可能很重要,这是否有意义?

    我不太了解 GCDH 方法,无法了解它们的非/检测条件,但来自非线性 CS 论文(由上面的 utu 链接):

    非线性效应何时可以从线性回归中隐藏因果位点(步骤 1)? 在这种情况下,GWAS 不会使用线性方法发现有问题的基因座。

    更多关于第 6 页的讨论(或搜索隐藏)。

    回到你身边:

    在 GCDH 方法中尤其令人印象深刻的是,即使是适度的样本量也会产生强大的结果。

    同意。 我想查看全文以了解更多关于 GCDH 的信息并更多地评估结果(例如,查看样本外解释的百分比方差)。 鉴于样本量,我对结果的强度有些担心。 与 utu 的信念相反,我并不完全轻信。

  116. Jorge Videla [又名“ jorge videla(BGI志愿者)”] 说:

    是的。 res和utu,我明白这一切。 可惜没有遗传者这样做。 包括教授博士博士徐博士。

    当我提到“真实的”遗传力时,我的意思是等级相关在所有人群和环境中达到的假设渐近线。 (这不是很清楚。稍后会解释。)如果这个渐近线是 0,那么遗传论者是错误的。 当然,没有人相信白板。 这是终极稻草人。 但渐近线为 0 不需要空白。

    我知道 h 仅仅是 E 在 P(G, E) 表面的平面拟合中的系数。

    线性模型是 P = hG + sqrt(1 – h^2)E。

    如果你们都不知道我在说什么,这是我发现的一篇论文,它解释了它。
    http://www.faculty.biol.ttu.edu/rice/rice08b.pdf

    • 不同意: utu
    • 回复: @utu
  117. Jorge Videla [又名“ jorge videla(BGI志愿者)”] 说:

    这有点“棒球内部”,但是……

    如果将机器学习应用于具有全球代表性的样本,其中表型为 人口内 排名,afaik 由于基因的人口差异,机器可能仍会进行局部估计。

    教授最近的论文实际上声称,如果美国样本是数据的一部分,影响大小会略有不同,因此 UKBB 和美国样本与预测表型的相关性为 0.65。

    也许 0.65 对 0.54 并不显着。 身份证。 但是美国和 blighty 比两个随机选择的社会更接近。

    我希望上述内容都无法理解,所以这里有一个同样难以理解的释义:

    当 P(G) 函数是通过机器学习在一个“区域”中估计的,并且相同的函数应用于另一个区域并且拟合较差时,这支持了反应批评的规范。

    但是声称更广泛的数据集不会有这个问题忽略了......

    更广泛的契合可能仍然是本地的,可能只是伪装成一个的两个契合。

  118. res 说:

    教授最近的论文实际上声称,如果美国样本是数据的一部分,影响大小会略有不同,因此 UKBB 和美国样本与预测表型的相关性为 0.65。

    也许 0.65 对 0.54 并不显着。 身份证。 但是美国和 blighty 比两个随机选择的社会更接近。

    我没有看到您第一段中的主张。 你能指点我吗?
    我假设您在 A.5 节中谈论这一点?

    在 UKBB 中进行测试时,使用未估算数据集的结果达到了 ~0.61 的相关性。 在选择与 ARIC 相同的 SNP 后,在 UKBB 中进行测试时,相关性下降到 ~0.58,ARIC 参与者的相关性达到 ~0.54。 ARIC 结果如图 6 所示。 (XNUMX)。

    如果我没看错的话,有几件事会导致 0.65 和 0.54 的差异。 前三个都在UKBB。

    完整的估算数据集具有 r=~0.65
    未估算的数据集具有 r=~0.61
    仅限于 ARIC 中也存在的 SNP 的未估算数据集的 r=~0.58
    使用相同 SNP 的 ARIC 数据集的 r=~0.54

    所以恕我直言,UKBB 和 ARIC 相关性之间的苹果与苹果之间的比较仅显示约 0.04 的差异。 比~0.11 的更明显结论要好得多。

  119. Jorge Videla [又名“ jorge videla(BGI志愿者)”] 说:

    可以说,n vs n 参数发生在无限空间中。

    但是有一些事实可以永远解决这个争论。

    这些事实现在是可以发现的。

    在我看来,双方都不知道这些事实是什么; 争论无法解决。

    所以你得到的是作为权威的“博学”。 精通行为遗传学文献就是智慧。

    停止!

    问问自己,“哪些事实会永久决定这个问题?”

    并且知道在确定这些事实之前,辩论是……同性恋。

    每个偶数都是两个素数的和吗?

  120. utu 说:
    @Jorge Videla

    这个等式 P = hG + sqrt(1 – h^2)E 可能永远不会正确。 G 和 E 并不是真正相加的。 你写的可能只有象征意义。

    但是,您可以写出 P=f(G)+g(E)+Δ(G,E) 其中 f 和 g 函数的定义方式使得残差函数(其 rms)Δ(G,E) 最小.

    函数 f 和 g 不是唯一的,但在一个常数内是唯一的,如下所示:P=(f(G)+c)+(g(E)-c)+Δ(G,E)。 由于常数 c,对于任何单个主题,您永远无法说出多少 P 归因于 G,多少归因于 E。 此外,您还必须在总和中考虑 Δ(G,E)。

    从 P=f(G)+g(E)+Δ(G,E) 可以尝试定义遗传力。 同样,只要残差函数 Δ(G,E)≠0,就没有唯一的定义。

    如果 Δ(G,E)=0 那么是的,您可以将方差划分为两项,每一项仅取决于一个变量:V_P=V_G+V_E。 这个方程到处都可以找到,因为它不够通用,因此它是错误的。

    但是当 Δ(G,E)≠0 时,你可以写

    (i) V_P=V_G+V_EG
    or
    (ii) V_P=V_GE+V_E

    从第一个方程 (i) 你将得到 h^2=V_G/V_P 的遗传力,从第二个方程得到 h^2=1-V_E/V_P。 这两个遗传力并不相同,因为当 Δ(G,E)≠0 时,V_E+V_G≠V_P。

    这很有趣,并提出了两个遗传力差异有多大的问题。 当您创建基于基因的预测模型时,就像教授一样。 Hsu 你是否通过将 f(G) 拟合到数据来最大化 V_G,因此遗传力尽可能大,但是让我们想象一下我们有能力制作函数 g(E) 的模型并将其拟合到数据中。 然后我们将最大化 V_E,因此遗传力会更小。 换句话说:

    h^2=V_G/V_P ≥h^2=1-V_E/V_P

    因此,如果我们生活在环境比基因更容易量化和解释的宇宙中,那么我们将面临较低的遗传力。 这两种遗传性都不比其他更正确。 这一切都源于定义的模糊性以及 G 和 E 不完全相加的事实。

    我还没有解决这个问题,这两种遗传中的哪一种是由双胞胎研究近似的。

    我希望博主 res 会看看这个,尽管我不确定这些微妙之处是否符合以自我为中心的实用主义者的利益,他们一直在寻找证实他的偏见。

  121. Jorge Videla [又名“ jorge videla(BGI志愿者)”] 说:

    审查是可悲的!

    甚至比心理学还要悲哀。

  122. Jorge Videla [又名“ jorge videla(BGI志愿者)”] 说:

    unz很快就会听到。 伤心!

    • 回复: @Difference maker
  123. Factorize 说:

    utu,我对加性遗传的含义有些不清楚。 据我了解,狭义遗传力包括许多隐性基因座。 Wiki 显示了一个图,其中基因型和表型之间存在线性关系。 加性遗传效应模型基于存在的某个等位基因的数量(0、1 或 2)。 我不清楚为什么杂合子具有非零表型,如维基图所示。 我会猜到杂合子会为零。

    我也不确定为什么基本上所有的加性效应都会以这种隐性方式起作用。 难道这数千个基因座中的一部分不能表现出不完全的优势吗? 加性 SNP 之间可能没有非线性关系吗?

    当前文章是否包含主导效应? 预期 Lasso 技术可以适用于优势位点似乎是合理的。

    如果要在来自不同人群(亚洲、非洲或其他)的另一个大样本上再次运行 CS 方法,那么复制 SNP 是否表明这样的 SNP 是因果关系? 在后续研究中找到相关的 SNP 是否有助于缩小因果变体的搜索空间?

    由于所有这些成千上万的 SNP 出现的影响非常小,研究的下一步可能是找到因果 SNP。 如果人们想使用基因编辑技术来修改表型,则有必要知道需要改变哪些基因座。 既然 SNP 对许多性状的附加成分有贡献,似乎几乎可以完全恢复,那么找到这些基因座会有多困难?

    这篇文章没有提供关于发现的任何 SNP 的任何具体信息。 像这样的文章真的会保持原样而不报告完整的结果吗? 如果这是真的,这将很难理解。 这将意味着科学将如此封闭,以至于即使研究结果也不会完全公开。 这怎么可能是合理的?

    披露可能包括 50,000 个 SNP 的完整列表是合理的,其中至少包含 beta、p 值等(披露与跨越相界等相关的其他信息也可以附加到补充文件中)。 这种披露将允许其他人确认和扩展对科学过程至关重要的当前结果。

    • 回复: @res
    , @utu
  124. res 说:
    @Factorize

    难道这数千个基因座中的一部分不能表现出不完全的优势吗? 加性 SNP 之间可能没有非线性关系吗?

    当前文章是否包含主导效应? 预期 Lasso 技术可以适用于优势位点似乎是合理的。

    我想 utu 也会回复,但这是我的看法。

    可能存在非线性(优势、相互作用/上位性)效应。 加性遗传力告诉我们只有加性(线性)分量可以解释多少方差。 然后在非线性效应和非SNP(例如CNVs)遗传学等成分中存在“无法解释的遗传性”的差距。 一个关键问题是估计这些成分的相对贡献(例如通过遗传力和 GCTA 结果)。 本文的一个重要结果是解释接近总加性方差的 GCTA 估计的加性方差。

    当前文章仅包括线性效应(因此没有优势)。 我们一直在讨论的非线性 CS 方法增加了非线性效应。

    我考虑加性和显性效应的方式是在 y 轴上可视化给定 SNP 的定量表型结果图,x 轴上为 0、1、2。 我假设一个 SNP 只有 2 个相关等位基因(根据种群频率称为主要和次要)。 x 轴是存在的次要等位基因的数量。

    考虑以下情况。

    – 纯粹的加法继承是一条直线。
    – 优势是完整的阶梯函数,如果是部分的则趋于阶梯函数。
    – 杂合子优势最高(中间有一个凸起)。 我认为 1 或 2 通常很接近,使其类似于阶跃函数。

    其含义取决于 SNP 组合的相对频率(更高频率影响方差解释更多)。 在大多数情况下,线性拟合可以很好地解释给定 SNP 解释的大部分方差(特别是如果按 SNP 频率加权时)。 这就是为什么加法(线性)模型比人们预期的更强大的原因。 (线性模型在建模方面往往出奇地有效,通常至少值得尝试。)

    这方面的一个重要方面是,对于低次要等位基因频率(通常称为 MAF),具有 2 个次要等位基因的频率几乎为零(MAF^2)。 这使得几乎整个 SNP 贡献相加,并且只是 0 和 1 个次要等位基因之间的直线。

    PS我希望这有帮助。 用图表会更好(也许网上有这样的文章?)。

    PPS 我发现杂合子的优势令人着迷: https://en.wikipedia.org/wiki/Heterozygote_advantage
    并相信它具有重要意义。

  125. Factorize 说:

    回复,谢谢。 你的解释很有帮助。

    鉴于数据中的所有噪音,基因研究界能够如此准确地确定数字,我感到非常惊讶。 当我第一次遇到诸如遗传性等想法时,我的解释是它们确实不能简化为简单的代数解决方案。 当您考虑在相图中不同点存在多少噪声时,评估并不遥远。 然而,同时使用 Lasso 的全局最大化策略仍然涉及一个优雅而简单的公式,该公式在应用于数据集后会给出高度精确的结果。

    在一次计算中提取所有常见的身高加性遗传力是一项重大成就。

    我非常期待找到所有剩余遗传力和因果 SNP 的时间。

    • 回复: @utu
  126. utu 说:
    @Factorize

    鉴于数据中的所有噪音,基因研究界能够如此准确地确定数字,我感到非常惊讶。

    你怎么知道这些数字应该是什么?

    Lasso 仍然包含一个优雅而简单的公式,该公式在应用于数据集后会给出高度精确的结果。

    你怎么知道的? Lasso 方法没有阻塞或丢失的原因可能只是因为 Hsu 通过过滤 SNP 将它们的数量降低到 p=50k 或 100k 将未定问题 p>>n 转换为 n>p 可以是的问题用标准线性 LSQ 方法处理。 他的 Lasso+L1 方法并没有在硬盒上进行过真正的测试。 他与 y 相关的所有过滤 SNP 并假设 SNP 彼此之间的相关性不大(矩阵 A 接近于 Hsu 在其他地方所写的等距矩阵),然后向模型中添加额外的 SNP 总是会增加相关性,如图 1 所示。

    你很敬畏,res 是他通常的啦啦队长,而我作为一个理性的怀疑论者的工作就是让你们回到现实。

  127. utu 说:
    @Factorize

    你一次问了太多问题,所以我不确定即使知道答案,你的问题背后是否有足够的诚意值得得到答案。 你到处都是。 分散的大脑,轻躁狂? 无论如何,我不知道你问的大部分问题的答案。

  128. Factorize 说:

    utu,谢谢你的意见。

    是的,从本月初开始,我一直在使用肾上腺素,这是事实。 100 SD IQ 人类的概念让我大吃一惊。 没有任何科幻小说能让我为此做好准备。 在我们到达它之前,我们需要想象我们的未来。 超级智能增强的人类可能会在许多人将其视为科幻小说之前成为科学事实。

    甚至没有人对此提出技术异议。 在第一次考虑时,我看不到任何明显的东西会阻止它在未来的某个时间发生。

    这项最新研究进一步放大了我的怀疑感。 10 年来,GWAS 研究一直在稳步推进,但进展缓慢。 我对高遗传性 GWAS 结果的时间表已经达到了数十年的规模。 一次拟合一个 SNP 的整个 GWAS 方法似乎是徒劳的。我的印象是,基本上所有身高的加性遗传力现在都已经找到了。

    为了确定数字评论,这更多的是使用这些作者所做的其他研究作为指导。

    该论文可能保留了该方法的一些细节,但作为附加检查,我可能会重新运行这些数字以查看在某个点设置的 x 是否保持稳定。 这就是理论所说的应该发生的事情。 当您向下移动到然后超出有效边界以完成 x 选择时,应该有一个范围,该集合将是稳定的。 考虑到他们可能达到的 p 值和之前的所有研究,我无法对最近的这项研究提出合理的反驳。

    我承认套索可能更多地被用作一种方便的方法而不是一种必要的方法。 尽管如此,没有不言自明的理由认为套索会产生一个非常错误的答案。

    尽管科学依据似乎很可靠,但可以提出合理的澄清。 他们可能希望尽快将出版物作为预印本,然后他们可能会解决一些细粒度的技术问题。

    我确实问了过多的问题,尽管我这样做更多是为了在桌子上摊开自助餐,而不是让你觉得有义务回答所有问题。 也许其他人可能想要回应他们感兴趣的那些点。

    为了缩小我的问题范围,我会对因果 SNP 问题的任何回答特别感兴趣。 因果是在结束区之前留下的阻碍者之一。 如何使用 Lasso 或其他方法有效地找到这些因果关系。 例如,可以尝试套索另一个大样本以查看可能报告的标记 SNP。 请发表评论!

    确实,我已经跨越了从客观观察者到评论员到啦啦队长再到敬畏者,最后到在线agitproper的界限。 res 和我以及线程上的许多其他人需要一些成人监督:utu,你是成年人之一!

    • 回复: @res
    , @utu
  129. res 说:
    @Factorize

    一次拟合一个 SNP 的整个 GWAS 方法似乎是徒劳的。我的印象是,基本上所有身高的加性遗传力现在都已经找到了。

    我承认套索可能更多地被用作一种方便的方法而不是一种必要的方法。

    你意识到这两个陈述是相当不一致的,对吧? 如果没有压缩传感,我们只会沿着你描述的那条看似徒劳的道路前进。 当我们回顾并判断标准 GWAS 需要多大的样本才能给出如此好的结果时,将会很有趣。 然后我们可以谈谈这项工作让我们迈出了一大步。 对不起,utu,这很令人兴奋。

    有没有人对随着时间的推移身高的 GWAS 结果有很好的了解? Wood 2014 是一件大事(如上链接),解释了约 29% 的方差与约 9,500 个 SNP。 但这是使用降低的阈值,只有 697 个 SNP 在全基因组范围内具有显着意义,解释了约 16% 的方差(表 1,摘要的“五分之一”令人讨厌地误导恕我直言,特别是因为 15.9% 不到六分之一)。

    我很高兴看到 SNP 的时间进展和在全基因组意义下解释的百分比变异。 有谁知道这样的事情?

    res 和我以及线程上的许多其他人需要一些成人监督

    对不起,但我觉得有必要否认这一点。 请只用这样的评论为自己说话。

    重要的是要明白,自从四年前我第一次听到 Steve Hsu 提出这个想法以来,我一直对此感到兴奋(在那之前我就知道压缩感知的名称,并且更早地作为 L1 正则化,但不是在遗传背景下) )。 我认为这项技术的潜在力量是显而易见的 只要理论在现实中成立. 一路走来,我认为像 utu 这样的怀疑者并不缺乏。 很高兴看到取得初步成功(据我们目前所知,验证很重要),并希望他们在未来通过这项技术取得进一步的成功。

    PS 请务必查看史蒂夫最新博文底部的更新: http://infoproc.blogspot.com/2017/09/accurate-genomic-prediction-of-human.html
    史蒂夫解决了这个线程中提出的一些问题。

    • 回复: @res
    , @utu
  130. res 说:
    @res

    一澄清。 CS 预测因子中的约 20k SNP 不一定具有全基因组意义。 从论文中:

    预测变量中激活的 SNP(即那些通过 LASSO 算法分配为非零效应大小的 SNP)可能与表型相关,尽管它们在普通回归分析中可能达不到全基因组的显着性。 虽然这些 SNP 之间可能存在一些假阳性污染,但人们仍然可以推断出该性状的整体遗传结构的特性(例如,MAF 的效应大小分布)。

  131. utu 说:
    @res

    对不起,utu,这很令人兴奋。 ——我不反对。

    你意识到这两个陈述是相当不一致的,对吧? - 我不这么认为。 他的意思是,虽然 Lasso 被使用并带来了进步,但这并不是因为它是 Lasso。 对于减少的 p=50k-100k SNP 集缺乏性感线性 LSQ 回归,同样可以实现。 Lasso 对于未确定的系统至关重要。 这里不是。 在这一点上,对 Lasso 的强调被夸大了。 我想看看当 p>>n 或包含非线性项时它的表现如何。

    沿着你描述的那条看似徒劳的道路前进 – 我不认为这是缺乏数学方法。 GWAS 人尽管有 500 位共同作者的论文产生的点击量却少得多,这肯定还有另一个原因。 我怀疑他们也想得到一些生物学上的解释,这需要时间。 许对生物学不感兴趣,这不是他的领域。 对他(就像对我一样)来说,这只是一个数学问题。 我怀疑 GWAS 的人用不同的数学方法做了与 Hsu 类似的事情(比如我认为 Hsu 借用了 SNP 过滤的边际回归),但他们没有发表。 有相关性对他们来说是不够的。 这可能是一个充满希望的迹象,表明他们不像你的好友 Davide Piffer 那样缺乏坐姿。

    • 回复: @res
  132. utu 说:
    @Factorize

    我会对因果 SNP 问题的任何回答特别感兴趣。 ——这是最终目标。

    最终,因果关系的问题将不得不由生物学家来回答。 Hsu 处理数学问题。 但我确信有一些统计理论和标准可以解决如何排除虚假相关性等不确定性问题,我认为这主要是在验证阶段。 看这里:

    https://en.wikipedia.org/wiki/Cross-validation_(statistics)
    https://en.wikipedia.org/wiki/Test_set

  133. res 说:
    @utu

    对于减少的 p=50k-100k SNP 集缺乏性感线性 LSQ 回归,同样可以实现。

    未经证实。 如果是这样,为什么以前没有这样做过?

    我不认为这是缺乏数学方法。 GWAS 人尽管有 500 位共同作者的论文产生的点击量却少得多,这肯定还有另一个原因。

    你真的认为一个假设的“另一个原因”比盯着我们脸上的原因更有可能吗? 压缩传感产生了影响。

    有相关性对他们来说是不够的。

    你看过 Wood 2014 年的那篇论文吗? 他们连续降低了 SNP 阈值,因此他们可以增加发现的 SNP 并解释变异百分比。 我认为这种方法比 CS 更容易产生误报。

    很大一部分原因是元研究需要归功于整个研究团队在每个包含的数据集上的工作。

    我认为你现在正在抓住稻草。

    我也不认为你理解创建一个预测器的证据是多么令人信服,该预测器在完全不同的样本上给出几乎同样好的结果。 鉴于您在下一条评论中“我认为它主要处于验证阶段”,这很有趣。

    • 回复: @utu
  134. utu 说:
    @res

    我真的对参与 GWAS 的社区没有深入的了解。 他们的工作可能停滞不前。 他们的方法可能适用于搜索对多基因研究不是最佳的单一疾病基因。 但另一方面,Visscher 人使用最复杂的多变量方法,可以处理 1000 个 SNP。 所以我不认为这个社区缺乏手段。 Hsu 的优势可能是缺乏先验知识,因此他可以在不试图解开它的情况下斩断它。 我很高兴他做了他所做的,但我仍然认为他夸大了它。

    我觉得许有点虚伪。 在本文中 https://arxiv.org/pdf/1310.2264.pdf 他对边际回归持批评态度,但在上一篇论文中,他对 SNP 的过滤直接来自边际回归。 一位审稿人(第一篇论文的)要求他与边际回归进行比较,但我认为他没有答应。 虽然 Hsu 声称他们这样做只是为了节省计算机时间,但如果不这样做,套索可能会窒息。 正如我多次指出的那样,LSQ 在 n>p 的集合上也可以做到这一点。

    他们相继降低了SNP阈值……。 我认为这种方法比 CS 更容易产生误报。 ——但这正是徐所做的。 他设定了阈值,因此他从 100 万个左右的 SNP 中获得了 1 万个。 在这 100k 中,至少有 35k (35%) 的 SNP 对预测功能有贡献。 这些不是虚假命中。 这证明了边际回归在这里会起作用。

    说 CS 好像没有它就没有进步也是不诚实的。 请记住,Hsu 在他上一篇论文中所做的只是 CS 之前的 Lasso 方法。 CS只是这种算法的新应用。 旧方法被重新包装。

    我发现这篇 2009 年的论文比较了 Lasso 和边际回归(还没有完全变红):

    https://arxiv.org/pdf/0911.4080.pdf
    重新审视边际回归

    套索已成为高维回归的重要实用工具,也是深入理论研究的对象。 但是尽管有有效的算法, 套索仍然需要计算 在变量数量大大超过数据点数量的回归问题中。 一种更古老的方法,边际回归,很大程度上被套索取代,在这种情况下提供了一个有希望的替代方案。

    一种更古老且计算更简单的变量选择方法是边际回归(也称为相关学习、简单阈值处理 [6] 和确定筛选 [16]),其中结果变量分别在每个协变量上进行回归。 (这就是 Hsu 为过滤 SNP 所做的,utu。 )

    最后,在第 5 节中,我们展示了模拟研究,表明边际回归和 lasso 在一系列参数上的表现相当。

    请注意,本文中没有出现压缩或压缩感知。 尽管如此,作者还是引用了许多 Donoho 论文。 压缩传感只是一个应用领域。

    这里是压缩传感的历史 https://en.wikipedia.org/wiki/Compressed_sensing
    压缩感知依赖于其他几个科学领域历史上使用过的 L1 技术。

    • 回复: @res
  135. @Dina

    迪娜——在什么方面取得成功? 如果那些你称之为最愚蠢和最残忍的人爱他们的配偶,他们知道他们已经把他们的配偶束缚在一个平庸的人身上。 伤心! 如果他们不爱他们的配偶,那就更可悲了。 如果他们喜欢笑——谁不喜欢笑,就像可怜的糊涂的朱迪·加兰过去喜欢说的那样——记得吗? ——他们知道那些天生有趣的人在他们周围是认真的。 伤心! 如果他们不喜欢笑,那会让可怜的朱迪·加兰感到困惑,而且从客观的角度来看也会非常悲伤。 当然他们有钱,但首先是享乐的跑步机,然后是衰老过程,这对成功者的影响比不成功者更大(无论成功是通过工作还是通过欺骗获得的)。 不,我们不是在谈论一个没有道德的故事。

  136. res 说:
    @utu

    说 CS 好像没有它就没有进步也是不诚实的。

    请告诉我我在哪里做的。

    • 回复: @utu
  137. Factorize 说:

    Dina,如果现成且廉价的基因芯片能够准确预测您提到的特征和其他特征,那么这种策略的有效性会如何改变?

  138. utu 说:
    @res

    我很高兴你不反对其他任何事情。

    • 回复: @res
  139. Factorize 说:

    res,当我将您与明显的矛盾混淆时,我很模糊,尽管我遵循 utu 的思路,即数据集被操纵以不被低估,那么为什么要留在 Lasso 上呢?

    我仍然非常期待百万人EA GWAS。 如果 500,000 个 CS 报告的结果比 1 万个传统 GWAS 好得多,那将会很有趣。

    是的,具有高度遗传力时间序列将提供信息。 我不知道报告了 9000 个 SNP 结果。 我一直相信这是第一个高度的 MEGA SNP。

    确实需要添加一两个词,指出数学描述通常存在的极大潜力,可以从根本上改变研究领域的当前发展状态。 应该强调的是,数学具有提取基本真理和改变整个对话的巨大力量。 经过一个多世纪的理论基础发展,我们现在拥有了可以为我们提供答案的理论和数据集。

    如果可以通过使用数学模型直接找到因果 SNP,我们就可以避免可能成为实际应用的重大瓶颈。 然而,试图通过只有一长串 SNP 而没有生物学理解的 CRISPR 来操纵智力的遗传学是有风险的。

  140. res 说:
    @utu

    你很快就可以假设事情。 如果你打算这样做,你可能想提高你的准确性。

    • 回复: @utu
  141. utu 说:
    @res

    承认你同意我在#139 中的评估并不会杀死你。

    • 不同意: res
  142. Factorize 说:

    在 biorxiv 上发表的文章不需要付费。 这会降低此类文章的质量吗? 这些文章是否需要在其他地方被接受才能发表(虚荣发表?)?

    有没有一种方法可以确定这些预印本正在前往哪些期刊?

    为了提供一些复制编辑帮助,这里有一些建议。

    第一段末尾的句子与第二段第一句几乎重复。

    显示基因组中 SNP 位置的图应该以传统方式完成,改变染色体之间的颜色并标记更突出的异常值。 我发现图中使用的碱基对编号系统不必要地令人困惑。 x 轴上的给定碱基对没有明显可识别的含义。

  143. Factorize 说:

    utu,这是对 n 和 p 与欠定系统和 Lasso 之间的关系提出的有效反对意见。 在 has 平面上选择位置的范围比我意识到的要大得多。 显然,在 Delta 上介于 0 和 1 之间并不是很受欢迎。 需要密切接近 x 轴以使解向量收敛于即使是中等高度的遗传性特征(例如身高)。

    我担心即使接近 x 轴的样本大小也可能需要随着 rho 的线性减小而呈几何增长。

    相反,选择大于 1 的 delta(第 5 -10 条)将使 Lasso 能够更好地找到答案,尽管正如您所提到的,不再不确定。

  144. Factorize 说:

    一个人有多高,所有身高升高等位基因的基因分型都是纯合的,而所有身高降低的等位基因都是无效的?

    • 回复: @res
  145. Jorge Videla [又名“ jorge videla(BGI志愿者)”] 说:

    …如图 1 所示。G 矩阵模型考虑了一个 局部线性逼近 到表型景观。 我们可以将其视为与人口均值对应的点与景观相切的平面。 这些模型还用多元正态分布代替了总体内变异的实际分布。 只要景观局部平滑,那么 对于一个非常小的区域,它将很好地近似为一个未弯曲的平面. 此外,如果亲代和后代表型的联合分布接近 多元正态,那么 G 矩阵模型提供了一个很好的短期演化近似值。

    图 1 还说明了为什么 G 矩阵模型对于长期演化的研究价值不大。 随着人口在景观上移动,坡度和局部几何形状发生变化(即遗传结构发生变化),其方式无法从初始线性近似中预测。

    约翰逊博士说:“我这样反驳它!” 并撞到了他的脚趾。

    即使伯克利是对的。

    世袭者如何驳斥秘书处?

  146. Jorge Videla [又名“ jorge videla(BGI志愿者)”] 说:

    世袭者从来没有解决过秘书处的问题……

    或者他们否认这是一个问题。

  147. res 说:
    @Factorize

    一个有趣的问题。 知道在最短、平均和最高的人群之间发生了什么样的等位基因分布变化也会很有趣。

    换句话说,知道预测器对你的例子会说什么会很有趣(正如我认为你的意思)。 我认为没有人相信线性延伸到那么远,但这将是对早期“100 SD 可能”声明的有趣评论。

  148. Factorize 说:

    从文章中的一个图中,在 50 人的样本中存在 2000 厘米的身高范围。

    6 标准差 = 50 厘米
    1 标准差 = 8 厘米

    40 SD 的 100% = 40 SD = 3 m
    15英尺的人类?

    想知道为什么尚未在报道中注意到这一点吗?

  149. res 说:

    说到英国生物银行,本文着眼于使用该数据研究的 118 个非二元性状和 599 个二元性状: https://www.biorxiv.org/content/early/2017/08/16/176834

    引起我注意的两件事:
    - 显着关联的 HLA 区域显着丰富(图 3)。 尤其值得注意的是二元特征。
    – “我们发现命中数与性状的 SNP 遗传力之间存在显着相关性(r=0.91,P<10-46),这表明影响性状的基因座数量可能与性状的遗传力成正比(图 4,补充图 5)。

    关于身高,他们发现:“站立高度是命中次数最多的特征(图 5),有 12,135 个显着相关的变体分布在 4,090 个独立基因座中。”

  150. @Jorge Videla

    我理解它,但它似乎很明显。 是否有一些超出陈述的潜在顿悟。 我认为它仅仅反映了我们不知道的东西

    可以肯定的是,所做的区分很重要

  151. utu 说:

    Hsu 的论文可能存在一个缺陷:

    (1)验证样本太小
    (2) 如果对包含验证样本的总样本进行 SNP 过滤,这本质上是边际回归方法,将增加验证样本成功验证的概率。

    因此,Hsu 获得的相关性可能高于验证样本对他隐藏的情况。

当前评论者
说:

发表评论 -


 记得 我的信息为什么?
 电子邮件回复我的评论
$
提交的评论已被许可给 Unz评论 并可以由后者自行决定在其他地方重新发布
在翻译模式下禁用评论
通过RSS订阅此评论主题 通过RSS订阅所有James Thompson的评论