情报猎手的 99 个步骤，作者 James Thompson

情报猎人的99个步骤

詹姆斯·汤普森 •21年2017月XNUMX日

•1,500字 • 104 Comments • 回复

634 分享

◄►书签◄❌►▲ ▼全部切换总目录▲▼添加到图书馆从图书馆中删除 • B显示评论下一个新评论下一个新回复了解更多

回复同意/不同意/等等更多... This Commenter This Thread Hide Thread Display All Comments

同意不同意谢谢LOL轮唱

这些按钮可将您的公开协议，异议，感谢，LOL或巨魔与所选注释一起注册。仅对最近使用“记住我的信息”复选框保存姓名和电子邮件的频繁评论者可用，并且在任何八个小时的时间内也只能使用三次。

忽略评论者关注评论者

搜寻文字 区分大小写 确切的词 包括评论

列表书签

在我上一篇文章中，我说：

我认为我们可以看到辩论的前进方向，即遗传学是导致个体差异的部分原因的情况正在取得进展。这样做只是因为它可以越来越多地解释一些差异。十年前，不可能将遗传密码与智能行为联系起来。现在，每隔几个月就会发布将代码片段与情报联系起来的研究。发现的速度非同寻常。《自然》和其他科学期刊经常报道与重要人类行为的新遗传相关性，特别是心理能力、精神疾病和健康。

我不知道我的论文第二天会在一篇论文中得到即时支持，该论文以一段激动人心的段落开头，值得全文引用：

自 1904 年发现以来，数百项研究重复了这一发现，即人们在各种认知测试中的测试分数差异中约有 40% 可以由一个单一的一般因素来解释。就其经验支持和对生活结果的重要性而言，一般认知功能在人类心理特征中是无与伦比的。一般认知功能的个体差异在大部分生命过程中都是稳定的。双胞胎研究发现，从青春期到成年再到老年，一般认知功能的遗传率超过 50%。一般认知功能的遗传力基于 SNP 的估计约为 20-30%。迄今为止，这种实质性的遗传性几乎没有得到解释。仅发现了少数相关基因位点（表 1 和图 1）。与其他高度多基因性状一样，揭示相关基因位点的一个限制是样本量；迄今为止，进行一般认知功能研究的人数不足 100,000 人。

影响一般认知功能的 280,360 个独立基因位点包括与大脑健康和结构相关的基因 (N = XNUMX)
戴维斯等人。 (2017)

DOI： https://doi.org/10.1101/176511
http://www.biorxiv.org/content/early/2017/08/17/176511.full.pdf+html

首先，看基于f*!^#ff样本大小的论文还是不错的。一位作者，只要他支付我通常的费用，他就会保持无名，他喜欢足够大的样本量来告诉怀疑者他们应该离开并繁殖。不仅如此，来自西方研究界的一大群研究人员再次聚集在一起，以组装上述大样本。乍一看，大约有 200 个作者，因此每个基因需要 2 个研究人员才能找到。我确信第一位和最后一位作者在这个项目上花费了 3 年的时间。作者说：

一般认知功能是一个突出的人类特征，与许多重要的生活结果相关，包括长寿。众所周知，一般认知功能的实质性遗传是多基因的，但在贡献的遗传变异方面几乎没有解释。在这里，我们结合了来自 CHARGE 和 COGENT 联盟以及英国生物银行（总 N=280,360）的认知和遗传数据。我们在 9,714 个独立基因座中发现了 5 个全基因组显着 SNP（P<10 x 8-99）。大多数都显示出功能重要性的明确证据。在许多与一般认知功能相关的新基因中，有 SGCZ、ATXN1、MAPT、AUTS2 和 P2RY6。在新的基因位点中有与神经退行性疾病、神经发育障碍、身体和精神疾病、大脑结构和 BMI 相关的变异。基于基因的分析发现 536 个基因与一般认知功能显着相关；许多在大脑中高度表达，并与神经发生和树突基因组相关。遗传关联结果预测了独立样本中高达 4% 的一般认知功能方差。一般认知功能和信息处理速度以及包括长寿在内的许多健康变量之间存在显着的遗传重叠。

有趣的是，这 9,714 个 SNP 完全符合 Steve Hsu 的计算，即遗传学研究人员需要约 10 万个因果变异和约百万个样本量来“解决”智能问题。在这里，我们有必要的因果变化，并且在样本量上已经走了三分之一，从而朝着所需的目标迈出了一大步。一些命中与先前确定的代码部分重叠，另一些则是新颖的。在一般认知功能和 ADHD rg= -0.36、双相情感障碍 rg= -0.09、重度抑郁症 rg= -0.30 和长寿 rg= 0.15 之间确定了新的遗传相关性。现在这是一般模式的一部分：能力的遗传密码与精神状态有关，可能是因为易受这些疾病的影响与较低的能力有关。请记住，当人们谈论与遗传学的“关联”时，这将涉及对能力有利的基因和对能力不利的基因。

该团队还研究了反应时间，这是我对心理能力（真零，比率量表）的另一种重磅测量，它在表型和遗传上都与一般认知功能相关，并解释了它与健康的一些关联。

英国生物银行样本中有 330,069 个人具有反应时间和遗传数据。反应时间的 GWA 结果揭示了 2,022 个独立基因组区域中的 42 个重要 SNP；这些 SNP 中有 122 个与一般认知功能重叠，其中 76 个具有一致的作用方向。这些基因组位点显示出明确的功能证据。使用基于基因的 GWA，191 个基因获得统计显着性，其中 28 个与一般认知功能重叠。 [] 反应时间和一般认知功能之间存在 0.227 的遗传相关性。

一般认知功能较高的人更健康；在这里，我们发现一般认知功能的基因位点与许多身体健康特征之间存在重叠。这些共享的遗传关联可能反映了从认知功能到疾病的因果关系、疾病的认知后果或多效性。对于精神疾病，精神分裂症（以及在较小程度上，双相情感障碍）等疾病的特征是认知障碍，因此反向因果关系（即从认知功能到疾病）的可能性较小。

按照惯例，这个团队的论文遵循“两个一价”的原则，因为它们包含来自发现样本的结果，他们会立即在其他样本上进行测试。这表明在 3 个测试样本中，他们能够解释 ELSA 中 2.37% 的方差，苏格兰一代中的 3.96% 和理解社会中的 4.00%。 “怎么这么少？” 你可能会问。好吧，“为什么这么多”，我会回答。这些是关联研究，是寻找因果关系的第一步。是的，因果。关联是通过非理论搜索过程找到的，相当于在没有任何关于敌军如何运作的详细知识的情况下试图破解敌人的密码。测试实际因果关系可能需要涉及培养皿和使用 CRSIP-R 选择性删除代码位。这就是 James Lee 推测的下一步可能是什么，但关联技术正在迅速发展，并且可能还有一些运行方式。

作者使用单变量 GCTA-GREML 分析研究了四个最大个体样本中所有常见 SNP 解释的方差比例：英国老龄化纵向研究 (ELSA: h2= 0.12, SE= 0.06)，了解社会 (h2= 0.17) , SE = 0.04), UK Biobank Assessment Centre (h2= 0.25, SE =0.006), and Generation Scotland (h2= 0.20, SE= 0.0519) (表 2)。这些队列中一般认知功能的遗传相关性，使用双变量 GCTA-GREML 估计，范围从 rg = 0.88 到 1.0

反应时间与一般认知功能之间的遗传相关性 (rg) 为 0.227 (P= 4.33 × 10-27)。

如何总结这篇论文？好吧，首先请注意，随着样本量的增加，检测到的可靠基因和 SNP 的数量会大大增加。大小事项。

其次，请注意，关联研究以多种不同的方式进行，每种方式都有自己的特点，但都有助于形成总体情况。很明显，遗传信号与大脑过程有关，并且这些关联的识别正变得更加具体。我们更接近于检测实际的因果关系。

第三，请注意，我们可以研究两个领域的相关性：遗传密码与人类行为（在本例中为智力）之间的相关性以及遗传密码不同部分之间的相关性。后者产生了遗传相关性的概念：一种识别共享遗传途径和推定原因的方法。

第四，请注意，用于将不同智力测试纳入一个共同尺度的技术是主成分分析，它比因子分析更接近于简单的数学过程。对于这种大规模的比较研究，最简单的技术是最好的。

作者总结：

一般认知功能在人类生命过程中具有突出性和普遍性，了解其在人群中变异的环境和遗传起源非常重要。许多新的基因位点、基因和遗传途径有助于其遗传——它与许多健康结果、寿命、大脑结构和处理速度共享——为探索导致和维持认知的机制提供了基础通过生活效率。

这篇论文是一项重大成就，在破解智力问题上迈出了宏伟的一步。接下来发生什么？更多的论文即将发表，然后我们可能会看到一个实验阶段的开始，观察体外神经元和树突的发育。

634 分享

• 类别：科学 •标签：基因组学, 智商基因组学, IQ

隐藏104条评论发表评论

《情报猎手的 99 步》
• 104条评论

忽略评论者...跟随Endorsed Only

修剪评论？

[]

res 说：
21年2017月5日，格林尼治标准时间下午36:XNUMX •100字
哇。如果这篇论文花了三年时间，你知道现在有什么样的样本量吗？

关于垂体是唯一在最终数字中超过其阈值的非脑组织类型有什么想法吗？垂体在纸图的粗粒度 b 面板中更为显着。
m___ 说：
21年2017月6日，格林尼治标准时间下午30:XNUMX •100字
遗传密码的理解、遗传密码的编辑、遗传密码的合成……和机器，基于冯诺依曼的计算机模型相结合，将产生人工智能。

就目前而言，双方的竞赛是什么和谁，一方面是编写“思考”的算法，另一方面是遗传理解，这是我们这个时代最有趣的竞赛。根据我的悲惨见解，这些突破：理解遗传密码将是主要途径。机器所做的蛮力强迫有一些错误，以老鼠的速度消耗能量，以及“调整”本能以获得最小阻力的途径。

评论区让人毛骨悚然，感觉很赤裸。即使是两者结合的政治和社会后果：进一步将数量与质量相提并论，也应该让所有人都关注上述问题。

• 回复： @nickels
dearieme 说：
22年2017月12日，格林尼治标准时间上午02:XNUMX
基因是一种社会结构。

• 哈哈： Rurik
• 回复： @Sergey Krieger
, @Logan
DFH 说：
22年2017月4日，格林尼治标准时间下午13:XNUMX
一旦发现负责的实际基因具有不同的种族分布，他们将如何继续否认种族/智商？

• 回复： @Anonymous
, @Medvedev
Anonymous [又名“昵称”] 说：
23年2017月5日，格林尼治标准时间上午27:XNUMX •100字
@DFH
嗯，有些基因不能跨种族工作。高加索人和蒙古人种的肤色是种族特异性的，卡卡索人的红发也是如此（它只会使蒙古人种的皮肤变亮，没有头发效果）。
他们可以拉这个，这将是有道理的。
但随后，他们不得不承认种族是一个生物学现实，一个事实，它很重要，并产生了巨大的影响。他们还必须承认，高加索人或白人在这件事上具有特殊的智力基因，而其他种族据说没有。
对于“他们”来说，这是一个双赢的局面。
utu 说：
23年2017月6日，格林尼治标准时间上午47:XNUMX
4% 由 200 位作者解释。每个作者 0.02%。也许我们需要更多的作者。

• 回复： @Heracleitus
jilles dykstra 说：
23年2017月7日，格林尼治标准时间上午11:XNUMX •100字
” 为探索在生活中带来和维持认知效率的机制提供了基础。 ”

探索当然会很有趣，对于像我这样好奇的人来说，他们想知道为什么我们有这么大的大脑。
也许一个解释是：
⦁ William H. Calvin，“De opkomst van het intellect，Een reis naar de ijstijd”，阿姆斯特丹 1994 年（心灵的提升。冰气候和智能的演变，1990）
我想知道这种探索是否会对当前的政治问题产生任何影响。
在一部关于群体间智商差异的纪录片中，一位黑人女士接受了黑人智商较低的说法，但她希望黑人能够为这种障碍获得经济补偿。
她的缺陷也许可以解释要求赔偿的原因。
Sergey Krieger 说：
23年2017月8日，格林尼治标准时间上午51:XNUMX
@dearieme
月亮也是。
Medvedev 说：
23年2017月9日，格林尼治标准时间上午02:XNUMX •100字
@DFH

发现负责任的基因具有不同的种族分布？

犯罪统计数据在种族之间有不同的比率。它并不能阻止左翼分子仅仅因为引用犯罪统计数据而给你贴上种族主义者的标签。因为，你知道，“没有种族只有人类”。然而，左翼分子会使用相同的犯罪统计数据来抨击怀特斯所谓的种族主义导致这种差异。去搞清楚％）
utu 说：
23年2017月10日，格林尼治标准时间上午34:XNUMX •200字
主成分分析，它比因子分析更接近简单的数学过程。最简单的技术最适合这种大规模的比较研究

这与简单无关。它是关于清晰度和合理的数学定义。在 PCA 中，解决方案是独一无二的。分量（特征向量）是正交的。特征向量最大化瑞利商，这意味着载荷和计算方差最大。因此，任何其他向量解释的方差都比与最大特征值相关的特征向量要小。这同样适用于 n-1 子空间中的第二个特征向量和 n-2 子空间中的第三个向量等等。（看 瑞利商 在维基）

因子分析没有数学上的清晰性。如果这样选择，因为在高阶分析中很常见，因子不是正交的。没有唯一性。不同的标准会产生不同的结果。一位研究人员使用一组标准和一个数学配方将获得与另一位研究人员使用不同配方的不同结果。只有接受相同方法（来自同一个博士育种室）灌输的研究人员才能获得一致的结果。因子分析中的模糊性为调整以获得所需结果提供了极大的灵活性，并为隐藏调整提供了足够的混淆空间。因子分析问题的病因在于其基因。它的发明者和早期的数学家作为兼职的从业者更喜欢创造力而不是数学的严谨性。这是思想超越物质现象的一个很好的例子。
Peter Johnson 说：
23年2017月11日，格林尼治标准时间上午35:XNUMX •100字
由于遗传学家（与主流叙述不同）都承认种族类别在遗传上很重要，因此该研究领域的实际工作几乎总是将样本限制在一个种族上。通常他们将数据限制为欧洲种族子样本，因为它具有最大的子样本。这在经验上很容易做到：尽管在主流叙述中“种族是一种社会结构”是胡说八道，但仍有可能从一个人的基因组中以近乎完美的准确度识别种族。这种样本限制还具有政治优势，即它使研究人员远离令人不安的发现，在注意到与基因相关的智力种族差异方面。

• 回复： @Double Juice JJ
Joe Hide 说：
23年2017月1日，格林尼治标准时间下午40:XNUMX •100字
我喜欢这篇文章詹姆斯汤普森。在统计/实验数学部分，你的幽默让我保持警惕！实际上，由于我对其中的大部分内容都不了解，因此您通过划分结论来帮助我和类似的读者，这些结论对于我有限的数学/实验背景是可以理解的，非常好。也就是说，我很高兴你有数学部分，因为它增加了可信度。让他们的文章来！
nickels 说：
23年2017月3日，格林尼治标准时间下午59:XNUMX •300字
@m___
除了蛋白质的转录和一些调节功能之外，我们不太可能很快了解 DNA 是如何工作的，或者它是如何产生智力和思维现象的。

一方面，表观遗传因素在发育中也发挥着重要作用，并且刚刚开始研究。母体卵子的结构充满了在整个生物体创造过程中传递的信息。

此外，它仍然存在理解基因和细胞（大脑）产生的机制如何运作的问题，目前这是 100% 处于黑暗中。神经科学是个笑话，基本上是一种嘲弄，基于观察大脑的某些部分“亮起来”并试图编造一堆无意义的结论。

正如遗传学开辟了一条新的研究途径一样，现在表观遗传学也在做同样的事情，而且很可能，除此之外，我们会发现量子生物学又增加了另一个层次的复杂性。兔子洞不太可能永远结束。

显而易见的事实是，意识不可能是物质的功能，正如我们从许多暂时死亡的人身上看到的那样。有很多人目睹了他们不可能从他们的身体看到的东西。这些报告表明了一个灵魂，一种超越物质的意识。

这对任何人工智能概念都意味着巨大的厄运。一个简单的测试来了解人工智能完全黯淡的状态是与在线机器人聊天一会儿。它们只是比烤面包机更笨。

意志、动机和理解的火花并非来自物质。

• 回复： @Logan
, @m___
Heracleitus 说：
23年2017月5日，格林尼治标准时间下午07:XNUMX
@utu
来自 Hsu 的帖子：

请注意，总方差的 4% = 1/25 和 sqrt(1/25) = 1/5，因此从这些变体构建的预测器与实际认知能力的相关性约为 0.2。当然，更大的样本还有更多的差异有待发现。

• 回复： @utu
hyperbola 说：
23年2017月6日，格林尼治标准时间下午03:XNUMX •200字
似乎又一次未能理解“大数据”。来自文章：

“”“基于基因的分析发现536个基因与一般认知功能显着相关；许多在大脑中高度表达，并与神经发生和树突基因组相关......“””

在这种多基因参与的水平上，可能存在于不同个体中的 536 个基因的遗传变异组合的数量变得如此之大，以至于即使 N = 280,360 也不是一个大样本量。假设每个基因只有 2 个突变体。那么这个基因集合的可能个体变体的数量是 2 的 536 次方！

事实上，一个 536 大的数字已经表明，这条“研究”路线几乎是在浪费时间（和金钱）。这些遗传变异中有多少对于“一般认知功能”而言既是必要的又是充分的？

顺便说一句，请注意，这篇论文尚未经过审查。即使在这个“科学”严重腐败的时代，

药品公司和医生：腐败的故事
http://www.nybooks.com/articles/2009/01/15/drug-companies-doctorsa-story-of-corruption/

希望能找到称职的裁判。

• 回复： @res
res 说：
23年2017月7日，格林尼治标准时间下午01:XNUMX •100字
@hyperbola
因为适用于药物论文的经济激励也适用于关于智商遗传学的论文。谢谢你的笑声。我们需要更好的巨魔。

如果你真的关心理解现实而不是仅仅吐出 FUD，你可能还想看看那些探索加性遗传效应相对于相互作用等的贡献的研究。

• 回复： @hyperbola
Lawrence Fitton 说：
23年2017月8日，格林尼治标准时间下午05:XNUMX •100字
最后我们会发现，人只是一台机器。确实，一个复杂的，但仍然是一台机器。这意味着功能强大的人工智能是确定无疑的。
人类的未来是博格。我们将增强我们的智力并减少我们对疾病的易感性。我们将被进化。
从现在开始，我们将把思想移植到机器中，从而实现不朽。
One Tribe 说：
23年2017月8日，格林尼治标准时间下午26:XNUMX •200字
我注意到“种族”/基因“媒体”报道的增加，这是今年（我们中的一些人称之为）2017 年的总体趋势。

它与主流媒体的公开和荒谬接管大致一致，看起来非常像一个中间阶段的社交媒体，作为混合战争的工具（根据北约战略通信卓越中心；见 http://www.stratcomcoe.org/download/file/fid/5314 ) 由种族区分/优越的支持者。

最近，我第一次在 UNZ 读到“种族否认主义”这个词，也许是在这里。
多么奇怪的术语？！

这些“论点”似乎暗示了世代相传的坚持。
虽然我没有看到将遗传配置与行为/智力表型特征相关联的表面问题，但代际持久性的问题非常令人不安。

也许我错了，但据我所知，只有 Y 染色体和线粒体 DNA 是唯一可追溯的持久遗传配置。
由于很少或没有证据表明这些其他遗传配置中存在共同存在，种族差异的整个论点都是无效的。

最后，“媒体”对种族/智力讨论的兴起表明，当权者希望将这一概念社会化，并对其进行按摩，最终以种族分化的错误信念感染人们，大多数可能会证明他们自己对……的现有控制是合理的
权利。

不要买它！

它正在进行宣传/心理活动。
Logan 说：
23年2017月9日，格林尼治标准时间下午04:XNUMX
@dearieme
还有冰川
Logan 说：
23年2017月9日，格林尼治标准时间下午06:XNUMX •100字
@nickels
我听说它解释说基因是汽车的设计，子宫是组装它的工厂。

我想我们都很清楚，如果没有出色的设计，就无法获得出色的汽车。但我们也都明白，如果您希望设计发挥其潜力，质量控制是工厂必不可少的。

• 回复： @nickels
utu 说：
23年2017月9日，格林尼治标准时间下午47:XNUMX •100字
@Heracleitus
从这些变体构建的预测器将与实际认知能力相关~0.2.XNUMX

正确的。但这在实践中意味着什么？预测的标准差误差：15*sqrt(1-0.2^2)=14.6969，其中智商分布的SD=15。它并不比常数预测函数 Predicted_IQ=100 好多少，它为您提供预测 15 的标准偏差误差，也具有零偏差。

使用 9,714 个 SNP 会将您的错误从 SD=15（当您忽略遗传学时得到的）减少到 SD=14.7。不是很令人印象深刻。
nickels 说：
23年2017月10日，格林尼治标准时间下午13:XNUMX •100字
@Logan
我对表观遗传学知之甚少，不知道工厂类比能走多远。
我确实担心那些开始使用表观遗传学来争论奇怪的社会正义结构的人。

从我的初步阅读来看，除了 DNA 之外，似乎有一些离散信息被编码到细胞中，这些信息指导细胞结构和有机体生长的某些功能。

那么是环境发挥作用，还是只是像 DNA 那样更具确定性的信息？没有把握。

• 回复： @Logan
aaaa returns 说：
24年2017月2日，格林尼治标准时间上午53:XNUMX
每个人都应该观看这个视频——感谢 4chan 上的人链接它
hyperbola 说：
24年2017月1日，格林尼治标准时间下午28:XNUMX •100字
@res
如果您精通 GWAS 研究中与医学相关的大量文献，您就不会做出这样的陈述。查找与医学疾病相关的必要和充分基因的验证示例。然后看看这些必要和充足的基因占人类“疾病负荷”的百分比（约1％）。这项研究非常清楚地表明，“一般认知功能”（一个相当模糊的结构，其定义远不如医学疾病）具有非常少的必要和足够的基因。在大量潜在基因组合（例如 2 的 536 次方）的背景下，大量遗传变异的组合有助于任何特定个体的“一般认知功能”。事实上，对于一个可进化的、稳定的复杂系统中的几乎所有复杂特征，这可能是人们应该期待的。

• 回复： @res
res 说：
24年2017月2日，格林尼治标准时间下午12:XNUMX •100字
@hyperbola
我个人最喜欢的人之一是那些喋喋不休地谈论“巨大的文学”和“科学！”之类的东西的人。但懒得去实际引用一项研究。感谢您确认我的第一印象。像“MUCH”和“LARGE”这样的词的大写是一个好处。正如再次调用 2^536 表明你不理解我的加性遗传学评论一样。随着数据的不断涌入，期待在 10 年内继续这种对话。

PS 当您选择您的用户名时，您是在寻找“夸张”吗？

• 回复： @Double Juice JJ
, @hyperbola
Double Juice JJ 说：
24年2017月5日，格林尼治标准时间下午11:XNUMX •100字
@res
你必须在这个研究领域投入大量的情感，才能相信样本量的借口。双曲线是对的，在如此庞大的样本中发现如此之少（在预印本研究中）意味着这样的研究可能是浪费时间和金钱。无论存在什么遗传性，都必须主要是由于罕见的变异，并受到表观遗传学和环境影响的混淆。

期待 10 年后继续这种对话，当你的新借口是“我们需要 10 亿个样本”时。

• 回复： @utu
, @res
hyperbola 说：
24年2017月5日，格林尼治标准时间下午17:XNUMX •200字
@res
我所做的陈述在医学 GWAS 研究领域是众所周知的。我不知道您可以阅读相关文献的复杂程度。我不应该为你做文献研究。我也不知道您可以使用哪些图书馆资源。如果需要，您可以在这里开始自我教育。

Scholz SW，Mhyre T，Ressom H，Shah S，Federoff HJ。 2012. 基因组学和
帕金森病的生物信息学。冷泉 Harb Perspect Med
2：a009449。

帕金森病的遗传学。
莉尔厘米。
摩尔细胞探针。 2016 年 30 月；6(386):396-10.1016。 doi: 2016.11.001/j.mcp.2016。 Epub 4 年 XNUMX 月 XNUMX 日。回顾。

拉马南 VK1，赛金 AJ。
Am J 神经退行性病变。 2013 年 18 月 2 日；3(145):75-XNUMX。
神经退行性变的途径：GWAS 在阿尔茨海默病、帕金森病和相关疾病中的机制见解。

莱文 SA。 2003. 复杂的自适应系统：探索已知的，
未知和不可知。 Bull Am Math Soc 40：3-19。

Whitacre JM, Bender A. 2010。网络缓冲：一种基本机制
复杂自适应系统中的分布式鲁棒性。理论生物学
模型 7:20。

惠特克 JM. 生物稳健性：范式、机制、系统原则。前基因。 2012；3：1-15。

• 回复： @res
Double Juice JJ 说：
24年2017月5日，格林尼治标准时间下午33:XNUMX •100字
@Peter Johnson
不，这叫做避免混淆。如果样本包括不同种族的个体，那么与血统相关的等位基因就会被误认为是智力等位基因。因此，标准程序是测试一个群体中的基因型-表型关系，然后尝试在另一个群体中复制发现，看看基因表达是否相同。他们现在离它很远。

• 回复： @res
res 说：
24年2017月7日，格林尼治标准时间下午17:XNUMX •600字
@hyperbola
当您提出论点并使用文献作为证据时 选择您 有义务用具体的引用来支持你的论点。更典型的是，具体的摘录。让我们看看如何做到这一点。它 is 不得不为你做你的工作令人沮丧。

让我们检查一下您的评论 24 中的其中一个陈述：

然后看看这些必要和充足的基因占人类“疾病负荷”的百分比（约1％）。

然后看一下你的第二个参考的摘要（强调我的）： https://www.ncbi.nlm.nih.gov/pubmed/27818248

在 SNCA 被鉴定为帕金森病 (PD) 的第一个致病基因近 XNUMX 年后， 随后了解遗传因素在 PD 发展中起重要作用，我们对这种疾病的遗传结构的了解已经大大提高。大约 5-10% 的患者 患有单基因形式的 PD，其中 SNCA、LRRK2 和 VPS35 的常染色体显性突变和 PINK1、DJ-1 和 Parkin 的常染色体隐性突变导致该疾病 高外显率.

听起来更像是反对你引用的陈述的证据，而不是支持它的证据。

我目前没有很好的图书馆访问权限，看来医学研究认为可用性有限，所以正如您所说，这是一个问题。但正如我们将看到的，我的访问权限似乎足以完成手头的任务。

很高兴您的第一个参考文献有全文可用： https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3385936/

在那里我们发现：

例如，在 PD 中，仅了解约 60% 的遗传力，具体取决于所研究的人群

天哪，只有 60%。那篇论文更多地讨论了未来的可能性，而不是 GWAS 问题 AFAICT，但也许你可以提供一个引用来支持它？

您的第三个参考也有全文可用： https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3783830/

摘要更支持您的断言。强调我的，但要注意“最”。

尽管无偏见的全基因组关联研究 (GWAS) 已经确定了与神经退行性疾病的新关联， 这些命中中的大多数仅解释了疾病遗传性的一小部分. 此外，尽管主要神经退行性疾病的临床和病理特征存在大量重叠，但令人惊讶的是，很少有与 GWAS 相关的变异似乎表现出跨疾病关联。这些现实表明对个体遗传变异的关注存在局限性，并为诊断和治疗策略的发展带来挑战

但仔细观察我们会发现：

例如，尽管估计高达 60-80% 的 AD 风险来自遗传因素 [14]，但已知基因包括 APOE（载脂蛋白 E）的独特大效应仅占这种遗传变异的一半

天哪，只有 60-80% 的一半。似乎与 1% 相差甚远。

您的第四个参考资料很有趣且免费提供，因此这里有一个链接： http://www.ams.org/journals/bull/2003-40-01/S0273-0979-02-00965-5/
但它是从 2003 年开始的（缺乏当前的遗传知识），并且似乎专注于复杂系统的不可知性，所以我只注意到半满（或空）和 1% 满的玻璃杯之间存在差异。

您的第五个参考似乎只是切题地解决了您的观点，但请随时纠正我： https://tbiomed.biomedcentral.com/articles/10.1186/1742-4682-7-20

您的最终参考也似乎是切线的： http://journal.frontiersin.org/article/10.3389/fgene.2012.00067/full

不要误会我的意思，从生物学哲学的角度来看，最后三个参考文献非常引人入胜。只是我不认为他们除了能够抛出 FUD 之外，还不能说明你的观点。

我将由您（和其他读者）决定我（和您）是否有能力正确阅读和解释这些文献。

下次至少尝试找到支持而不是反驳您的立场的参考资料。

• 回复： @hyperbola
utu 说：
24年2017月7日，格林尼治标准时间下午26:XNUMX •500字
@Double Juice JJ
样本量借口

我认为样本量问题是为了避免误报。如果样本量 N = 2，那么两个个体不同的任何基因都可以在纯粹的数学意义上预测两个个体之间表型特征的差异。当性状不是二元的，比如你有或没有的疾病，而是连续的，如身高或智商，那么显然你需要有许多基因或 SNP 来建立你的预测模型，以匹配性状的粒度（分辨率）。您需要构建一个函数，例如与 IQ 相关的许多 SNP 的多基因评分，因此多基因评分必须能够假定 IQ 可以假定的尽可能多的值。现在您有许多 SNP 可供选择，那么您怎么知道您没有过度使用它。在天空中，您可以选择 M 颗星，并提出分析公式，每个美国居民的社会安全号码（N=320 亿）将由 2^M 中的一个星子集的星坐标预测，仅插入星坐标在子集中。但是，一旦你通过附加所有获得新发行的党卫军编号的中国人（N=320+1500 亿）来扩大集合后得到适用于美国人的公式，那么公式将失败，你将不得不制定全新的公式，假设 M 是足够大。我想，这是他们想要大样本的主要原因。从数学的角度来看，这个系统是非常不确定的。如果有大约 10 万个 SNP，那么 9000 个 SNP 的子集数量比宇宙中的原子数量大 1000 个数量级。

令我困惑的是，他们获得了极低的方差解释分数。就像在这项研究中一样，它只有 4%。我认为这是因为他们将自己限制在线性模型中，仅在 SNP 的影响是相加的情况下。使用多基因评分是最简单的线性模型。非线性模型打开了一个新的蠕虫罐。在华盛顿特区的某个地方，可能有一台计算机在数据库中有两个列表：SS 编号列表和 IQ 测试分数结果列表。这两个列表实际上建立了一个非常非线性的 SS->IQ 关系。您可以将其绘制在图表上。使用细化图 SSN 以 100% 的准确度预测图中包含的所有受试者的智商。如果你允许非线性关系，你可以对 SNP 做同样的事情。唯一可以控制它们的是拥有两个数据集的要求：一个用于开发模型，另一个用于测试它。但是，如果没有作弊，这是可行的。

• 回复： @res
res 说：
24年2017月7日，格林尼治标准时间下午36:XNUMX •500字
@Double Juice JJ
“样本量借口”——有趣。也许你可以引用我的你反对的特定陈述？

您是否碰巧看过上面 Thompson 博士提供的表 1？注意到随着样本量的增加发现的 SNP 数量的任何趋势吗？在论文的第 33 页上有一个显示趋势的图。

看看 Steve Hsu 关于 1M 样本是否足够可能会很有趣。

无论存在什么遗传性，都必须主要是由于罕见的变异，并受到表观遗传学和环境影响的混淆。

高度不是这样的： 常见的 SNP 解释了人类身高的大部分遗传力
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3232052

通过全基因组关联研究 (GWAS) 发现的单核苷酸多态性 (SNP) 仅占人群复杂性状遗传变异的一小部分。剩余的遗传力在哪里？我们使用线性模型分析估计了由对 294,831 个无关个体进行基因分型的 3,925 个 SNP 解释的人类身高的方差比例，并根据观察到的基因型数据通过模拟验证了估计方法。我们表明，可以通过同时考虑所有 SNP 来解释 45% 的方差。因此，大多数遗传力并没有丢失，但以前没有被检测到，因为个体效应太小而无法通过严格的显着性检验。我们提供的证据表明，剩余的遗传力是由于因果变异和基因分型 SNP 之间的不完全连锁不平衡 (LD) 造成的，而具有比迄今为止探索的 SNP 更低的次要等位基因频率 (MAF) 的因果变异加剧了这种情况。

人群中的全基因组关联研究发现了数百个与复杂性状显着相关的 SNP，1,2，但对于任何一个性状，它们通常只占遗传变异的一小部分。缺失的遗传力，即所谓的基因组暗物质 3,4 在哪里？建议的解释包括基因间或基因间相互作用的存在5、常见疾病罕见变异假说6以及遗传的表观遗传因素导致亲属之间相似的可能性7,8、XNUMX。然而，由经过验证的 SNP 解释的方差通常远小于狭义遗传力，即由于加性遗传方差引起的表型方差的比例。 非加性遗传效应对狭义遗传力没有贡献，因此基于非加性效应的解释与遗传力缺失问题无关 （补充说明）。对于已验证的 SNP 关联未能解释估计的遗传力有两种解释：因果变体每个都解释了如此少量的变异，以至于它们的影响未能达到严格的显着性阈值和/或因果变体不处于完全连锁不平衡状态(LD) 与已进行基因分型的 SNP。例如，如果因果变异的次要等位基因频率 (MAF) 低于基因分型的 SNP，则可能会出现缺乏完整的 LD。在这里，我们测试这两个假设，并估计每个假设对人类身高遗传力的贡献，作为模型复杂性状。

这是一个很好的介绍： 遗传力和加性遗传方差
https://sciencehouse.wordpress.com/2013/10/04/heritability-and-additive-genetic-variance/

• 回复： @utu
, @Double Juice JJ
res 说：
24年2017月7日，格林尼治标准时间下午44:XNUMX •100字
@Double Juice JJ
我认为说你和彼得约翰逊关于抽样的观点都是正确的，这是最准确的。我认为可以公平地说其中任何一个（彼得提出两点：最大子样本和政治毒性）都可以证明使用典型样本是合理的。

此外，这不仅仅是基因表达相同。连锁不平衡（导致 SNP 映射）和次要等位基因频率（影响可检测性，特别是如果一个等位基因在其中一个群体中接近固定）很重要。

• 回复： @Double Juice JJ
utu 说：
24年2017月7日，格林尼治标准时间下午58:XNUMX
@res
使用线性模型分析对 294,831 个无关个体进行基因分型的 3,925 个 SNP 解释了人类身高，

这是真的吗？可以将随机数字序列分配给 3,925 个个体，并找到 200,000 个 SNP，其多基因评分可以准确预测该序列。

• 回复： @res
, @RaceRealist88
res 说：
24年2017月8日，格林尼治标准时间下午13:XNUMX •200字
@utu

唯一可以控制它们的是拥有两个数据集的要求：一个用于开发模型，另一个用于测试它。但是，如果没有作弊，这是可行的。

好点子。研究人员是否一直在使用他们不同的数据集进行此操作？您会在 Davide Piffer 研究不同研究的工作中看到其中一些隐含地发生，但我还没有看到使用一个数据集来验证另一个数据集的结果并列举结果的明确尝试。有这样的研究吗？

值得注意的是，我预计会看到许多“软故障”（即非常小的 p 值刚好错过阈值），尤其是在使用较旧的数据集查看较新的（更大的样本量）SNP 时。重要的不仅仅是二进制 dis/confirm 结果。

在某些时候是否适合使用不同的 p 值阈值来测试先前识别的 SNP 的子集？例如，假设您正在查看 1000 个 SNP 进行验证 另一个 数据集。使用 5e-5 (0.05 / 1000) 的阈值而不是 GWAS 的 5e-8 标准是否合理？

• 回复： @utu
res 说：
24年2017月8日，格林尼治标准时间下午35:XNUMX •200字
@utu

这是真的吗？

这是一篇发表在 Nature Genetics 上的真正的同行评议论文： http://www.nature.com/ng/journal/v42/n7/full/ng.608.html

确定他们的方法是否避免了您描述的问题超出了我的工资等级。但他们声称只解释了 45% 加性遗传力中的 80%，这表明他们至少部分避免了这种情况。

他们的模拟研究部分看起来像是试图区分似乎反对这一点的因果变体只是是过拟合的一个例子。

其中两位作者发表了一篇可能有帮助的后续文章： https://www.ncbi.nlm.nih.gov/pubmed/21142928

该技术现在被称为 GCTA。这篇博客文章链接了两个人在必要的薪酬等级审查方法有效性方面的论文： https://infoproc.blogspot.com/2014/03/why-does-gcta-work.html

我在 Thompson 博士的博客中看到了 Peter Visscher 的几篇论文，但不是这篇。我确实看到提到 GCTA，包括： https://www.unz.com/jthompson/2014/12/

• 回复： @utu
Double Juice JJ 说：
24年2017月8日，格林尼治标准时间下午45:XNUMX •100字
@res
您是否碰巧看过上面 Thompson 博士提供的表 1？注意到随着样本量的增加发现的 SNP 数量的任何趋势吗？在论文的第 33 页上有一个显示趋势的图。

这仍然是荒谬的。看，他们的样本几乎等于冰岛的人口或新石器时代前的整个人口。但命中只能解释 4% 的方差。真可怜。

身高并非如此：常见的 SNP 解释了人类身高的很大一部分遗传力

身高并不需要大得离谱的样本来发现大量基于 SNP 的遗传力。身高也是一个实际的衡量标准，而不是像“智能”这样只能通过代理估计的模糊概念。

• 回复： @res
Double Juice JJ 说：
24年2017月8日，格林尼治标准时间下午53:XNUMX •100字
@res
不，只有我的观点是正确的，并解释了专家使用的方法。彼得约翰逊只是在发出通常的右翼偏执狂抱怨。

对在不同人群中进行自然选择的基因座进行了深入研究，检测阳性选择信号很容易。当然，由于随机漂移的影响要强得多，自然选择不会看到影响可忽略不计的基因。当您了解遗传学的基础知识时，这些 GWAS 热门歌曲的遗传人群的所有热情都是可笑的。

• 不同意： res
• 回复： @Double Juice JJ
Double Juice JJ 说：
24年2017月9日，格林尼治标准时间下午49:XNUMX
@Double Juice JJ
• 不同意： 水库

关心详细吗？

• 回复： @res
res 说：
24年2017月10日，格林尼治标准时间下午07:XNUMX •200字
@Double Juice JJ

身高并不需要大得离谱的样本来发现大量基于 SNP 的遗传力。

所以你至少承认这一点。好的。至少你不是一个完全的遗传否定论者。

对本文给出的样本量估计有什么想法吗？
http://www.biorxiv.org/content/early/2017/08/11/175406
提供免费全文。有关他们对连续性状（例如身高、智商）和疾病性状的解释遗传变异百分比与样本量的估计，请参见图 3 的下半部分。
他们对身高的估计是 200k 的样本量可以解释大约 40% 的方差。对于 IQ，200k 的样本量可以解释大约 5% 的方差（非常接近我们从 4k 看到的 280%）。

以下是按样本大小划分的 GWAS 命中数的一些经验数据（2012 年）： https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3257326/

以及 2017 年的更新： http://www.cell.com/ajhg/fulltext/S0002-9297(17)30240-9

但命中只能解释 4% 的方差。真可怜。

一直这样告诉自己。在您的估计中，它在什么时候变得不可悲？还是我们只是继续移动球门柱？

• 回复： @Double Juice JJ
, @Double Juice JJ
Double Juice JJ 说：
24年2017月10日，格林尼治标准时间下午44:XNUMX •500字
@res
引用研究很好，理解它们更好

通过全基因组关联研究 (GWAS) 发现的 SNP 仅占人群复杂性状遗传变异的一小部分。剩余的遗传力在哪里？我们估计了由 294,831 个 SNP 解释的人类身高的方差比例 对 3,925 名无关个体进行基因分型 使用线性模型分析，并根据观察到的基因型数据通过模拟验证了估计方法。我们表明，可以通过同时考虑所有 SNP 来解释 45% 的方差。因此，大多数遗传力并没有丢失，但以前没有被检测到，因为个体效应太小而无法通过严格的显着性检验。我们提供的证据表明，剩余的遗传力是由于因果变体和基因分型 SNP 之间的不完全连锁不平衡造成的，而与迄今为止探索的 SNP 相比，次要等位基因频率较低的因果变体加剧了这种不平衡。

一直这样告诉自己。在您的估计中，它在什么时候变得不可悲？还是我们只是继续移动球门柱？

只要您在解释群体差异时无法想出类似的东西，它就会保持可悲。

人类侏儒表型（体型小）的进化历史是非洲和东南亚雨林狩猎采集者的一个特征，在很大程度上是未知的。在这里，我们使用全基因组混合作图分析来确定 16 个基因组区域，这些区域与来自乌干达（中非东部）的热带雨林狩猎采集人口 Batwa 中的侏儒表型显着相关。已确定的基因组区域具有多个属性，这些属性提供了与侏儒表型真正关联的支持证据，包括先前与欧洲人身高变异相关的 SNP 的富集以及具有生长激素受体和调节功能的基因。为了检验适应性进化假设，我们针对每个基因组 SNP 计算了基于单倍型的综合单倍型评分 (iHS) 统计数据和 Batwa 与其农业邻居 Bakiga 之间的种群分化水平 (FST)。两者 |iHS| Batwa侏儒表型相关区域内的SNP和FST值显着高于基因组的其余部分，这是多基因适应的特征。相比之下，当我们将分析扩大到包括来自喀麦隆和加蓬（中非西部）的巴卡雨林狩猎采集者以及邻近的 Nzebi 和 Nzime 农业家时，我们没有观察到升高的 |iHS| 或这些基因组区域中的 FST 值。总之，这些结果表明侏儒表型的适应性和至少部分收敛的起源，即使在非洲，也支持这样的假设，即小体型赋予热带雨林狩猎采集者选择优势，但提出了对这种行为的古老性的质疑。

http://www.pnas.org/content/111/35/E3596.full

哦，不要告诉我“嗯政治正确的研究，等等，等等，等等”。没有什么能阻止世袭“学者”获得相关学位并从先驱基金获得资助。

• 回复： @res
, @utu
Double Juice JJ 说：
24年2017月10日，格林尼治标准时间下午52:XNUMX •300字
@res
关于稀有变体的相关性：

2014 年，GIANT 研究了大约 250,000 人，使已知基因变异的总数达到近 700 个——分布在基因组的 400 多个位置。这项工作涉及一种称为全基因组关联研究 (GWAS) 的强大方法，该方法可以快速扫描大量人群的基因组，寻找追踪特定性状的标记。 GWAS 擅长发现常见的遗传变异，但几乎所有已识别的变异都将高度改变不到 1 毫米（不到 1/20 英寸）。 GWAS 研究在捕获不常见的遗传变异方面并不那么好，这可能会产生更大的影响。最后，追踪性状的常见变体往往大多位于基因的蛋白质编码部分之外，因此更难确定它们影响哪些基因。

因此，在这项新研究中，GIANT 研究人员使用了一种不同的技术：ExomeChip，它测试了近 200,000 个已知变体的目录，这些变体不太常见，并且会改变蛋白质编码基因的功能。这些变体更直接地指向基因，并且可以用作确定哪些基因对特定疾病或性状很重要的捷径。大多数尚未在先前的身高遗传研究中进行评估。

使用来自总共 711,428 名成年人的 ExomeChip 数据（最初的 460,000 人和大约 250,000 人验证研究结果），研究人员确定了 83 个与成年人身高相关的不常见变异：51 个“低频”变异（在不到 5% 的儿童中发现）人）和 32 种罕见变体（不到 0.5%）。

有了这些新发现，现在解释了 27.4% 的身高遗传率（高于早期研究中的 20%），大多数遗传率仍然由常见变异解释。

新发现的 1 个变体对高度的影响超过 4 厘米（10/XNUMX 英寸），比常见变体通常看到的影响更大。 “这一发现与其他基因研究中看到的模式相匹配，在这些研究中，更有效的变异在人群中更为罕见，”Hirschhorn 说，他也是波士顿儿童医院的内分泌学家，也是哈佛医学院的儿科和遗传学教授。

https://www.sciencedaily.com/releases/2017/02/170201131513.htm

• 回复： @res
res 说：
24年2017月11日，格林尼治标准时间下午02:XNUMX •500字
@Double Juice JJ
这是一个公平的问题。首先，我主要不同意你的第一段（和最后一句，我反过来认为这很可笑）。对于你最后一段的第一部分，我可能会抱怨“容易”，并添加一个关于“足够大的效果”的警告，但我认为你基本上已经达到了目标。

所以我不同意的部分值得讨论：

不，只有我的观点是正确的，并解释了专家使用的方法。彼得约翰逊只是在发出通常的右翼偏执狂抱怨。

好的。让我尝试引用或重述我看到的三点（带有数字以便于参考）解释为什么要对统一的白人群体进行研究。如果您或彼得不同意我的版本，请纠正我。

1. Double Juice JJ（评论 28）：“这叫做避免混淆。如果样本包括不同种族的个体，那么与血统相关的等位基因就会被误认为是智力等位基因。”

2. Peter Johnson（评论 11）：“通常他们将数据限制在欧洲种族子样本中，因为它具有最大的子样本。”

3. 彼得约翰逊（评论 11）：“这种样本限制还具有政治优势，它使研究人员远离令人不安的发现，在注意到与基因相关的种族智力差异方面。”

你我都同意 1. 是真的。我认为还有另一个问题，例如不同的等位基因频率和种族之间的连锁不平衡使研究假设和解释复杂化。

关于 2.，这似乎是许多研究（例如医学）中的常见做法。为什么你认为它在这里不适用？

关于3.，我们必须依靠“不叫的狗”。黑人和白人在表型智商上的 1 SD 差异提供了一个有趣的遗传问题。为什么只有少数异端研究过它？除了 3. 之外，您还有其他解释吗？请注意，对于 IQ SNP，MAF 中种族之间的差异是众所周知的，但在我们异端之外很少有人评论。当我们讨论这个话题时，如果种族的智商平均值没有差异，您的 1. 是否也适用？也许这只是一种礼貌的说法 3.？ ; )

鉴于我们所看到的随着样本量的增加导致更多 SNP 命中和更多方差解释的趋势，我真诚地难以理解对遗传学有很好理解的人如何对 GWAS 如此不屑一顾。身高是一个很好的例子，你似乎承认。我很想更好地理解为什么你没有发现汤普森博士的帖子和我提供的有说服力的证据。

许多对 GWAS 不屑一顾的人似乎陷入了他们在 2000 年代初听到的负面结果中（在纠正多个假设检验之前很常见），但我认为这通常可以从所使用的论点中看出，我在这里没有看到.

• 回复： @Double Juice JJ
, @Double Juice JJ
res 说：
24年2017月11日，格林尼治标准时间下午24:XNUMX •300字
@Double Juice JJ
谢谢你告诉我那篇论文。这对我来说是新的。这是一个更直接的链接： https://www.nature.com/nature/journal/v542/n7640/full/nature21039.html
他们的图 1 非常有趣。我没有意识到趋势是在较低频率下朝着更大的效果尺寸发展。这对我来说对负变体（罕见的有害突变）是有意义的，但我预计会选择正变体（即在 MAF 中增加），除非有抵消力量。它确实提出了一个有趣的问题，即身高是否是这些“身高 SNP”的主要生存相关问题。还有一个问题是，更大的影响大小趋势是否部分是一种人工制品检测那个 MAF 的大效应量。

我同意罕见的变种很重要。问题是：多少钱？如果我们可以相信 Visscher GCTA 结果，他们可以用 SNP 解释 45% 的高度差异。这使得加性遗传效应的 35% 差异有待解释。

出现在 <0.5% 的人中的变体可以解释多少百分比方差？解释的百分比方差取决于效应大小和 MAF。需要有一个长尾的稀有变体来弥补低频。而且我在图 1 中没有看到那条长尾，尽管谁知道对于更低的 MAF 是否会继续增加效应大小。

我是否感到困惑，或者那篇论文实际上是否有助于解释为什么大样本量很重要？（即，而不是被嘲笑）

• 回复： @Double Juice JJ
res 说：
24年2017月11日，格林尼治标准时间下午43:XNUMX •300字
@Double Juice JJ

引用研究很好，理解它们更好

的确。也许我很密集，但你在暗示我缺乏理解在哪里？请引用你不同意的话。

只要您在解释群体差异时无法想出类似的东西，它就会保持可悲。

这是一个有趣的重定向。它同时告诉我你在这里关心什么，并解释了为什么我对你的反对意见如此困惑（我错过了你的关注点）。

我会提醒你我最初反对“但命中只能解释 4% 的方差。太可怜了。” 这与群体差异无关。

哦，不要告诉我“嗯政治正确的研究，等等，等等，等等”。没有什么能阻止世袭“学者”获得相关学位并从先驱基金获得资助。

除了想避免职业自杀。并让学术顾问和资助者签署有争议的研究。如果你是一名学者，你会比我更清楚这一点。在这里，我只能得出结论，你是不诚实的。我们真的需要讨论 Jason Richwine 和他的争议较少的研究吗？或者詹姆斯沃森，我会认为他处于无懈可击的位置？

我们是否同意不同意关于群体差异的遗传学并讨论 GWAS 的其他方面？你显然有很多关于这个主题的知识。除非“很多非 PC 评论”已经足以让我被列入黑名单。

PS感谢侏儒链接。对不同种群起作用的不同选择压力是遗传分化恕我直言的重要驱动因素。

• 回复： @Double Juice JJ
utu 说：
25年2017月12日，格林尼治标准时间上午48:XNUMX •800字
@res
我认为在开发可能有太多变量的启发式预测模型时，将集合分成两个子集是一种常见的做法。例如，您可以将 n 次多项式拟合到 1800-1900 年期间的太阳黑点数量，并查看它们是否预测 1900-2000 年期间的太阳黑点。您可以轻松找到适合整个 1800-2000 年期间太阳黑点的多项式 n+k>n，但您的模型很可能“过度拟合”。这种方法将减少启发式模型中的变量数量。 GWAS 本质上是一个启发式模型。我认为在 GWAS 研究中，他们确实遵循了类似的程序，即有一个子集用于开发模型，一个子集用于验证模型。但是，这并不意味着如果您遵循此过程，该模型的启发性就会降低。但是，从子集的相互大小中，您可以对模型的稳健性提出主张。但是，仅此过程就足以避免过度拟合问题吗？

P值需要揭开神秘面纱。他们真正证明了什么，他们有时会证明与预期相反的东西。自从您抚养他长大后，我就为此目的使用了 Davide Piffer。

假设 Davide Piffer 给自己找了一个女朋友，他认为她可能就是那个。但出于科学的考虑，他想验证一下。他决定估计他的女朋友的 P-vaule 是 One。他随机选择了 1000 名女性，看看他们是否都比他的女朋友更喜欢。如果是这样，P 值小于 10^-3。但他继续并通过在 100,000 名女性中随机搜索（他会用蒙特卡洛方法的名称来美化它），他找到了 3 名他喜欢的女性不少于他的女朋友。他宣布他女朋友的 P 值为 3*10^-5。它是 P 值的上限。问题是他是要保留他的女朋友并声称P值是3 * 10 ^ -5，还是会转向他比女朋友更喜欢并且P值小于3的10个中的一个^-5? 哪一个是一？这是通过在 GWAS 方法中随机选择 SNP 序列的 P 值估计的意外结果。 Davide Piffer 决定留下他的女朋友。

也就是说，在总共 819 次运行中，相关系数等于或高于 0.88 出现了 8 次

在执行的 819 次随机运行中，他发现 8 个结果与国家 IQ 的相关性高于他开始使用的一组 9 个 SNP。为什么他不选择具有最大相关性的八个中的一个？为什么他没有甩掉他的女朋友？

P值估计的另一个问题如下。如果您运行 1 万次模拟，估计有多好？也许您应该运行 10 万次模拟。你怎么知道有多少？一茶匙海水是否足以估计整个海洋的盐度？

GWAS 中用于所有实际目的的随机搜索可以无限进行。大约有 10 万个 SNP。假设其中 1 万个在该集合的总体中具有小于 1 的频率。您可能会在其中寻找可能与您试图解释的特征相关的嫌疑人。假设您想用 10,000 个 SNP 来解释像 IQ 这样的复杂特征。有多少种组合，可以测试多少种 SNP 的不同子集？号码是huuuuge。如果我找到的计算器是正确的，有 5.8*10^24318 种组合。显然，这在宇宙生命中是不可行的。如果您决定像他们在高度研究中所做的那样尝试 200,000 个 SNP，那么组合的数量会跃升至 10^217319。如果您进行了数十亿次随机模拟，那么当您处理如此多的可能性时，您对获得的 P 值不会有太大的信心。

P值不是我关心的问题。 P 值只是给幼稚和外行留下深刻印象的 BS。我想知道的是为什么他们只有大约 4 个 SNP 的 10,000%？我确定这不是样本量？实际上它是相反的。对于较小的样本量，您可以解释更多的方差。对于 N = 2 的样本大小，两个受试者中不共存的任何基因都解释了它们之间的表型差异，相关性 r = 1。阻碍他们前进的实际约束是什么？为什么他们不使用超过 200,000 个 SNP 的蛮力拟合来做他们为身高所做的事情？使用 200,000 个变量（是的，它们只是二进制变量），如果样本量不太大，您应该能够拟合任何随机数字序列。 样本量的巨大使他们无法获得他们想要的结果。
utu 说：
25年2017月1日，格林尼治标准时间上午13:XNUMX •200字
@res
我查看了 Visscher 的 GCTA，并试图理解它，但到目前为止没有取得多大成功。但是我认为过度拟合可能是个问题。然后我找到了这篇论文：

GCTA的局限性，无法解决遗留的遗传性问题
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4711841/
在这里，我们表明应用于当前 SNP 数据的 GCTA 不能产生可靠或稳定的遗传力估计。我们首先表明 GCTA 敏感地依赖于高维遗传相关矩阵 (GRM) 的所有奇异值。当 GCTA 中的假设完全满足时，我们表明 GCTA 产生的遗传力估计将有偏差，标准误可能不准确。当对总体进行分层时，我们发现 GRM 通常具有高度偏斜的奇异值，并且我们证明了许多小的奇异值无法可靠地估计。因此，GWAS data 必然会被 GCTA 过度拟合结果， 产生遗传力的高估计. 我们还表明，GCTA 的遗传力估计对所选样本和表型中的测量误差很敏感。

• 回复： @res
Double Juice JJ 说：
25年2017月1日，格林尼治标准时间上午14:XNUMX •400字
@res

这似乎是许多研究（例如医学）中的常见做法。为什么你认为它在这里不适用？

好吧，身高研究也使用种族同质的样本，他们发现这样的事情：

在强烈的遗传影响下，身高是一个复杂的性状。迄今为止，许多基因位点与欧洲血统个体的身高有关。然而，很少有关于少数民族身高的大规模发现全基因组关联研究（GWAS），因此关于特定人群身高调节的信息是有限的。我们对来自女性健康倡议的 8149 名非裔美国 (AA) 女性的身高进行了 GWA 分析。在复制数据集 (n = 5 10) 中对 P < 5 × 169-20 (n = 809) 的遗传变异进行了跟踪，并对总共 28 958 名 AA 和非洲裔个体进行了荟萃分析。代表 7 个独立基因座的 5 个单核苷酸多态性 (SNP) 在 P < 10 × 8-17 时与高度显着相关。我们在 23q100 (TMEM22.3/PCTP) 和 Xp4 (ARSE) 中发现了新的 SNP，反映了 AA 中特定人群的高度调节，并复制了先前在欧洲血统人群中报道的五个基因座 [15p11/LCORL、13q1/SERPINH12、14q2/HMGA17 , 23q3/MAP3K3 (丝裂原活化蛋白激酶18) 和 21q4/DYM]。此外，我们对身高进行了混合映射分析，该分析对 GWA 分析是补充和支持的，并表明了 4 号染色体 (21q15)、15 号 (26q17) 和 17 号 (23qXNUMX) 上的祖先和身高之间的潜在关联。我们的研究结果提供了对身高遗传结构的深入了解，并支持对非欧洲血统人群的调查，以识别与复杂性状相关的遗传因素。具体来说，我们确定了可能反映特定人群身高的新基因座，并报告了几个已知的身高基因座，这些基因座对确定非洲裔人群的身高很重要。

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3259012/

当我们讨论这个话题时，如果种族的智商平均值没有差异，您的 1. 是否也适用？也许这只是一种礼貌的说法 3.？ ; )

如果表型没有因血统而异，则不存在将中性血统标记误认为作用于表型的基因的风险。所以你不需要控制种族。

身高是一个很好的例子，你似乎承认。我很想更好地理解为什么你没有发现汤普森博士的帖子和我提供的有说服力的证据。

假设身高和智力研究具有可比性是错误的。身高研究不需要不合理的样本量来发现实质性的遗传力。

• 回复： @res
utu 说：
25年2017月1日，格林尼治标准时间上午27:XNUMX •100字
@Double Juice JJ

我们估计了人类身高的方差比例，解释为 294,831个SNP 基因分型 3,925 无关个人 使用线性模型分析

您对这项研究的有效性有意见吗？它是 200k 二进制变量和只有 4k 样本的完全未定系统。要验证这一结果，必须有一个明显大于变量数量的样本。

• 回复： @Double Juice JJ
Double Juice JJ 说：
25年2017月1日，格林尼治标准时间上午30:XNUMX •300字
@res
谢谢你，你是一个有礼貌的辩论者。对不起，如果我居高临下和咄咄逼人。

但我预计会选择积极的变体（即在 MAF 中增加），除非有反补贴力量。它确实提出了一个有趣的问题，即身高是否是这些“身高 SNP”的主要生存相关问题。还有一个问题是，较大的影响大小趋势是否部分是只能在该 MAF 处检测到较大的影响大小的人为因素。

嗯，自然选择没有什么自动的。仅当基因型提供显着的生存和繁殖优势时才会选择它们。在大多数人群中，智商和身高似乎并非如此。您可以主要通过查看方差来测试是否选择了表型。自然选择导致非常低的方差，与巨大的 IQ 钟形曲线完全不同。 Also, when a trait is selected, you notice very high between group differences and consistent geographic distribution (equatorial populations are dark, rainforest dwellers are short…) with very low average. 智商也不遵循这种模式。这些特征往往是不可延展的：对肤色或眼睛形状没有弗林效应。遗传研究很容易发现选择信号。

这些复杂的特征具有完全不同的遗传结构。

我是否感到困惑，或者那篇论文实际上是否有助于解释为什么大样本量很重要？（即，而不是被嘲笑）

当有人顽固地试图证明常见变体是造成大多数方差但只能解释其中的 4% 时，大样本量是可笑的。有一段时间你只需要停止抓住稻草。

• 回复： @res
Double Juice JJ 说：
25年2017月1日，格林尼治标准时间上午42:XNUMX •200字
@res

也许我很密集，但你在暗示我缺乏理解在哪里？请引用你不同意的话。

当您说身高研究由于样本量而面临同样的缺失遗传力危机时，我不得不不同意。它不是。

我会提醒你我最初反对“但命中只能解释 4% 的方差。太可怜了。” 这与群体差异无关。

哦，是的，只是对帖子和评论部分令人毛骨悚然的世袭狂喜做出反应。与个人无关。

除了想避免职业自杀。并让学术顾问和资助者签署有争议的研究。如果你是一名学者，你会比我更清楚这一点。

我不是学者，我知道的也不比你多。我所知道的是，先驱基金正在慷慨地资助科学种族主义“研究”，像 Rushton/Flushton、Harpending/Harpoondick 或 Hsu/Shoe 这样的人正在不厌其烦地做他们的事情。

我们真的需要讨论 Jason Richwine 和他的争议较少的研究吗？或者詹姆斯沃森，我会认为他处于无懈可击的位置？

他们没有做任何研究。他们只对种族发表随机评论。

我们是否同意不同意关于群体差异的遗传学并讨论 GWAS 的其他方面？

听起来不错。

• 回复： @res
Double Juice JJ 说：
25年2017月1日，格林尼治标准时间上午50:XNUMX •300字

人的身高是一个综合测量值，反映了腿、脊椎和头长的总和。许多常见的变体影响总身高，但这些或其他变体对身高组成部分（身体比例）的影响仍然很大程度上未知。我们研究了坐高比 (SHR)，即坐高与总高度的比值，以确定 3,545 名非裔美国人和 21,590 名欧洲血统的人的这种影响。我们发现 SHR 是可遗传的：SHR 总方差的 26% 和 39% 可以分别用欧洲和非裔美国人的常见变异来解释，全球欧洲混合与非裔美国人的 SHR 呈负相关（r2 ≈ 0.03）。六个区域达到了全基因组显着性（p < 5 × 10-8），与 SHR 和重叠的生物学候选基因（包括 TBX2 和 IGFBP3）相关。我们发现 130 个与身高相关的变体中有 670 个在名义上与 SHR 相关（p < 0.05），比偶然预期的要多（p = 5 × 10-40）。在这 130 个位点，身高增加的等位基因与 SHR 的减少（71 个位点）或增加（59 个位点）相关，这表明不同的高度位点不成比例地影响腿长或脊柱/头部长度。通过 DEPICT 进行的通路分析表明，影响 SHR 的高度基因座，尤其是影响腿长的那些基因座，与对 SHR 没有影响的基因座（例如，胚胎发育）相比，显示出不同生物通路（例如，骨/软骨/生长板通路）的富集。这些结果突出了使用一对相关但正交的表型的价值，在这种情况下，具有身高的 SHR，作为剖析多基因性状和疾病中遗传关联的生物学基础的棱镜。

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4570286/

看看身高研究如何在不需要愚蠢的样本量的情况下取得成效……

• 回复： @res
, @utu
Double Juice JJ 说：
25年2017月2日，格林尼治标准时间上午09:XNUMX •200字
@res

请注意，对于 IQ SNP，MAF 中种族之间的差异是众所周知的，但在我们异端之外很少有人评论。

呃！我错过了……您是在谈论 Piffer 从未通过同行评审的荒谬命理吗？即使是对 HBD 非常友好的情报杂志也毁掉了他的“工作”。 Piffer 使用了在欧洲样本中发现的十几个可悲的 GWAS 命中，他将它们与同样可悲的 IQ 数据联系起来，他们声称它们是“自然选择的多基因基因型”的一部分，而没有详细说明自然选择的信号，他们抱怨“muh PC期刊不会发表我，所以 f**k 同行评审”。

他以为他在骗谁？它不是那样工作的。您需要在其他人群中复制命中，这也将导致发现新的人群特定位点（尤其是在涉及非洲人及其巨大的遗传多样性时）。并且将进行互补的混合/遗传距离分析来确认该模式。当然，你需要一个比 Lynn 可笑的全球智商数据更好的衡量标准。

• 回复： @res
res 说：
25年2017月2日，格林尼治标准时间上午09:XNUMX •300字
@Double Juice JJ

好吧，身高研究也使用种族同质的样本，他们发现这样的事情：

我看到您的链接是针对非洲裔人的研究，但我看不出这与我所说的相反。

如果表型没有因血统而异，则不存在将中性血统标记误认为作用于表型的基因的风险。所以你不需要控制种族。

好的。然后我们就同意了。谢谢。

假设身高和智力研究具有可比性是错误的。身高研究不需要不合理的样本量来发现实质性的遗传力。

也许您可以对“不合理的样本量”和“大量遗传力”提供更严格的定义？您链接的 GIANT 研究的样本量为 250,000 人（比本文中的研究多），并解释了 20% 的遗传力（相比之下，本 IQ 研究为 4%）。

问题是 形成一种 可比较的是智商和身高研究（即它不是二元可比或不是问题）。我看到的主要区别是身高具有更高的遗传力，并且更容易和准确地测量（正如您之前提到的）。这些都将增加智商研究所需的样本量，以解释尽可能多的遗传力。此外，测量高度的简便性和频率意味着获得良好的大样本数据要容易得多。

基于在 http://www.biorxiv.org/content/early/2017/08/11/175406 （上面也有链接）看起来解释 50% 的遗传力需要 800k 的 IQ 样本与 350k 的身高样本。这对我来说似乎并不是特别不合理，但我们将不得不等待，看看估计值如何与现实相符。

• 回复： @Double Juice JJ
, @Double Juice JJ
Double Juice JJ 说：
25年2017月2日，格林尼治标准时间上午16:XNUMX
@utu
是的，这是一项可靠的研究，具有巨大而积极的引用反馈：

https://scholar.google.fr/scholar?cites=6393909358148752848&as_sdt=2005&sciodt=0,5&hl=en

（2000 多次引用）

没有什么能比得上让世袭者日的上述预印本。
res 说：
25年2017月2日，格林尼治标准时间上午28:XNUMX •300字
@Double Juice JJ
这项研究有很多事情要做。如果我理解正确，所引用的高方差解释来自 GCTA。将其与样本量更小的认知能力 GCTA 研究进行比较： https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3652710/

常见的DNA标记可占遗传学对认知能力影响的一半以上。

近一个世纪以来，双胞胎和收养研究已经对认知能力的遗传力进行了大量估计，尽管事实证明，全基因组关联研究很难确定导致这种遗传力的遗传变异（即缺失遗传力问题）。然而，一种新的方法，全基因组复杂性状分析 (GCTA)，放弃了对单个变体的鉴定，以估计基因分型阵列上常见 DNA 标记捕获的总遗传力。在 3,154 对 12 岁双胞胎的同一个样本中，我们直接比较了双胞胎研究对认知能力（语言、语言、非语言和一般）的遗传力估计值与 1.7 万个 DNA 标记捕获的 GCTA 估计值。我们发现由阵列标记的 DNA 标记占估计的遗传力的 66，重申认知能力是可遗传的。仅较大的样本量就足以识别许多影响认知能力的遗传变异。

另请注意，您的研究使用了 253k 样本量研究（参考 2）： https://www.ncbi.nlm.nih.gov/pubmed/25282103
得到一组它使用的高度等位基因。当它依赖于来自更大样本量研究的数据来得出一些结论时，将其作为小样本量的范例来呈现有点误导。

但所有这一切都表明，正如我在上面提到的那样，智商研究确实需要更大的样本量才能获得相同的结果。只是区别不大这大（比如说2-4倍？）。
res 说：
25年2017月2日，格林尼治标准时间上午39:XNUMX •100字
@Double Juice JJ

当您说身高研究由于样本量而面临同样的缺失遗传力危机时，我不得不不同意。它不是。

我在哪里说的？我要求你引用我的话是有原因的。

听起来不错。

好的。我什至要给你最后一句话，除了要注意我不同意“他们只是对种族发表随机评论”。

PS你知道你的三个例子（Rushton、Harpending、Hsu）中有两个已经死了，对吧？因此，就“无忧无虑地做他们的事情”而言，不再那么重要了。
res 说：
25年2017月2日，格林尼治标准时间上午48:XNUMX •100字
@Double Juice JJ
撇开 Piffer 的工作不谈，访问 1000 个基因组浏览器（或 SNPedia 等）并查看不同 IQ SNP 的 MAF 并查看它们在人群之间的差异程度是很容易的。当然，这是一个有趣的观察？如果基因对智商的群体差异的总体贡献为零，这将是一个惊人的巧合。

要了解不同人群中相关的 IQ SNP，还有很多工作要做，但肯定至少有一个 SNP 在两个人群中都相关吗？

• 回复： @Double Juice JJ
utu 说：
25年2017月2日，格林尼治标准时间上午49:XNUMX •200字
@Double Juice JJ
我很惊讶为什么你对身高研究不持怀疑态度。您显然相信所有 GWAS 和 GCTA 的炒作，并且完全没有注意到这两种方法面临的严重数学挑战，并且似乎设想了结果调整和伪造的可能性。你唯一不喜欢的是智商正在与 GWAS 和 GCTA 一起研究。你认为除了智商之外，所有其他缺失的遗传能力差距都将被缩小。你太天真了。你对智商业务的攻击是短视的。遗漏的遗传力差距将被不择手段地填补。整个系统严重不确定，自由度太多，这为真正的信徒留下了足够的空间来获得支持他们的教条的理想结果。现场没有任何怀疑者可以看到真正信徒的手在做什么。

你和 res 是同一个级别的。你们两个只是在智商问题上有所不同。

• 回复： @Double Juice JJ
res 说：
25年2017月3日，格林尼治标准时间上午02:XNUMX •200字
@Double Juice JJ

您可以主要通过查看方差来测试是否选择了表型。自然选择导致非常低的方差，与巨大的 IQ 钟形曲线完全不同。

但是你如何标准化呢？大和小相对什么？而且您似乎在假设一个最佳值（这将导致低变化）。在不同的环境中，智商/代谢成本/大脑+臀部大小等因素可能会有不同的权衡。

当有人顽固地试图证明常见变体是造成大多数方差但只能解释其中的 4% 时，大样本量是可笑的。有一段时间你只需要停止抓住稻草。

我认为您对需要更大的样本量来查找单个 SNP 的阅读过多。如果您相信 Visscher 身高 GCTA，那么您还应该相信 GCTA 分析的认知能力（我在上面链接了一个），这表明常见 SNP 解释了显着差异。

此外，当选择一个特征时，您会注意到群体之间的差异非常大并且地理分布一致（赤道人口颜色较深，雨林居民身材矮小......）

你的意思是像SSA和北方人群之间的智商差异> 1SD？（对不起，但你不能指望我不回应这种挑衅性的评论；）

• 回复： @Double Juice JJ
RaceRealist88 说： • 您的网站
25年2017月3日，格林尼治标准时间上午28:XNUMX •100字
@utu
人类身高的变异只有不到一半可以用数十万种变异来解释。智商会一样吗？

尽管对身高遗传力进行了不错的研究：

“……所有独立的变体，已知的和新颖的共同解释了 27.4% 的遗传力。相比之下，697 个已知身高 SNP 解释了同一数据集中 23.3% 的身高遗传力（而本 ExomeChip 研究中发现的新身高变体为 4.1%）”（第 7 页）。

https://serval.unil.ch/resource/serval:BIB_CB04B9543EC2.P001/REF
res 说：
25年2017月3日，格林尼治标准时间上午52:XNUMX •200字
@utu
这太有趣了。您是否关注了相关的争议（顶部的黄色框）？按照研究论文的标准，GCTA 作者的反应相当苛刻： https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4987770/

在 PNAS 最近发表的一篇文章中，Krishna Kumar 等人。 (1) 声称“应用于当前 SNP 数据的 GCTA 不能产生可靠或稳定的遗传力估计。” 我们在下面表明，这些说法是错误的，因为他们误解了基于全基因组复杂性状分析 (GCTA) 的随机效应模型的理论和实践 (2)。
...
Krishna Kumar 等人的论文中还有许多其他错误。 (1)，正如我们 (2) 和其他人 (8) 指出的那样。总之，克里希纳库马尔等人。 (1, 5) 误解了 GCTA-GREML 的模型和假设，因此使用不正确的预期均值和 σ^2 子集的 SD 与从重采样中观察到的值进行比较。因此，他们关于 GREML 估计偏差的结论没有经验证据支持。

• 回复： @utu
, @utu
, @utu
Double Juice JJ 说：
25年2017月3日，格林尼治标准时间上午58:XNUMX
@utu
是的，我相信 GWAS 和 GCTA 的有效性。我只是不买智商研究人员的样本量借口。

• 回复： @utu
Double Juice JJ 说：
25年2017月4日，格林尼治标准时间上午13:XNUMX •200字
@res

但是你如何标准化呢？大和小相对什么？而且您似乎在假设一个最佳值（这将导致低变化）。

嗯，自然选择就是为了适应给定的环境而选择一个非常窄的范围内的优越适应度。

在不同的环境中，智商/代谢成本/大脑+臀部大小等因素可能会有不同的权衡。

或者可能没有这样的权衡。

我认为您对需要更大的样本量来查找单个 SNP 的阅读过多。如果您相信 Visscher 身高 GCTA，那么您还应该相信 GCTA 分析的认知能力（我在上面链接了一个），这表明常见 SNP 解释了显着差异。

我同意他们的观点，除了我对缺乏特定的已识别基因座感到困扰，这使得除了单纯的统计关系之外很难证明因果关系。

然而，认知能力的遗传性似乎比通常所说的要温和得多。
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3652710/table/table1-0956797612457952/

你的意思是像SSA和北方人群之间的智商差异> 1SD？

不，我的意思是肤色的 >∞SD 差异，因此赤道非洲人是 决不要 皮肤比任何欧洲人都浅。没有重叠，没有缩小差距（在美国减少了 1/3，在欧洲可以忽略不计），就像肤色、头发质地、面部特征一样稳定和发散。
Double Juice JJ 说：
25年2017月4日，格林尼治标准时间上午23:XNUMX •100字
@res

撇开 Piffer 的工作不谈，访问 1000 个基因组浏览器（或 SNPedia 等）并查看不同 IQ SNP 的 MAF 并查看它们在人群之间的差异程度是很容易的。当然，这是一个有趣的观察？如果基因对智商的群体差异的总体贡献为零，这将是一个惊人的巧合。

好吧，根据情报期刊审稿人的说法，没有 MAF 计算是错误的。

你可以在这里阅读他的咆哮： https://topseudoscience.wordpress.com/2016/01/10/the-forbidden-paper-on-the-population-genetics-of-iq/

以及这里的更正数据： https://topseudoscience.wordpress.com/2016/01/14/using-derived-alleles-to-amplify-selection-signatures-on-intelligence/

再一次，它只使用欧洲 GWAS 点击完成。特定人群的变异可以极大地改变数据，尤其是当多基因评分的差异如此之低时。

皮弗是个小丑。这个也需要一个昵称。

• 回复： @res
Double Juice JJ 说：
25年2017月4日，格林尼治标准时间上午28:XNUMX •100字
@res

您链接的 GIANT 研究的样本量为 250,000 人（超过本文中的研究）

什么？这篇文章的研究对 280K 个体进行了抽样，并设法解释了仅 4% 的方差。

这对我来说似乎并不是特别不合理，但我们将不得不等待，看看估计值如何与现实相符。

这是完全不合理的。从未见过任何其他特征（甚至是行为）的样本量要求如此之高。

• 回复： @res
Double Juice JJ 说：
25年2017月4日，格林尼治标准时间上午36:XNUMX •100字

我在哪里说的？我要求你引用我的话是有原因的。

你从字面上说身高和智商研究是可比的。

好的。我什至要给你最后一句话，除了要注意我不同意“他们只是对种族发表随机评论”。

向我展示他们关于该主题的同行评审论文。
并且他们的逮捕令来自 PC 宗教裁判所。

PS你知道你的三个例子（Rushton、Harpending、Hsu）中有两个已经死了，对吧？因此，就“无忧无虑地做他们的事情”而言，不再那么重要了。

是的，但你知道我的意思。 Flushton 和 Harpoondick 都死于自然原因，没有被大学开除或其他任何事情。学术自由，很多江湖骗子靠垃圾研究逍遥法外。就 steve shoe 而言，他甚至是管理员之类的。

• 回复： @res
Double Juice JJ 说：
25年2017月4日，格林尼治标准时间上午45:XNUMX •100字
@res

我看到您的链接是针对非洲裔人的研究，但我看不出这与我所说的相反。

他们明确指出，研究仅针对高加索人样本进行，需要少数样本来发现新的人群特定变体。

也许您可以对“不合理的样本量”和“大量遗传力”提供更严格的定义？

没有

我只是这样想，与对其他特征的研究相比，没有无知的博主在找借口，实际上不需要这样的借口。

• 回复： @res
res 说：
25年2017月4日，格林尼治标准时间上午51:XNUMX •100字
@Double Juice JJ

皮弗是个小丑。这个也需要一个昵称。

从我的角度来看，这样的陈述只是表明某人没有真正的反驳论据。这些天来，这种说法似乎很流行。朋友不要让朋友表现得像 SJW。

好吧，根据情报期刊审稿人的说法，没有 MAF 计算是错误的。

所以你是说 1000 个基因组和 SNPedia 给出的 MAF 是错误的吗？假装 Piffer 不存在。从 IQ 研究中获取 SNP，并查看 1000 个基因组和 SNPedia 中的 MAF。您认为它们在组之间是否相同？
Double Juice JJ 说：
25年2017月4日，格林尼治标准时间上午57:XNUMX
这是 Puffer 的另一种专业化尝试。

https://topseudoscience.wordpress.com/2016/01/21/derived-allelescorrected-polygenic-scores-and-height/
utu 说：
25年2017月5日，格林尼治标准时间上午22:XNUMX •200字
@Double Juice JJ
是的，我相信 GWAS 和 GCTA 的有效性。我只是不买智商研究人员的样本量借口。

显然你确实相信。如果你做出并试图理解你所相信的东西会很好，但要小心，因为这对你来说可能是一个创伤性事件。

样本量实际上可能不是借口。样本量越小，越容易表现出高相关性和高遗传力。样本越大，他们就越难。可能他们可以通过过度拟合更容易地用较小的样本量来实现它，这可能是 Visscher 的人无论如何都会犯的。他们想要大样本量的原因是因为他们需要识别更多的 SNP。到目前为止，他们达到了 10,000 个 SNP 并获得了 4%。身高需要 200,000 个 SNP 才能获得 45% 的遗传力。相信者先生，你很高兴得到高的结果，对吧？那么，为什么您不想让智商专家拥有 200,000 或更多的 SNP？

• 回复： @hyperbola
hyperbola 说：
25年2017月1日，格林尼治标准时间下午55:XNUMX •200字
@res
你提出严重扭曲的论点，这些论点显然是故意的歪曲。这种做法使您的论点不可信。我对打击你挑选句子的尝试不太感兴趣。所以我简单地指出：

参考。 2. 尽管进行了十多年的 GWAS 研究，但只有 5-10% 的帕金森病可以通过接近必要和充分标准的基因来解释。这意味着 90-95% 不能。对于帕金森氏症，已经鉴定出许多既非必要也非充分的基因，即表明依赖于大型基因网络。

参考文献 4-6 让您开始思考为什么我们通常应该期望复杂特征（例如“一般认知功能”）将基于大量基因而单个基因的影响有限。例外是占人类疾病负荷约 1% 的“罕见疾病”病例（是的，有时这些病例可能已被医生归类为更具包容性的疾病类别，例如 5% 的“帕金森氏症”）。

抱歉，您没有理解为什么要包括参考 4-6。 “复杂系统中的不可知性”应该成为研究资助决策的主要标准！特别是对于模糊地定义为“一般认知功能”的“结果”。

• 回复： @res
hyperbola 说：
25年2017月2日，格林尼治标准时间下午57:XNUMX •200字
@utu
如果这意味着对遗传力的影响越来越大，那么获得越来越多的 SNP 并不是向前迈出的一步。例如，这对个性化医疗的“有希望”的土地是极其有害的。而且，当然，您对此类研究的“不确定性”是正确的。

就我个人而言，我认为这将比简单的 DNA 测序更广泛。这只会为更相关的研究提供一些起点。类似于本文建议的内容。

Scholz SW，Mhyre T，Ressom H，Shah S，Federoff HJ。 2012. 基因组学和
帕金森病的生物信息学。冷泉 Harb Perspect Med
2：a009449。

事实上，我几乎可以预测，即使作为一种诊断工具，基因测序最终也会变得完全无关紧要。如果我们能找到监控关键网络功能的方法，然后寻找数千个（数百万个？）变异基因（其中一些可能以前在被诊断个体的背景下没有被识别出来），那么基因测序就是一种嵌合浪费时间。

• 回复： @res
res 说：
25年2017月2日，格林尼治标准时间下午57:XNUMX •100字
@Double Juice JJ

什么？这篇文章的研究对 280K 个体进行了抽样，并设法解释了仅 4% 的方差。

我的错。我把它记错了 230k（我认为这对应于我提到的其他研究之一）。

从未见过任何其他特征（甚至是行为）的样本量要求如此之高。

也许你可以就此与双曲线进行辩论。
res 说：
25年2017月3日，格林尼治标准时间下午01:XNUMX •100字
@Double Juice JJ

他们明确指出，研究仅针对高加索人样本进行，需要少数样本来发现新的人群特定变体。

是的。这与我所说的到底有什么不同？我们正在讨论通常对较大的（在进行大多数研究的国家）白人亚群进行研究的原因。你给出的理由是不够的。它们是互补的（而不是对立的）点。

也许您可以对“不合理的样本量”和“大量遗传力”提供更严格的定义？

没有

这充分说明了在这一点之后继续这场辩论是多么值得。感谢您的澄清。
res 说：
25年2017月3日，格林尼治标准时间下午14:XNUMX •300字
@Double Juice JJ

你从字面上说身高和智商研究是可比的。

如果它是如此的字面意思，你应该不会有困难指向一个引用，是吗？这种对“反驳”稻草人解释的渴望是另一个表明辩论不值得继续的迹象。

我假设您指的是我的评论 31，其中我说：“身高不是这种情况”，以回应：“无论存在什么遗传性，都必须主要归因于罕见的变异，并受到表观遗传学和环境影响的混淆。”

我支持这种说法。你支持你的最后一句话吗？你知道“加性遗传”已经排除了表观遗传学和环境影响，对吧？

身高对于智商遗传学来说是一个不完美但有用的类比。由于身高更容易测量且更容易遗传，因此身高的遗传研究进展得更快（例如样本量更小），但随着时间的推移，进展似乎相似。智商只是延迟（样本大小），并且解释的最大百分比方差较小（遗传力较低）。

向我展示他们关于该主题的同行评审论文。
并且他们的逮捕令来自 PC 宗教裁判所。

是的，詹姆斯沃森显然不是遗传学主题的真正科学家。哈哈！
第二句话是你在这个话题上不诚实的另一个指标。我们都知道 PC 调查不依赖逮捕令。）更多的是关于暴民正义（又名私刑）。

学术自由，很多江湖骗子靠垃圾研究逍遥法外。就 steve shoe 而言，他甚至是管理员之类的。

广告人。声明一个人的最佳方式已经失去了谈话中合理的论点部分。
res 说：
25年2017月3日，格林尼治标准时间下午33:XNUMX •300字
@hyperbola

你提出严重扭曲的论点，这些论点显然是故意的歪曲。这种做法使您的论点不可信。我对打击你挑选句子的尝试不太感兴趣。所以我简单地指出：

我认为我的评论 29 中论点的有效性可以很容易地与其他人的评论 71 进行比较，但有一些想法。

我的“扭曲” 报价与您模糊的释义相比。我想我们都可以自己判断这些的相对价值。

“不感兴趣”=无法。

如果我的论点是这样的扭曲和歪曲（当你没有数据在你身边敲桌子并使用贬义语言时）他们应该很容易反驳。

参考。 2. 尽管进行了十多年的 GWAS 研究，但只有 5-10% 的帕金森病可以通过接近必要和充分标准的基因来解释。这意味着 90-95% 不能。

方便地忽略 选择您 参考 1. 和 3. 你指责我摘樱桃？！哈哈！投影是一个可怕的东西。

请记住，5-10% >> 1%，这是我在评论 29 中引用的您的数字。您现在是否否认该声明而支持 5-10%？

抱歉，您没有理解为什么要包括参考 4-6。 “复杂系统中的不可知性”应该成为研究资助决策的主要标准！

既然你已经证明你并没有真正辩论事实，我想我现在就从人身攻击开始，夸张（1%！这个名字是来得及的）。在谈论我认为的不足之处之前，你可能想研究一下投射的心理学概念。

“不可知性”可能并不意味着您的想法。无法知道基本粒子水平的详细状态和机制并不意味着我们无法用我们所知道的东西进行有用的科学和工程。不这样想简直就是无知。但后来我猜生理学、热力学等都是一文不值的。

• 回复： @hyperbola
Logan 说：
25年2017月3日，格林尼治标准时间下午35:XNUMX •100字
@nickels
我也不知道，而且我认为没有人知道。

但我认为很明显 DNA 并不能决定一切。它可能会限制潜力，但不会强制执行。

IOW，我的 DNA 可能决定我可以达到的最大身高是 6 英尺，而我可以达到的最大智商是 120。但我是否达到这些最大值取决于一系列环境因素，包括产前和产后，我们不太了解全部。

• 回复： @res
res 说：
25年2017月4日，格林尼治标准时间下午04:XNUMX •400字
@hyperbola
直接链接到您的参考： https://www.ncbi.nlm.nih.gov/pubmed/22762024

摘要中的最后一句话：

在这里，我们讨论了如何应用神经基因组学和生物信息学来剖析这种复杂疾病的性质，总体目标是开发合理的治疗干预措施。

你和那些自我反驳的参考资料是怎么回事？您是否不明白论文所说的内容，或者您只是认为我们其他人会因为您给出了正确的引用而盲目地向您鞠躬？您确实了解 SNP 检测是此过程的必要但不充分的部分，对吗？

我认为这里没有人争辩说找到更多的 SNP 将是这个过程的结束。但这是了解遗传学与各种特征（和生物学机制）之间关系的关键一步，并有望最终提供（如您的参考资料中所述）治疗干预的机会，以及对现实的更好理解（我认为这是公平地说是科学的基本目标）。

事实上，我几乎可以预测，即使作为一种诊断工具，基因测序最终也会变得完全无关紧要。

这可能是我在这里读到的最有趣的声明。这似乎与当前的趋势背道而驰。 10 年或 20 年后重温的好作品。

对于一些反例，您认为人们会停止使用 APOE 作为阿尔茨海默病的脆弱性筛查吗？你认为 JScreen 是在浪费时间吗？ https://jscreen.org/faq/

听着，我明白基因测试并不是了解生物学的全部。 PKU 检测是通过寻找血液中必要的酶（苯丙氨酸羟化酶）而不是仅仅观察 SNP（例如，一种罕见的非 SNP 变异体破坏酶的产生）来完成的，这是有原因的。您对将我们对遗传学的理解与人类生物学的其他方面的理解相结合的重要性是正确的。 FWIW 我参加了多门系统生物学课程，整合是一个主要关注点。（就像生物学、亚细胞、细胞、组织、器官、有机体的多个层次之间的整合一样）

基因筛选可能始终保持相关性的原因是它们提供的预测能力 在人类实体存在之前. 他们目前允许筛查潜在父母的风险（JScreen），并最终可能允许 PGD（植入前基因诊断）的各种用途。

• 回复： @hyperbola
res 说：
25年2017月4日，格林尼治标准时间下午27:XNUMX •200字
@Logan

但我认为很明显 DNA 并不能决定一切。它可能会限制潜力，但不会强制执行。

IOW，我的 DNA 可能决定我可以达到的最大身高是 6 英尺，而我可以达到的最大智商是 120。但我是否达到这些最大值取决于一系列环境因素，包括产前和产后，我们不太了解全部。

这是我在这个评论线程上读到的最明智的事情之一。可能是向不想要更多细节的人解释它的好方法，但如果我可以提供一个变体。

DNA 决定了可能的高度在可能的环境中的分布。该分布的特征很有趣，但无法详细了解。让我们假设它有点高斯分布（例如，集中在一个中心周围，在任一方向上都有变化）。在典型环境中，DNA 会在“典型”高度附近定义一个可能的高度范围（我怀疑范围宽度不同，有些人对环境更敏感，有些人更健壮）。对环境进行特别有针对性的干预可能会导致异常结果（在功能较少而不是功能较多的方向上可能更容易）。

以身高为例，人类生长激素的充分应用应该能够使人（几乎在人类历史上看到的范围内）任意高。

作为一个非身高的例子，PKU 特定的饮食可以防止在几乎任何“典型”环境中发生的不良后果。

• 回复： @Logan
, @hyperbola
utu 说：
25年2017月6日，格林尼治标准时间下午55:XNUMX •200字
@res
是的，我已经阅读了他们的回复。我不知道在这场争论中谁是对的。我对 GCTA 方法的基本知识没有足够的了解，无法做出判断，但欢迎有人（Kumar）站出来提出对我来说听起来正确的主张，因为他们证实了我的数学直觉，主要是关于过度拟合我相信这可能是一个严重的问题。我希望我们有更多来自该领域的人可以提出一些批评并迫使内部人员更加努力地工作并保持高度的诚信。我从个人经验中知道什么是群体思维，以及它对研究的完整性有什么危害。 GCTA 的从业者应该接受盲测来分析真实和虚假的数据集，而不知道它们来自哪里以及它们代表什么。例如，在超过 200 万个 SNP 和 4k 个受试者的高度研究中，他们获得了 45% 的遗传力。我会要求他们对同一组数据做同样的事情，其中高度受到不同幅度的噪声的干扰，以查看遗传力将如何变化，更重要的是，罪魁祸首 SNP 的集合将如何变化。这是稳定性和鲁棒性的问题。可以想到应该执行许多不同的测试。
utu 说：
25年2017月7日，格林尼治标准时间下午22:XNUMX •100字
@res
我找到了这个，但我无法让副本阅读它：

http://www.biorxiv.org/content/early/2016/02/13/039594
对“GCTA 作为解决遗传性缺失问题的解决方案的局限性”的评论的回应

在最近的一份手稿中，Yang 和同事批评了我们的论文“GCTA 作为解决缺失遗传力问题的方法的局限性”。在这里，我们表明他们的主要主张在统计上是无效的，我们的结果如前所述。
Logan 说：
26年2017月8日，格林尼治标准时间上午15:XNUMX •100字
@res
谢谢。你的解释好多了。

可悲的是，我没有背景来真正解释我对这个问题的直觉理解。

边开车边听书，最近在听小说《美丽新世界》。在其中，他们克隆人，然后损害他们的智商来创建小组来处理无人机任务，而不会反感或反抗。（赫胥黎没有意识到在真正的未来几乎不需要无人机。）

但我从中得到的是，虽然我们不知道如何提高人们的智商，除了边缘，我们确切地知道如何降低它。
hyperbola 说：
26年2017月2日，格林尼治标准时间下午34:XNUMX •300字
@res
你在第一句话中再次挑剔。在引言之后，该论文广泛讨论了为什么像测量 SNP 这样的遗传方法总是不足的。

无论您测量多少 SNP，它们永远不会是所有人类的完整集合，并且在许多情况下，它们可能与您建议对其进行诊断/治疗的个体的遗传背景完全无关。这是发现既非必要也不充分的遗传变异的不可避免的结论。它与通过网络的复杂性/冗余性在生物系统中创建稳健性密切相关。这种复杂性意味着您设想的屏幕类型（例如 JScreen）可能只与“罕见”疾病相关，而与大多数人类疾病无关。如果功能性“网络”包括数百个基因（如原始文章建议的“一般认知功能”），那么很可能有数千甚至数百万个 SNP 可能以某种方式影响网络功能，即“相关”与疾病。其中许多（大多数？）可能永远不会被仅包括极少数人口的人口筛选发现。如此复杂的网络相互交织也意味着您声称已识别出与特定疾病相关的那些 SNP 很可能会产生许多其他意想不到的功能性后果。所有这一切意味着，除了罕见病之外，“个性化”药物和大多数生殖系操作都严重过度销售，很可能是犯罪操作。

• 回复： @res
hyperbola 说：
26年2017月2日，格林尼治标准时间下午40:XNUMX •100字
@res
您的生长激素示例可能存在缺陷。我们已经知道，网络冗余可以让其他人在适当的环境背景下补偿个体激素的缺乏。虽然我们不能在人类身上做这个实验，但人为过量的荷尔蒙很可能会受到补偿。这就是鲁棒性的意义所在。

• 回复： @res
hyperbola 说：
26年2017月2日，格林尼治标准时间下午58:XNUMX •100字
@res
不感兴趣的是正确的陈述。您尝试挑选单个句子的尝试令人讨厌。正如其他人（例如 utu）也指出的那样，当达到该水平所需的基因数量达到数百个时，您喜欢的陈述（例如“60% 的变异性是可以解释的”）变得毫无意义。

• 回复： @res
, @res
, @utu
res 说：
26年2017月3日，格林尼治标准时间下午44:XNUMX •100字
@hyperbola

无论您测量多少 SNP，它们永远不会是所有人类的完整集合，并且在许多情况下，它们可能与您建议对其进行诊断/治疗的个体的遗传背景完全无关。

该声明的弱点（谁断言将永远存在完成设置？，好稻草人）与您之前的“1％的方差”之类的东西相比，这清楚地表明您对之前的陈述有多么少的支持。此时你只是在喷 FUD。

对于那些不熟悉该技术的人来说，以这种方式退回语句是 Motte 和 Bailey 的一个很好的例子： https://rationalwiki.org/wiki/Motte_and_bailey
res 说：
26年2017月3日，格林尼治标准时间下午50:XNUMX •100字
@hyperbola
所以现在你正在参与论据谬误也是如此。很高兴知道。

您确实了解我在评论 29 中引用的参考文献（来自您）使用的 SNP 数量相对较少，对吧？

我很好奇，这种辩论风格在现实生活中对你有用吗？

有趣的是，鉴于相对较少数量的 SNP 的重要性，您似乎仍然没有发现帕金森病是您使用的一个可怕的例子。
res 说：
26年2017月3日，格林尼治标准时间下午52:XNUMX
@hyperbola

您尝试挑选单个句子的尝试令人讨厌。

与您相反，您从未真正引用过您引用的论文中的某些内容。知道了。

释义>引号
没有指向参考的链接 > 指向参考的链接

我错过了吗？
res 说：
26年2017月4日，格林尼治标准时间下午01:XNUMX •200字
@hyperbola

您的生长激素示例可能存在缺陷。

更多的 FUD，但你可能是对的。在下面强调我的。

我们已经知道网络冗余能够允许其他人在适当的环境背景下对个体激素的缺乏进行补偿。

真的。但请注意，“缺乏”与“过剩”不同。尽管考虑到身体充满了反馈系统，但出于不同的原因，这也可能是正确的。

虽然我们不能在人类身上做这个实验，但人为的过量荷尔蒙是 更有可能 受到补偿。

尽管我们可能无法将其作为实验进行，但很多人正在给儿童服用 HGH。它似乎有效果（即“稳健性”有限制）。 HGH 的一个大问题是它（至少从历史上看是）昂贵的。在这和对副作用的合理担忧之间，我认为没有人曾尝试过对人类使用高剂量 HGH（这是我的 思想实验 大约）。

这就是鲁棒性的意义所在。

的确。有趣的问题是主题是如何超载的。我相信我们不知道答案。然而？
utu 说：
26年2017月7日，格林尼治标准时间下午53:XNUMX •200字
@hyperbola
我插嘴回应，这样我就不必因为徒劳地调用我的名字而惩罚你。有时你必须执行你自己制定的法律。

博主 res 可能是一个真正的痛苦，但当他是智商福音和 DNA 决定论的真正信徒时，他试图掌握超出和高于你在以下地方发现的智商爱好者的暴民所能达到的水平的理解 unz.com. 在极少数情况下，他会表现出善意，然后他会接受数学论证，因为他似乎有良好的数学背景，他尊重数学并且似乎真的很好奇。如果他摆脱一些束缚他的教条，他的好奇心就会蓬勃发展。但他就像那只只寻找松露的猪，不断地错过隐藏在阿甘的其他宝藏。

与 Double Juice JJ 相比，我每次都使用 res。虽然我对双汁 JJ 持怀疑态度，但他是 21 世纪的完美典范 Obrazovanshchina 而res具有独立思考的能力，并且不惧怕进入Verboten Zonen。
utu 说：
27年2017月4日，格林尼治标准时间上午33:XNUMX •600字
@res
这是一篇有趣的文章，它解释了我一直在喋喋不休的过度拟合问题。同样从那里提出的公式中，可以看出为什么数据集必须很大以减少过度拟合效应的重要性，当一个人使用许多 SNP 时，它与 SNP 的数量成正比。这在直觉上是显而易见的，但实际的公式却不是。公式的推导需要一些假设，例如并非总是有效的正态分布。

从 SNP 预测复杂性状的陷阱
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4096801/

如果群体中表型与单个 SNP 之间的相关性 (R) 为零（即 SNP 与性状无关），则从大小为 N 的样本估计的平方相关性 (R2) 的期望值为1/(N-1)，如果 N 很大，则约为 1/N。因此，随机选择的“候选”（但不是真正相关的）SNP 解释了任何样本中 1/N 的变异。通常 1/N 小到不必担心。然而，一组与感兴趣的表型无关的 m 个不相关的 SNP，当组合在一起时，将解释 m/N 的变异（由于它们的影响的总和）。例如，当在 Nd = 100 的发现样本中进行回归分析时，一组 1000 个独立的 SNP 将平均解释在没有真正关联的零假设下发现样本中的 R2 = 10% 的表型方差。

应用不正确的验证过程会导致对预测准确性的高估（或过度拟合）。发生过拟合的一个例子是在发现样本中测试预测时，即使用相同的数据来估计 SNP 对表型的影响并进行预测

还有一件事情。他们称这两组数据为 发现样本 （您在其上创建模型）和 验证样本 （您在其上确认您的模型）。如果样本量为 N_discovery 和 N_validation，我想知道基于校正 r_discovery 和 r_validation 使用什么标准。报告了哪个相关性作为最后一个？如果集合重叠怎么办？

一个不太明显的错误是在整个样本中选择最显着相关的 SNP，并使用它们来估计 SNP 效应并在发现和验证集中测试它们的预测准确性55。在这种情况下，SNP 解释的方差在应用于验证样本时被夸大了。它会产生偏差和误导性结果，因为 SNP 的初始选择步骤是基于这些 SNP 与整个样本之间存在机会相关性，SNP 与任何子样本之间也是如此

在人类中，弗雷明汉心脏研究（FHS；仅限原始和后代队列）对 5,117 名个体的身高进行多基因预测分析，当将所有个体纳入分析时，使用 2 倍交叉验证，预测 R0.25 为 10。然而，由于 FHS 包括许多相关个体，作者重复了分析，将 60 倍交叉验证样本限制在基于谱系信息的数据集中没有已知近亲（父母-后代、兄弟姐妹或半同胞）的个体. 在这个受限分析中，预测 R10 下降到 2。我们警告说，即使排除了已知的近亲，神秘的相关性仍然会提高预测准确性。

另一种可以夸大预测准确性的方式是，如果发现和验证样本包含相似的人口分层模式，并且最终的目标人口没有类似地分层。例如，如果发现和验证样本是从欧洲美国人等分层人群中独立抽样的，则可能会发生这种情况

• 回复： @res
, @res
utu 说：
27年2017月7日，格林尼治标准时间上午49:XNUMX •400字
GWAS 和 GCTA 方法功效的盲测

数据（基因组）生成：

生成序列 G(i)={P(k)} 其中 k=0,…,K 和 P(k)=0,1,2 或 4（或仅二进制值 0 或 1）随机分配相同的每个 Pk 值和每个位置 k 的概率。这是一个受试者（个体）的所有 SNP 的序列。

重复该过程并生成 i=0,…,NG(i) 序列。（有 N 个科目。）

选择活性（与性状相关）SNP 的子集

对于 j=0,…,J 的索引，随机选择 k(j) 的子集。

生成特征值：

对于序列 G(i)，计算每个 i 的多基因得分：

PS(i)=P(k(0))+….+P(k(J))

计算所有 PS(i) 的均值 M 和方差 V

缩放至均值 = 0 和 SD=1：PS(i)<– [PS(i)-M]/sqrt(V)

将环境因子作为高斯噪声添加到分数中：

PS(i)<–PS(i)+Gnoise(0,SD)

数据大小

受试者数量（样本量）应该很大 N=10^6。但是我们会给研究子集小于 N。说 n=10^4, 5*10^4, 10^5, 2*10^5, 5*10^5... 来测试他们的解决方案如何依赖于样本大小.

与性状相关的 SNP 的数量 J 从 J=1000 到 200,000 不等。 J 越大，难度将随着 Newton(K,J)（牛顿符号）的增加而增加。

应针对各种 n 数量的受试者、各种 J 数量的性状相关 SNP 和各种标准偏差 SD 运行测试。

生成这样的数据库是微不足道的。在笔记本电脑上几个小时？

解决方案？

GWAS 和/或 GCTA 是否会识别活性 SNP 的序列 {k(j)} 并且是否会估计可解释的方差（遗传性）：h^2=1/(1+SD^2)？

GWAS 和 GCTA 的表现如何？如果有 200,000^10 种可能的组合，他们如何从 K=6^10 中找到 J=217319 个 SNP？

请记住，虽然数据是唯一构造的，但它并不能保证解决方案是唯一的。可能有不止一个 SNP 序列产生相同的多基因评分。让他们找到所有解决方案或将其作为链接的不平衡问题来处理。

在哪些情况下他们会高估遗传力？研究人员将没有遗传性的先验知识。我们会告诉他们我们找不到具有这些特征的双胞胎。

不做这样的详尽测试并发布结果我对 GWAS 和 GCTA 方法没有信心，你也不应该。 Peter Visscher 或他的任何仆从在读这个博客吗？

• 回复： @utu
, @res
utu 说：
27年2017月8日，格林尼治标准时间上午43:XNUMX
@utu
通过将多基因分数计算为加权和而不是简单的总和，可以使测试变得更加困难。

此外，通过使权重依赖于其他 SNP 的值，可以产生 SNP 之间相互作用的非线性效应。

• 回复： @res
res 说：
27年2017月3日，格林尼治标准时间下午04:XNUMX •400字
@utu
我明白了，乌图。我在机器学习方面有很好的背景，并且理解 N << x（样本大小 << 解释变量的数量）的自反性问题。

不确定您是否对交叉验证了解很多（在您的摘录中提到），但如果不是，这值得一看： https://en.wikipedia.org/wiki/Cross-validation_(statistics)

我认为通常的做法是根据交叉验证或保留测试报告结果（在您的术语中进行验证，但请注意第一个答案中的细微差别 https://stats.stackexchange.com/questions/19048/what-is-the-difference-between-test-set-and-validation-set ) 集（保留的测试集是最好的，只要它足够大）并明确说明它是什么。如果有人报告基于他们（非交叉验证）训练（用你的术语来说是发现）集与大多数 ML 算法设置的结果，他们应该被嘲笑。

你关于相关性和分层的观点是好的。只是不要把婴儿和洗澡水一起扔出去。由于最坏的情况搞砸而产生的误导性结果并不意味着应该忽略整个工作（这就是我一直抱怨“FUD”的原因）。我认为该领域的人都非常清楚这样的问题，但很难确定。许多现在误导性的工作是在 2000 年代由不了解多个假设检验问题的人完成的。

如果您有兴趣从理论和实践相结合的 POV 中了解更多关于这类事情的信息，那么这门课非常棒： http://online.stanford.edu/course/statistical-learning-winter-2014
该教科书以 PDF 格式免费提供，并且非常出色，正如 StackExchange 答案中提到的它的老大哥一样。
如果您在理论上更倾向于这门课，那么这门课也很好，但更具挑战性，恕我直言（这是加州理工学院向那里的学生教授的真正的课程）： https://work.caltech.edu/telecourse

如果这里有人可以描述 GCTA 设法避免（或不）这些问题的特定方式，我很想听听，但现在我要和我信任的人一起去，他们似乎对它没问题。
res 说：
27年2017月3日，格林尼治标准时间下午14:XNUMX •200字
@utu

Peter Visscher 或他的任何仆从在读这个博客吗？

来吧 utu，你以为你比实际做这项工作的人更了解 并以傲慢和轻蔑的方式回应 表现出巨大的狂妄自大，我认为这是我们看到出现在这里的研究人员对你生气的重要原因。这种事情让我很沮丧，因为这个博客是一个很好的机会，可以与专业从事或使用研究的人互动。无缘无故地惹恼他们会浪费这个机会。

我们有时都会犯错误，但是当与在该领域从事原创前沿工作的人（例如 Visscher 恕我直言）互动时，更合适的说法是：“你/他考虑到这一点了吗？如何？你是怎么验证的？” 我的理解是原始 GCTA 论文中的模拟结果是试图回答这样的问题。

• 同意： utu
• 回复： @utu
res 说：
27年2017月3日，格林尼治标准时间下午27:XNUMX •100字
@utu
重要的是要记住，包括非线性效应非常（例如，如果添加二次项，则加倍；如果添加所有交互项，则为平方）增加了潜在解释变量的数量（即，使您的其他问题变得更糟）。如果您关心非线性效应，我认为值得研究 Steve Hsu 的压缩感知工作，该工作利用了实际产生影响的解释变量的稀疏性。
utu 说：
27年2017月8日，格林尼治标准时间下午20:XNUMX •400字
@res
我按下了同意按钮，但转念一想，我觉得我需要指出一些事情。我知道我的不敬是无效的，但至少我提出了经常需要问的问题。我咆哮和吠叫，我知道我会被忽视。我不能像一只摇尾巴的小狗，焦急地等待着主人餐桌上的残羹剩饭。这不是我的本性。

每个专业团体都必须受到审查。他们只是一群有着相似信念和偏见的人。社会学过程同样适用于物理学家或生物学家，也适用于心理学家或性别研究科学家。科学过程假设是自我纠正的，但我们是否确信我们不会因为默许他们的叙述和回避不敬，就好像我们太关心他们脆弱的自我一样，不会让纠正之间的时间间隔太长？

查看气候大气环流模型 (GCM)。所有这些在不同群体中为他们工作的人都来自相似的背景并有着相似的信念。甚至没有人能够验证或理解模型是如何构建的。没有人可以独立于拥有昂贵超级计算机的国家实验室运行它们。这些人依靠来自相同来源的赠款，并且非常清楚他们的面包是在哪一边涂上黄油的。也许他们是唯一最终会最终实施必要纠正的人，但我们是否需要同时无条件地尊重他们？我们不应该问问题并指出我们希望他们做什么吗？

进行 GWAS 和 GCTA 研究的人也有类似的情况。他们都相信同样的事情。我敢打赌，他们当中没有一个是真正的怀疑论者。他们都和你一样认为，结果最终实现只是时间问题。他们已经知道未来的结果。他们甚至一秒钟都没有想到结果可能不会到来，或者如果他们来了，他们可能是错的。

基因组测序没有提供预期的结果。这个问题对我来说要困难得多，而且不仅仅是在人类智能等有争议的领域。即使是简单的身高特征也让他们汗流浃背。缺少的遗传力差距正在进入 MSM，并破坏了新勇敢世界的乐观叙述。叙事背后的推动者和动摇者正在变得不耐烦。绝望的人做绝望的事情。维舍尔绝望了吗？
factorize 说：
28年2017月12日，格林尼治标准时间上午12:XNUMX •200字
这些 GWAS 中报告的智力遗传力分数何时会跨界进入
提供现实世界的可预测性？似乎当老师或有兴趣寻找
伙伴（和其他人）开始接触这门科学，那么辩论就会变得有些沉默。即使研究结果证明是错误的，对智商和其他特征的感知也倾向于符合基因芯片结果，而不是随意的扶手椅科学。

我非常期待完成一些 GWAS 对自闭症和分裂样行为的研究。有人怀疑这种行为可能存在于我的家人中，尽管我们自己从未完全确定。然而，这完全不真实也就不足为奇了。如果是这样，知道我们实际上很正常，这对我们来说将是一个很大的推动。

为了自由和民主，最好停止某种程度的行为政治化（例如，在前苏联等地）。关押被国家视为疯子的人一直是维护国家权力的有用策略。但是，如果可以证明这些措施是基于伪科学的，那么公民就不太容易接受。
res 说：
28年2017月2日，格林尼治标准时间上午37:XNUMX •200字
@utu
我只是仔细看了一下那张纸。你有没有注意到最后的作者是谁？彼得·维舍尔。

说到预测，我怀疑最好的预测算法也会结合父母的遗传和表型信息。想法是父母的表型信息提供了对全部遗传影响和他们所经历的环境影响的估计（也许是对儿童环境的体面估计？）。然后查看父母和（潜在）孩子之间遗传分数的差异，以纠正旧式的父母中间（例如身高）估计。

这是一篇讨论父母中间身高估计的论文。他们给出了父母中间身高与最终身高的相关系数约为 0.6。所以 R^2 约为 0.36。不是很好，但很有用。我想知道增加遗传分数是否会改善那么多。

如果兄弟姐妹的年龄足够大，可以提供表型信息，这种技术可以扩展到包括兄弟姐妹（如果结合其基因型评分，即使是几岁儿童的当前身高百分位数也可能提供有用的信息）。

• 回复： @res
, @utu
res 说：
28年2017月3日，格林尼治标准时间下午18:XNUMX
@res
啊。省略了论文链接。 http://www.nature.com/pr/journal/v44/n4/full/pr1998502a.html
基于人群的研究中父母身高预测的目标身高
factorize 说：
29年2017月6日，格林尼治标准时间下午57:XNUMX •200字
@utu，

这是你提出的关于存在科学部落主义的重要观点。
当前科学数据集、计算资源和
开源出版在帮助扩大科学人才库的同时，在
同时引起了人们对出版质量的重大担忧。现在几乎任何人都可以
在没有任何基本概念的情况下无意识地运行 GWAS 分析
心理测量学的想法。

考虑到这一点，提请注意本研究中的基本发现可能会有所帮助
心理测量学文献。一个这样的发现似乎没有得到它
应注意的是在其他动物中对 g 的研究。显然，不仅灵长类动物
表现出一般的认知能力，但老鼠、兔子、浣熊、乌鸦和其他动物也是如此。
这些动物可以帮助在主流讨论中规范 g 的讨论。
当然，有能力操纵黑猩猩的基因和环境
特别是可以对人类智能的本质产生强有力的洞察。
factorize 说：
29年2017月7日，格林尼治标准时间下午12:XNUMX •100字
刚刚被抓了这就是我想发布的内容。

动物对 g 的问题提供了非常深刻的洞察力，尽管无论出于何种原因
基本上没有被纳入辩论。例如，几乎不值得争论
黑猩猩的 g 分数比老鼠高。然而，这是一种物种歧视的说法。是物种主义吗
（这里定义为表明物种之间存在智商差异的说法）在某种程度上更容易接受，因为即使是随便的非专家观察者也基本上无法反驳，而种族主义（这里特别定义为声称种族之间存在 g 差异）不太可接受，因为它非专业观察者可以质疑吗？种族歧视的非种族主义者是矛盾的吗？
utu 说：
30年2017月12日，格林尼治标准时间上午01:XNUMX •100字
@res
想法是父母的表型信息提供了对全谱遗传效应和环境影响的估计

不知道这能证明什么。通过只做基因，您可以估计真正的遗传力，但通过包括父母的表型，您最终可能会高估它。虽然是的，但预测会更好。
m___ 说：
格林尼治标准时间21年2018月9日上午17:XNUMX •100字
@nickels
您的分析、建议是完全有道理的。我们的观点，在较低的层面上，原则上，人类还必须押注哪些道路和可能性？社会工程（太慢，笨拙），通过强加改变个体人性（不可能，一切都已尝试过常规和化学诱导），行星际，星际冒险（远非）。

确实没有希望，如果可能是，但实际上和及时地不是，人工智能和遗传学生物学会失败。由 CRISPR（2018 年的一些论文）程序引起的并发症支持了您的观点。

当前评论者

说：

现在时间的当前日期

发表评论 -

取消回复

在翻译模式下禁用评论

通过RSS订阅此评论主题

通过RSS订阅所有James Thompson的评论