◄►◄❌►▲ ▼▲▼ • B下一个新评论下一个新回复了解更多
即使我继续写博客几十年,它也极有可能不会受到斯蒂芬·杰伊·古尔德(Stephen Jay Gould)(1981)的“人的错误衡量”的影响。 它是畅销书,在学术文献中被引用超过 10,000 次,仅 445 年就被引用了 2017 次。 它继续满足观众的需求。
为什么如此受欢迎? 我读了一下,发现它是用非常引人入胜的方式编写的。 在我看来,古尔德具有出色的散文风格。 我喜欢他的论文。 他的书抨击了已经不受欢迎并被视为坏事的智力测试。 智力测试原本被认为是一件非常好的事情,它为那些买不起名校但理应获得优质教育和就业机会的聪明孩子提供了机会。 智力测验是有功的,而不是贵族的。 您不能用从私人补习中获得的特定知识来欺骗他们。 他们是伟大的调平者。 尽管与他们的真实性几乎没有关系,但他们受到了政治左派的热烈欢迎,他们在这些评估中看到了被私人教育压制的工人阶级才能的辩护。
为什么当 SJ Gould 认为测试对工人阶级和少数种族群体有偏见时会产生如此大的影响? 此外,当亚瑟·詹森(Arthur Jensen)(1980)的《心理测试的偏见》中对智力测试中的偏见问题进行了全面评估时,他的观点如何得到保持。 詹森表明,他们远非低估了非裔美国人的成就,他们可能稍微高估了他们。 我认为 Jensen 的书很少有人阅读,尽管它是由专家而非辩论家撰写的。 或许正是因为它是由专家撰写的,以一种克制且远离民间的风格,它对流行文化的影响较小,而流行文化往往决定了公共辩论。
我把完整的解释留给其他人,但我认为好的散文风格、没有方程、很少的数字以及很少有统计和逻辑论证的方式通常会增加读者群。 钟形曲线可以预测这一点,这清楚地表明,关于难题的技术书籍很少有人关注。
古尔德的书做出了一些断言。 两个让人们印象深刻的是:从不同种族的头骨研究中得出的大脑大小测量值存在偏差,以及陆军智力测试中的许多项目在文化上存在偏差。
关于古代头骨的争论由来已久,但似乎很可能采取正确的措施
现在,可悲的拉塞尔·沃恩(Russell Warne)详细研究了古尔德对陆军Beta测试的看法,并发现他在该主题上是不可靠和不正确的。
要点:
表面效度。 当然,如果测试项目看起来与您申请的工作相关,这会有所帮助。 然而,一个测试项目可能具有很高的预测价值,但似乎并不如此。 这就是著名的“指标的冷漠”格言。 如果可以预测,请使用它。 此外,您不能仅仅因为您自己就能想到可能会被误解的方式(如Gould一样)而将其解雇。 您需要证明这种误解确实存在(并将它们与在您认为合适的项目上引起的误解进行比较)。
正如古尔德暗示的那样,在数字的意义上,测试者并没有对数字的使用感到困惑。 所有讲语言的人都有数字的知识,因为他们已经接受了多年的教育。
古尔德会扭曲事情。 他对指示的解读是,这些人会“被吓得屁滚尿流”,而一名实际进行过测试的警官后来写道:“看到人们在回答问题时付出的巨大努力令人感动,这些人通常是以前从未参加过测试的人。他们手中的铅笔”。 阴影不同,您不觉得吗?
古尔德声称“大量男性”的分数为零,因此,他们一定无法理解陆军 Beta 测试说明和/或刺激。 然而,只有4%的人总得分低于10分,只有2.6%的考生得分低于5分。 古尔德忽略了指出,军队的标准程序是,然后在斯坦福比奈上对低分者进行单独测试,以给他们另一个表现出色的机会。
Gould 报告了一名警官对测试的不利看法,但并未表明其他 13 名警官对此表示赞同。
古尔德批评了一些子测验的时限很短,说对于他使用生物学测验的生物学学生来说,这些时间也太短了(见下文)。 Warne礼貌地解释说,需要对流程任务设置较短的时间限制,因为否则限制太容易了,并且很难区分。 短时间限制是一个好功能,而不是错误。 (这是一个常见的误解。参见 Hyde 关于完成任务速度的性别差异)。
古尔德批评贝塔测试,说糟糕的测试环境意味着它不能被视为对先天智力的测试。 他没有告诉读者测试构建者Boring的观点,即测试具有预测价值。 而且,测试创建者很少提及“先天智力”。 他们只是发现测试结果有助于他们预测谁会在陆军要求的任务上做得好,这就是测试的全部目的。
测试创建者认为不同的教育水平可能会影响测试的表现,就像他们的移民身份一样,但古尔德认为耶克斯不屑一顾这个因素,实际上他讨论了这个因素并正确地说了美国和更高的测试分数显示文化影响,但没有确定原因。
古尔德还淡化了在建立陆军测试有效性方面所做的工作。 陆军 Beta 的分数与其他智力测试的分数呈正相关,包括陆军阿尔法 (r= 0.811) 和斯坦福-比奈 (r= 0.727),这两者都是当时智力测量的“黄金标准”([15] ,第 634 页)。 陆军 Beta 分数还与外部标准呈正相关,例如新兵(无论是儿童还是成人)的受教育年限、指挥官对士兵工作表现的评级以及军队等级。
在这一切之后,我会认为古尔德对测试给出了不公平的描述,并就此完成工作。 沃恩,也许是美国职业道德的囚徒,走得更远。 他给他的学生进行了 Beta 测试,并预先登记了他的期望。 这是极好的。 他没有得到结果并说“我告诉过你”,而是将他先前的假设用于检验。 如果古尔德能做到这一点就好了。
对我来说,最有趣的结果是,该测试看起来像是对世俗趋势的确认。 随着越来越多的人上大学,分数下降,并且更像是从中选择学生的总人口中的平均水平。
沃恩 说:
鉴于我们复制的这些结果,古尔德对时间限制的批评和他关于陆军 Beta 没有衡量情报的论点似乎是没有根据的。 尽管每个陆军Beta子考试的时间限制都很短,但这种复制的结果仍支持第一次世界大战心理学家的信念,即陆军Beta可以测量智力。 我们在复制的以下四个相关结果中证明了这一点:
这是我对这四个结果的总结。
1 Gould 的哈佛学生比 Warne 的开放获取学院亮 1.3 个标准差。 选择比弗林效应更重要。 (这个结果很有意义)。
2 Gould正确地进行了测试(针对Warne自己的假设,如果他不够诚实地预先注册他的假设,他本可以掩盖)。
3 Beta 子测试分数呈正相关(正流形),总分与两项自我报告的学业成绩指标相关。
4 Beta 测试最好用一个因素来描述。
总而言之,Warne 在证明 Gould 篡改了陆军 Beta 测试和创建它的研究人员方面做得非常出色。 坦率地说,古尔德错误地描述了测试,并误导了他的读者。 古尔德可能实现了他的目标,即在一代学者眼中破坏智力测试。
Warne 已经证明 Beta 测试仍然有效。 它是智力的一个很好的预测指标,它与当前的学业成绩指标相关联,显示出积极的多重性并分解为一个共同因素。 在古尔德从未尝试过的标准中,沃恩预先记录了他先前的假设,以便读者可以清楚地看到他的实验结果,并且事实可以证明他是错误的。
Warne的成就是证明Gould弄错了。