我正在慢慢学习标题写作的反常艺术,但保留说实话的内在忠诚:我确信罗马尼亚男性和女性存在通常的性别差异,如上述传统服饰所示,但显然没有一致的差异在情报方面。 无效结果与阳性结果一样重要,因此这一发现必须进入我们思考的组合。 它是否显示了某个国家的特定内容,或我们方法的一般内容,或两者兼而有之?
德拉戈斯·伊利埃斯库,一个 亚历山德拉·伊利, 丹·伊斯帕斯, 安卡·多布里安, 奥雷尔·伊恩·克林丘. 智力的性别差异:使用来自罗马尼亚的全国代表性样本的多测量方法。 房源搜索 58卷, 2016 年 54 月至 6 月,第 XNUMX-XNUMX 页
http://dx.doi.org.libproxy.ucl.ac.uk/10.1016/j.intell.2016.06.007
https://drive.google.com/file/d/0B3c4TxciNeJZcENSTl9tRTZIc1k/view?usp=sharing
有趣的是,罗马尼亚标准化的智力测试涵盖了所有范围:几乎好像没有遗漏任何智力测量。 无论结果如何,人们都不能轻易辩驳另一项测试会显示不同的结果。
然而, 林恩的假设是男孩成熟较晚,所以只有在成年时男性的优势才会显现出来。 SON 测试长达 8 年,因此无关紧要。 WISC-IV 最长可达 17 年,因此部分相关。 Raven 测试涵盖了整个年龄段,因此 is 相关:
样本量很小,这降低了“显着性”的机会,但在 13 个年龄段中,10 人在某种程度上显示了男性优势。 优势林。
对于 MAB-II 上的 12 个成人组,故事崩溃了。 10 人中有 12 人在总体智商方面偏向男性,但只有 10 人很重要,其余的都很小。 12 人中有 XNUMX 人在表现智商方面表现出男性优势,但大多数人的智商都微乎其微,因此容易被遗忘。
GAMA 有 14 个成人年龄组,其中 11 个显示出男性优势,但大多数是小部分,只有 3 个显着。
IST 有 10 个成人年龄组,其中 2 个显示男性优势,只有 女 优势显着。
从整体上看个人测试结果,正如作者所暗示的那样,即使在那些涵盖成年人的测试中,也不能令人信服男性优势假设。
然而, 几乎所有这些测试都不报告原始分数,这在能力测试中是一个相当大的问题。 为什么不? 嗯,许多智力测试根据使用的材料、项目数量、快速完成的添加、部分错误的减少等都有特殊的评分系统。 因此,将真实的原始分数转换为比例分数,这些比例分数可以根据年龄从不同的表格中得出。 有一些模糊现实的空间。 它不应该影响性别差异,但从原始分数到比例分数的变化并不容易追踪。 这肯定会对弗林效应计算产生影响。 查看每个年龄的编码任务或数字的原始分数(原始分数 is 一个真正的比例尺)会非常有趣,这应该会敲响任何残留的疑虑。
如果您检查论文中的大量个人结果,几乎没有证据表明存在任何一致的性别差异模式。 每个年龄段的样本量虽然不大,但也相当可观,因此我松了一口气,转向他们对表 7 中结果的整体元分析,尽管该表有点难以阅读。 Cohen's d 分数为正值表明男性的优势。 Q 分数为卡方检验结果,括号内为自由度。 L 平方检验给出针对自由度进行校正的卡方结果,并计算由于异质性而非抽样误差导致的效应估计值变异的百分比。
然而,为了检验 Lynn 的假设,我们应该有一个表 8,该表将自身限制为 17 岁以上的成年人,涵盖整个年龄范围。 这会很有趣。
作者说:
只有两个具有显着(尽管很小)影响的分数是 Raven (d = 0.11, p < 0.01) 和 SON-R 的 Performance 子分数 (d = 0.12, p < 0.01),两者都对男性有利。 在 SON-R 的情况下,数据表示中等异质性:Q(5) = 10.01, p < 0.10, I2 = 50.04,即这组效应大小的总变异性的 50% 是由于子样本之间的变异性(真正的异质性)。 在 Raven 分数的情况下,不存在异质性:Q(22) = 21.34, ns., I2 = 0.00; 即,效应大小估计的所有可变性都是由于子样本内的抽样误差造成的。
当然,正如理查德·林恩 (Richard Lynn) 所发现的那样,韦克斯勒可能会稍微摆弄一下以消除一些性别差异,但我怀疑所有其他措施都可能是这种情况,尤其是很久以前设计的乌鸦。
作者没有费心评论引起我注意的事情:韦克斯勒儿童智力量表在全面智商、言语智商和感知推理智商上显示出很多异质性。 多维能力倾向电池和智力结构测试也显示出相当多的异质性,而 Raven 测试则没有。 当然,Richard Lynn 可能会争辩说,儿童的量表并不能证明任何事情,但成人的量表(此处未使用)可以证明这一点。
作者总结:
当前研究中观察到的随机和不可复制的差异模式似乎支持这样的结论,即任何性别均值或方差差异都可能是虚假的,抽样或测量误差的结果而不是实质性和稳定的影响。 这一结论同时适用于一般智力和二级(更具体的)能力(例如表现与推理、言语与表现、流动与结晶)。
他们谨慎地承认:
目前的研究有许多局限性。 首先,即使我们报告数据的所有 6 个样本都是精心挑选的具有全国代表性的样本,但它们在数量上与其他研究报告数据的一些样本不具有可比性,例如 迪里等人。 (2003)或 洛曼和莱金 (2009). 因此,尽管它们为未被充分研究的文化做出了重要贡献,但它们对国际知识状况的影响可能有限。 其次,当前研究中使用的一些测试被开发为尽可能保持性别中立。 至少对于 WISC-IV 和 SON-R,项目偏见由训练有素的法官和通过项目分析进行检查,GAMA 和 MAB-II 的制定目标明确,即尽量减少性别的不利影响。 这可能影响了结果并促成了我们的零效应结论。
我的评论:“性中性”听起来无可挑剔,但测试结构的总体漂移是朝着性别差异抑制的方向发展。
他们的最后一句话:
研究群体智力差异是一个具有重要社会后果的政治话题。 因此,我们强烈鼓励研究群体智力差异的研究人员密切关注所用样本的质量,并努力提高其代表性。
其实我觉得作者已经做得很好了。 他们在一个良好的全国样本中列出了许多智力测试的结果,而不仅仅是一个。 不,它不是整个国家,就像苏格兰的数据一样。 不,没有单独对成人数据进行元分析(尽管它可能不会提出太多),但总体而言,它肯定会暂停其他工作中对性别差异发现的接受。
难道这一切都源于罗马尼亚,以及某些人如此刻意追求的消除性别差异的特殊文化吗? 罗马尼亚是否实现了北欧人努力但无法实现的目标? 虽然我相信特殊的国家,但作为一个外部观察者,我在罗马尼亚悠久而丰富的历史中找不到任何让我相信性别差异被故意缩小的东西。 然而,罗马尼亚读者被邀请向我发送更多更好的细节。
这项研究有一个大问题,我 指出: 当 Scott Alexander 写博客时:
样品究竟是如何获得的? 基于学校的测试的好处在于它通常包括整个能力范围。 忙碌的成功成年人(> IQ)和流氓渣滓(
“从 4417 名参与者的样本中选择规范样本,以最大限度地提高年龄、性别、城市与农村居住地和地理区域的代表性,这些样本由训练有素的操作员在家中和学校进行测试。”
所以是的,这听起来“有问题”。 您还需要在收入、职业声望等方面具有代表性。
不是没有差异(不能证明为空),而是没有证据表明存在差异。 除非他们做了贝叶斯统计或等价测试。
或者没有平均差异,但这项研究似乎没有分析异常值,或者没有……
是的,我讨厌阅读……
或者罗马尼亚人的数学语言倾向较少。
没有传言说在“黑人”中,女性在“智商更高”中的比例往往高于男性*
标准化样本应该相当不错,尽管肯定远不及完整的国家样本或进行良好的出生样本。 这些结果可能是由于采样造成的,但在没有听到特定问题或捷径的情况下,我不太担心这些样本。
好吧,严格来说你是对的,但这些结果的通常语言版本是“他们没有发现性别差异”。
我想知道是否有任何县记录从十一点多的日子中幸存下来。 他们会有姓名、性别、出生日期以及(我推测)智商和成就测试的结果。 您现在可以对这些人的生活进行大约 XNUMX 年的随访。 或者这些记录早就被销毁了?
与苏格兰快照相比,它们有两个优势; 这些记录可能涵盖十多年的结果,并且可能不仅涵盖苏格兰,还涵盖 E&W 和 NI。
罗马尼亚人才流失可能产生了一些影响*
一种偷偷摸摸的方法:可以通过删除异常值来减少发现差异的机会(从而减少可变性:划分为已解释/未解释的可变性更少=找到真正存在的东西的机会更少)。 此外,也许最有可能在 3D/空间任务而不是 2D 非语言任务(a la Raven)中发现真正的差异,但很少测量 3D/空间任务(例如,当前的韦克斯勒没有 3D :)
不要认为任何异常值都会被删除。
结果一定在某处。 迷人的前景。
我不认为他们已经删除了异常值,他们只是查看了总体平均值,结果是性别之间的这些细微差异。 他们没有去除异常值组,只是不单独分析它们。
例如,在不考虑异常值的情况下分析美国性别的总体平均值。 在我看来,差异已经很明显,并且在异常值之间变得显着。
O/T:在 Greg C 网站的评论中找到。
http://emilkirkegaard.dk/en/wp-content/uploads/From-Terman-to-Today-A-Century-of-Findings-on-Intellectual-Precocity.pdf
想想看,如果对于年龄较大的孩子,对于申请体育馆和高中的年轻人来说,可能会有一些等价的东西。
我认为程式化的事实(心理学家是否使用这个术语)是平均智商相等,但男性的差异更大导致智商最高的男性显着更多(或至少是数学能力)
Ian Deary 告诉我很难获得这样的数据,因为“如果它们还在附近,它们将特定于教育权威领域,因为它们就是这样收集的。” 所以,这是一个针对某人的研究项目。
是的,这就是标准模型。 林恩质疑手段是否相同,并主张男性优势。 到目前为止,男性的更大标准偏差被普遍接受,但这篇论文是该一般情况的一个有趣的例外。
以美国SAT考试数百万数据点的优势来看,男生在各个级别上都略有优势,但在更高级别上优势更大。 很抱歉继续引用 SAT,但它是我熟悉的测试,并且具有可访问的数据库,即使像我这样的业余爱好者也可以使用。 这也是几乎所有高材生都要参加的考试。
不要为好数据道歉! 感谢您的观察。 我认为调查结果的差异可以通过在整个能力范围内的代表性和纯粹的样本量来对样本进行评级来解决。
奇怪的是,尽管从一开始就在 WAIS 中努力最小化性别之间的差异,但这是一项表现出约 3.5 分的男性优势的测试。 我已经看到了西班牙、美国和日本的WAIS-III的标准化,都具有相同的男性优势。
似乎仅适用于 SAT-M。 在 SAT-V 上,男性的平均值略高,标准差大致相同,SAT-W 上也一样,只是女性的平均值更高。
ACT 上的模式相同。
谢谢。 我认为结果总体上是中性的,所以没有真正显示出男性优势。 我们将不得不更深入地研究这一点。 我今天才意识到我可能可以访问我很久以前工作的相关样本。
如果您应该发布某些内容,将期待听到它。