是什么让问题变得困难？，詹姆斯·汤普森

是什么让问题变得困难？

詹姆斯·汤普森 •20年2016月XNUMX日

•1,300字 • 12 Comments • 回复

634 分享

◄►书签◄❌►▲ ▼全部切换总目录▲▼添加到图书馆从图书馆中删除 • B显示评论下一个新评论下一个新回复了解更多

回复同意/不同意/等等更多... This Commenter This Thread Hide Thread Display All Comments

同意不同意谢谢LOL轮唱

这些按钮可将您的公开协议，异议，感谢，LOL或巨魔与所选注释一起注册。仅对最近使用“记住我的信息”复选框保存姓名和电子邮件的频繁评论者可用，并且在任何八个小时的时间内也只能使用三次。

忽略评论者关注评论者

搜寻文字 区分大小写 确切的词 包括评论

列表书签

心理学家更擅长测量智力，而不是解释他们是如何测量智力的。 “指标的冷漠”说得很好，但这种说法却遭到了公众的冷漠和不理解。这是因为心理测量学家一直说智力很重要，但随后又说“但如何测试并不重要”。从技术上讲，这是正确的：考试具体是什么并不重要，只要它有足够的难度来拓展思维并对其进行评分即可。从这个意义上说，智力的实际指标是无关紧要的问题，但前提是它具有必要的心理测量特性。

我试图通过给出数字跨度的例子来解决这个理解问题：向前记住数字很容易（并且只能较弱地预测一般能力），但向后记住数字则更困难（并且可以更强烈地预测一般能力）。这种差异就是困难的本质。

https://www.unz.com/?p=75499

然后它就变得相当技术性了。有些测试是能力低端的良好指标，而另一些则是高端能力的良好指标。他们都有各自的特点和怪癖。因此，智力测试结果具体化为 g 这让大多数研究人员满意，但让普通公众感到困惑。

将此与用力呼气量测试进行比较。

用力呼气量 (FEV) 测量一个人在一次呼吸过程中可以呼出的空气量强迫呼吸。可以在第一秒（FEV1）、第二秒（FEV2）和/或第三秒（FEV3）期间测量呼出的空气量。强迫呼吸。强肺活量 (FVC) 是 FEV 测试期间呼出的空气总量。

很整洁，不是吗？（然后你可以研究 30 周内进行 8 分钟的有氧运动是否会提高训练量。确实有一点。）心理测量学可以用如此简单的方式定义智力测量吗？

迭戈·布鲁姆, 海因茨·霍林, 玛丽亚·西尔维娅·加利伯特, 鲍里斯·福斯曼。图形类比的任务难度预测。 doi：10.1016 / j.intell.2016.03.001

这项心理测量研究的目的是解释与类比推理相关的认知任务的表现，这些任务是在构建图形类比测试期间考虑的。为此，主要使用通用线性逻辑检验模型（LLTM）进行数据分析。对来自阿根廷的 30 名学生进行了 422 项图形类比测试，其中 84 项与矩阵测试一起对 77 名主要来自德国的参与者进行了测试。女性分别占每个样本的 76% 和 XNUMX%。有效性和可靠性指标显示出可接受的结果。项目难度可以通过一组九个认知操作来预测到令人满意的程度，因为 Rasch 模型和 LLTM 项目难度参数之间的 Pearson 相关性 r = .89，两个模型的平均预测误差略有不同，并且组合规则的数量对项目难度有整体影响（F_(3,23) = 15.16， p < .001) 具有效应大小 η² = .66（影响大）。结果表明，几乎所有轮换规则对项目难度都有很大影响。（我的重点）。

图形矩阵是对智力的一个很好的测试。雷文利用他在大英博物馆看到的陶器上的图案，根据逻辑原理构思了他的作品。他的测试效果非常好，尽管 60 题中的一个困难项目在 B 序列中放置得有点太早了。顺便说一句，在我看来，这个排名错误是该测试在文化上相当公平的证据之一，因为所有种族群体都觉得很难，而不必跨洲协商。

此类测试称为 A:B::C:D 类比（A 之于 B，正如 C 之于 D）。当问题是基于查找类比中缺失的元素 D（即 A:B::C:?）时，则 C:D 成为目标类比，A:B 成为源类比。需要从一个领域推断到另一个领域的是绑定这两个实体的结构关系的复合体，而不仅仅是表面数据（根特纳，1983）。基本问题A:B::C:？可应用于不同类型的内容，即：文字、图画和图形（沃尔夫·尼尔森和吉莱斯皮，1991).

如何描述每个项目的难度级别？穆赫兰、佩莱格里诺和格拉泽 (1980) 研究了几何类比问题中项目难度的原因，得出的结论是项目元素的数量以及变换的数量对错误率有显着影响。

这些作者决定建立一个具有设计的项目难度级别的测试，并选择在所有项目中保留相同的标准数字，以减少表面复杂性并专注于项目之间潜在的操作差异。他们使用 9 个主要规则来构建项目，将图形旋转 45 度、90 度和 180 度，使用 X 和 Y 轴反射、线条减法和点移动。您可以将其称为：“如何构建您自己的智商测试”，补充材料将向您展示如何做到这一点。请注意，某些规则组合会导致一些不精确，因此，基于规则的项目生成过程不应被视为纯机械过程。因此，作者对他们的设计指南有进一步的解释，需要理解

根据表 2 中提供的数据，可以解释基于规则的具体对项目难度的贡献。短顺时针主形状旋转、减法和点移动规则在这方面做出了一些贡献。最有趣的是，项目难度的最佳预测因素是所有其他旋转规则（即，逆时针旋转、长旋转和短顺时针梯形旋转），其次是反射规则。特别值得一提的是长顺时针梯形旋转，它对项目难度的影响最大。换句话说，人们发现在任务解决过程中最难操纵轮换。事实上，根据 Rasch 模型的两个最简单的项目（项目 2 和 4）不包含旋转规则，第 25 个最简单的项目 7 也不包含旋转规则。此外，在单个项目中组合规则本身也会影响项目难度，因为方差分析结果和箱线图都表明组合规则的数量越多，项目难度就越大。

我知道其中一些工作以前已经做过，只是因为我几年前参加了一些会议，表明智力测试可以根据学习的一般原理构建，并且具有良好的预测价值。

我认为这是一篇很好的论文，每当批评者认为测试材料在某种程度上是任意的且不具有代表性时，就应该提及它。这项工作表明，设计复杂性的规则与人类受试者在解决问题时经历的难易程度密切相关。

美中不足的是：现在心理学似乎 76% 是一门女性化的学科，而女性不太擅长对形状进行心理旋转，因此最好让学习心理学以外的学科的男孩检查一下这一点。

作者发现，该测试在低能力水平和高水平能力下都有效，这是特别有用的。

高正相关性 (r = .89) 表明项目难度与每个规则的预测难度密切相关，并且这些项目难度在进一步的研究中实际上保持不变。

仅通过比较，6 个月后韦克斯勒测试的重测相关性为 0.93，因此上述 0.89 的相关性是对作者创建的测试设计原则的强烈认可。

也许我们已经朝着找出使问题变得困难的原因迈出了一步。

仔细看看这里的论文：

https://drive.google.com/file/d/0B3c4TxciNeJZcWZiUmpfRm50VlE/view?usp=sharing

（从重新发布心理评论经作者或代表的许可）

← 美洲外加剂：欧洲国际...情报研究人员的想法... →

634 分享

• 类别：科学

隐藏12条评论发表评论

“什么让问题变得困难？”
• 12条评论

忽略评论者...跟随Endorsed Only

修剪评论？

[]

Santoculto 说：
22年2016月3日，格林尼治标准时间下午22:XNUMX
一直以来工人/半奴隶*的心理，

只是因为你不想而看不到。
Santoculto 说：
22年2016月3日，格林尼治标准时间下午22:XNUMX
dearieme 说：
22年2016月4日，格林尼治标准时间下午28:XNUMX
“进行了 30 项形象类比测试”：天哪，这一定很无聊。怎样才能让人们保持兴趣去完成它呢？
Santoculto 说：
23年2016月10日，格林尼治标准时间下午37:XNUMX •100字
ADHD 似乎分为三种类型

第一种类型，经典型：精神+身体多动和注意力缺陷的组合，

第二类，潜在运动员：身体过度活跃和注意力缺陷，

第三种，潜在的创造性天才：（仅）精神过度活跃和注意力缺陷。

精神过度活跃与神经质并不完全相同，因为神经质往往意味着更高密度的消极思维，而精神过度活跃则更加异质，两者都具有高度的积极、中性和消极思维密度。

或者只是其他废话……

• 回复： @Anonymous
, @Santoculto
Anonymous • 免责声明说：
24年2016月1日，格林尼治标准时间上午37:XNUMX
@Santoculto
对于多动症来说，八月和九月出生的人之间应该没有太大的生物学差异。但请参阅中的图表

https://jasperandsardine.wordpress.com/2016/03/11/profiteering-racket-adhd-is-vastly-overdiagnosed-and-most-children-are-just-immature-say-scientists/

“科学家说，多动症被严重过度诊断，大多数儿童只是不成熟”

dux.ie
Santoculto 说：
24年2016月12日，格林尼治标准时间下午07:XNUMX •200字
@Santoculto
存在过度诊断的事实并不意味着不存在多动症。

你可能有一个不成熟的孩子，他操纵他人，对他们的态度不负责任，而且没有任何注意力缺陷（我的意思是，高于平均水平），你也可能有一个不成熟且真正分心的孩子（或青少年或成人）。

另一个非常相关的问题是：我们正在谈论什么类型的注意力缺陷**

同理心注意力缺陷很多时候会导致反社会人格或伪反社会人格（组合：愚蠢+潜意识的自私行为，我们有两种类型的混蛋：非常清楚自己的态度的人以及那些非常敏锐地愚蠢到无法理解和理解的人）衡量自己的态度）。

就我而言，我有平凡的注意力缺陷，我想说的是，我没有任何强烈的动机去内化大多数普通人自然会做的技术活动。

从技术上讲，注意力缺陷多动症“不存在”，因为我们所认为的心理病前或病态状况确实是某些或特定“特征”的强烈同质性，或者只是强度或缺乏，如过度活跃甚至低下-活动。 ''平均=正常''

很多时候很多人只是对某种环境不适应，不适应并不等同于“精神病”。

有一些猜测。
Santoculto 说：
24年2016月12日，格林尼治标准时间下午11:XNUMX •100字
多动症正是那种陷入“容忍学校规定”和其他“义务”的死胡同的人。

多动症是人类的一个古老版本，因为他们（我有点像他们）做他们想做的事，与非人类动物类似，这不是一种冒犯。

被驯化的人将公民和不那么公民的规定内化，而多动症平均而言似乎会做他们想做的事情，特别是在学校期间，换句话说，他们（和我）不太被驯化。
savantissimo 说： • 您的网站
26年2016月8日，格林尼治标准时间下午27:XNUMX •500字
对于那些对 Rasch 衡量标准感兴趣的人来说，Rasch 衡量标准将题目难度和考生能力放在同一尺度上，允许所有算术运算（*、/、+、-，而不是最多 + 和 – 对于 IQ）并构成项目的基础一般来说，这本教科书是我发现的最好的免费在线资源：反应理论（IRT）
测量要点

以下是一个实用的幻灯片演练，展示了如何在 Woodcock-Johnson IQ 测试的开发中使用 Rasch 测量（“W 分数”）：
应用心理测试设计：C 部分 – Rasch 缩放技术的使用。同样由 Riverside 出版的斯坦福-比奈 (Stanford-Binet) 使用相同的量表（“变化敏感”分数或量表“CSS”），其唯一任意选择是将 10 岁平均儿童的 CSS 设置为 500。是对这个量表的分数的有效运算，可以说，从绝对意义上讲，分数在 510 到 515 之间的成年人平均只比 2 岁儿童平均聪明 3% 或 10%，不到 10%比平均 5 岁孩子聪明，得分为 470。

不幸的是，Riverside 似乎不愿意公布完整测试的平均年龄与 CSS 或 W 分数图，更不用说不同的标准差了，但是幻灯片19的幻灯片的内容只是针对 WJ 块旋转子测试进行的，这可能非常接近全尺寸结果，尽管方差可能比完整测试小。（评估服务公告第 3 号：评估中 SB5 的使用
高能力者PDF 的第 11 页表示，在 SB5 上观察到的最高满量程分数为 592，而块旋转子测试 (BR) 的成人平均值约为 508，标准差约为 8.5，这将使 592 接近10 sd 输出，这是不太可能的，因此满量程的实际 sd 必须更大。该分布也可能是对数正态分布或比正态分布更肥尾的分布。）因此，使用 BR 作为代理可能会低估完整测试中受试者之间的差异，但即便如此，+3s.d 之间的差异。平均成人的年龄大于平均成人和平均 5 岁儿童之间的年龄。 3 岁+5 sd 的 BR 分数与 0.5 岁+22 sd 的分数大致相同，这与我期望的典型心理学专业毕业生的分数差不多。类似的比较还有很多；我很喜欢玩那个图表几个小时。（我有一个改进的 .png 版本，在几年而不是几个月内重新缩放，带有背景网格，还有一个 Paint.NET 如果有人需要的话，版本分为几层以便于分析。）

我非常有兴趣找到用于全尺寸测试、流体/结晶尺寸或任何其他子测试的类似图表。

-EH / 萨凡提西莫
（仅供参考，WordPress 的表现比平常更混乱。）

• 回复： @James Thompson
, @savantissimo
James Thompson 说： • 您的网站
27年2016月10日，格林尼治标准时间上午39:XNUMX
@savantissimo
这很有趣。如果您有计算链接或结果摘要，我希望看到它们以进一步理解该论点。
savantissimo 说： • 您的网站
27年2016月4日，格林尼治标准时间下午43:XNUMX •400字
@savantissimo
我将尽快在我长期被忽视的博客上发布并链接。

没有太多有趣的计算方式——使用上面链接的幻灯片 19 中的图表，该图表是在绘图程序中打开的（画网，这是免费的），我使用直线工具来测量图表上的距离。直线工具还显示直线的角度，以便您可以确定测量的距离是垂直还是水平。通过测量垂直刻度上标记之间的距离（标记为 470 和 510，因此距离 = 40 个 CSS 点），我发现标记相距 91 个像素，因此每个垂直像素是 CSS 点的 40/91（~ =0.44 像素/CSS 点）。使用相同的方法，我发现（412 水平像素）/（300 个月）~= 1.37 像素/月~= 16.5 像素/年。

幻灯片 19 中的图表显示了从 2 岁到 25 岁的块轮转子测试的 Rasch 分数的平均值以及每个标准差 +/- 3 sd，因此可以比较不同年龄和 z 分数的人的绝对智力。

对于那些没有看过图表的人来说，平均分数似乎随着年龄的对数而上升，一开始上升很快，然后随着年龄的增长而上升得更慢。标准差一开始间隔很大，但到了 9 岁时，间隔变得紧密，之后它们再次发散，较高的标准差分数上升得更快，而较低的标准差分数几乎持平。

SB5 服务公告 #3 在 PDF 第 12 页上重印了 SB5 解释手册中的平均全面 CSS 分数（表 4），该分数与幻灯片 19 中的平均线非常匹配，因此块旋转子测试平均分数与年龄的关系应该是全面的合理代理（尽管正如我所说，BR 的标准差可能比 FS 稍小）。

在图表上使用水平直尺可以将给定的 CSS 分数等同于不同年龄的 z 分数。 Mk.I 眼球对落在 sd 线之间的分数 z 分数给出了相当不错的估计，但可以使用线工具更好地测量 z 分数，该 z 分数相当于给定年龄的给定 CSS。
E. Harris 说： • 您的网站
28年2016月7日，格林尼治标准时间下午29:XNUMX
这是更新后的图表，我希望有一个更连贯的解释：将给定年龄的智商转换为绝对（Rasch）智力测量

• 回复： @James Thompson
James Thompson 说： • 您的网站
28年2016月9日，格林尼治标准时间下午58:XNUMX
@E. Harris
谢谢。会读

当前评论者

说：

现在时间的当前日期

发表评论 -

取消回复

在翻译模式下禁用评论

通过RSS订阅此评论主题

通过RSS订阅所有James Thompson的评论