昨晚,电影界使用了一个容易出错的投票系统为演员颁发了奖项。也许总收入会更有效,尽管更粗俗。这些奖项总是有争议的,不仅因为不当影响和普遍愚蠢,而且因为演员只能表演,而我们没有客观标准来偏袒一个人。
至少25年前,我去BBC广播节目《你和你的》中演讲,走进去发现另一位受访者是著名女演员吉尔·贝内特,她与剧作家约翰·奥斯本的婚姻经历了动荡的9年, 的 回顾愤怒 名声。他为剧院做了伟大的事情,却为他的众多女人做了不太好的事情。他离开她后,吉尔给他送了一件可爱的衬衫作为生日礼物,上面写着:“我想要回里面的东西”。他没有回来,她在 1990 年自杀了。不管怎样,我当时就在那里,面对这位伦敦剧院的典范、新的戏剧皇室,我脱口而出:“你的采访是关于什么的?”她回答说:“把流浪汉放在座位上”。
虽然我们或许应该通过座位上的流浪汉数量来衡量演员,但我们应该对知识分子采取什么样的严厉措施呢?对于历史比较,在 人类成就:公元前 800 年至 1950 年对艺术和科学卓越的追求 查尔斯·默里(Charles Murray)使用了“名气”:他们在百科全书和学术参考文献中被提及的程度,这很有效。一些思想家脱颖而出:天文学中的伽利略;达尔文生物学;牛顿和爱因斯坦在物理学,巴斯德在医学;数学中的欧拉。奥斯卡奖属于他们所有人。
在某种程度上,我们可以通过使用国际象棋排名的变体来对当代智力进行评估。对我们来说,国际象棋的美妙之处在于,无论如何,下棋都很难,面对一个好的对手就更难了,而且大多数时候一个人赢,另一个人输,只有少数平局。现在你已经看到了:比赛会产生一份获胜名单,特级大师与自己赢得了大部分比赛的特级大师对手进行比赛。毫无疑问:冠军遇到挑战者,最好的玩家获胜。
我们可以举办智力锦标赛来代替传统的智力测试吗?例如,我们能否在排名中找到最好的国际象棋棋手,并注意他们在其他智力方面有哪些特征?国际象棋排名可以有效地获得对智力的真实估计。例如,想象一个国家,每个人都非常积极地下棋,因为它带来了社会和物质优势。政府鼓励全国范围内进行国际象棋比赛,并鼓励举办地方、地区和全国锦标赛。那些表现出色的棋手可以获得额外的报酬、住房和其他公民所不具备的自由度。在这样的背景下,就像在苏维埃俄罗斯一样,从 1919 年到本世纪末,谁赢得了比赛?
你会看到拉格里夫以国际象棋作为他的第一个比赛,普特南数学比赛作为第二个比赛,获胜者是……阿什肯纳兹人。
http://www.lagriffedulion.f2s.com/ashkenaz.htm
如果生活真的是一场智力测试,那么我们应该能够从广泛的行为中获得能力评估,而不仅仅是国际象棋和数学,即使它们是短暂且中断的行为片段。通用智力测试应该能够随时随地应用:
Hernández-Orallo 和 Dowe (2010) 人工智能 174 1508–1539 测量普遍智力:走向随时智力测试。
- 该测试应该能够测量现在或将来存在的任何生物或人工系统的智能。
- 它应该能够评估无能的系统和出色的系统,以及非常慢到非常快的系统。
- 可以随时中断测试,从而得出智力得分的近似值,以使测试剩余的时间越长,评估就越好。
- 它利用了基于Kolmogorov复杂度和通用分布(一种指定对象所需的计算资源的度量)的机器智能度量,这些度量是在1990年代后期开发的(C检验和压缩增强的Turing检验)。
但是,如果您不下棋,不参加数学比赛,只是喜欢在电脑上玩游戏怎么办?即使他们不参加测试,我们能否从这样的人身上获得任何能力评估?那么,有人尝试这样做吗?
Han van der Maas 和同事迈出了出色的第一步,开发了一种新的计算机自适应智力测试。他们从包含 500 多个数学问题的题库开始,然后使用源自 Elo 国际象棋排名系统的优雅技术。在网球和国际象棋锦标赛中,玩家会与具有相同评级/能力的对手进行匹配:在自适应测试中,评级是“即时”估计的,并遵循 Elo 系统:“如果我获胜,我的评级就会增加,我对手的评级就会降低。如果我战胜了一位非常优秀的玩家,我的评分就会提高更多”
这些研究人员所做的就是让物品与人竞争。如果您通过了该项目,则该项目失败,您获胜。你的分数上升,项目分数下降。最终每个人都会根据每个项目进行排序,并且可以一次又一次地完成。美丽的。
测试时间减少一半,允许和鼓励重复测试和测试练习,并且测试可用于广泛的能力。事实上,旧的比奈测试正是采用了这种方法,项目较少,并且使用明亮的测试仪而不是计算机。这种伪装成游戏的方法不仅测试数学,还测试与智力相关的子测试:比例推理、演绎推理、数字推理、工作记忆和感知推理。
让您了解该技术的影响范围:120,000 所学校中有 1,400 名活跃用户,以每天 45,000 个项目(是的,1,200,000 万个)的速度回复 1.2 个项目,400 年内累计回复了 5 亿个项目。您无疑会意识到,这将智力测试提升到了一个新的水平。
看看 Han van der Maas 在格拉茨举行的 ISIR 会议上向我们展示的 Powerpoint 讲座
https://drive.google.com/file/d/0B3c4TxciNeJZTmJ2ZWo4V0J0cEE/view?usp=sharing
然后是更详细的论文,它可以让您更深入地了解系统。
https://drive.google.com/file/d/0B3c4TxciNeJZdGZEMkpVWE5WM1k/view?usp=sharing
如果您正在考虑对大样本进行一些研究,您可能需要联系团队以与他们进行一些协作工作。我们尚未整理出柯尔莫哥洛夫复杂性和通用分布,但如果您认识对此感兴趣的人,请与我们联系。
亲爱的汤普森博士,
我最近正在研究智力测试,我想知道如何构建一种基本上不受重测收益影响的测试——换句话说,一种人们无法练习的测试。 我从之前的研究中知道,弗林效应的很大一部分来自于简单的应试技巧,我想知道您是否知道哪些类型的子测试或项目在重测增益方面几乎没有表现出来(与乌鸦矩阵不同) ,但同时具有高重力载荷(与简单的反应时间不同)。
我还没有看到这篇关于语言能力的论文被广泛提及。
教科书简化及其与 SAT 语言成绩下降的关系,Donald P. Hayes,1996 年
它会对智商测试产生多大的影响?
亲爱的马克, 非常好的问题。 通过练习,使用熟悉而不是不熟悉的材料做得更好,是我们学习和培养技能的方式。 据我所知,你无法避免重测效应,你只能衡量它们并考虑它们。 如果你认为你经历过的事情很少会在记忆中留下痕迹(请参阅我完成后的下一篇文章),那么你可能走在正确的轨道上。 韦克斯勒测试过去常常有六个月的休息时间,以避免重新测试收益。 现在他们承认中断应该是一到两年(如果我没记错的话,性能类型测试的时间更长)。 因此,我认为您无法避免在大多数材料上获得一些收益。 看看我关于韦克斯勒 g 载荷的文章,然后您将不得不挖掘一些重新测试数据来检查我的印象。 可能有一个高 g、低重测试增益的黄金最佳点供您使用,但我现在无法想起其中一个。 是时候让其他人参与进来了? 将在推特上提出问题。
http://www.indiana.edu/~educy520/sec6342/week_07/hayes96.pdf 迷人。文字变得越来越简单。参见伍德利关于该主题的内容。它可能会对旨在显示历史变化的情报测量产生影响,但不会对每十年对代表性人群进行的测试产生任何明显的影响,这是传统的方法。总而言之,如果我们的语言变得贫乏,智商测试将不是最好的证明方式:文本和试卷的历史比较会更好。复杂的因素是,识字和高等教育过去只向少数人(可能是更聪明的人)开放,而现在则向几乎所有高于平均水平的学生开放,因此很难进行纯粹的比较。
嘿
迪拜旅游套餐
关于该主题的优秀帖子。读完这篇文章后,我认为它内容非常丰富。感谢您抽出时间和精力来撰写这篇内容丰富的文章。
这个网站对读者非常有帮助,可以在这里获取更多信息,我发现这个博客提供了很好的信息并分享了所有内容
软满
印表机驱动程式
劳德代尔
区域驱动程序