人类在长列表中也能轻松排除干扰,但领先的 AI 模型在被要求辨认颜色而非阅读单词时,会失去焦点并导致任务失败。 斯特鲁普测验是一项经典的心理学实验。它要求参与者辨认单词颜色的墨水颜色,而不是阅读单词本身,以此衡量人的执行控制能力。对大多数人来说,阅读是一种自动习惯。当‘红色’这个词以蓝色墨水印刷时,我们必须有意识地抑制阅读本能。