为了判断聊天机器人是否在撒谎,研究人员放弃了简单的核对清单,转而像对待参加高考的学生一样,对软件进行深度测评。 当计算机模型出现'幻觉'时,这不仅是一个错误,更意味着它没能通过统计概率测试。为了量化这一现象,研究人员开始求助于心理测量学。这一心理学分支常用于设计 SAT 和 GRE 等标准化考试。