수능과 같은 수학 원리로 AI 모델의 등급을 매기는 과학자들
챗봇의 거짓말 여부를 판단하기 위해 연구자들은 단순한 체크리스트 대신, 소프트웨어를 마치 입시를 치르는 수험생처럼 다루기 시작했습니다.
컴퓨터 모델이 엉뚱한 답변을 내놓는 '환각 현상'은 단순한 실수가 아닙니다. 이는 통계적 확률 테스트를 통과하지 못한 결과입니다. 이를 측정하기 위해 연구자들은 수능(SAT)이나 대학원 입학시험(GRE) 설계에 쓰이는 심리학의 한 분야인 '계량심리학'에 주목했습니다.
앱에서 계속 읽기
단락 3개 더 · 그리고 3문제 퀴즈