Forscher bewerten KI-Modelle mit Methoden aus Uni-Aufnahmetests
Um herauszufinden, ob ein Chatbot schwindelt, verzichten Forscher auf einfache Checklisten. Sie behandeln die Software stattdessen wie einen Studenten bei einer anspruchsvollen Universitätsprüfung.
Wenn ein KI-Modell halluziniert, begeht es nicht einfach nur einen Fehler. Es scheitert an einem statistischen Wahrscheinlichkeitstest. Um dies präzise zu messen, nutzen Forscher die Psychometrie. Dies ist derselbe Zweig der Psychologie, mit dem standardisierte Studieneignungstests wie der SAT oder GRE entwickelt werden.