Psychologische Testbeispiele: Fragen und Methoden

Psychologische Tests sind ein wichtiges Instrument zur Beurteilung verschiedener Aspekte der menschlichen Psyche. Marina Haller vom Psychologischen Institut präsentierte in einem Webinar, wie sie Multiple-Choice-Prüfungen gestaltet und verschiedene Fragetypen und Bewertungsmethoden einsetzt.

Fragetypen und ihre Anwendung

Um die verschiedenen Fragetypen adäquat einzusetzen, ist es sinnvoll, sich vor Beginn der Fragenformulierung und Typenwahl eine Übersicht über die eigenen Lerninhalte zu verschaffen. Nicht nur, welche thematischen Blöcke unterrichtet, sondern auch, auf welchen Ebenen des Lernens diese abgefragt werden sollen.

Die Zeilen bilden die verschiedenen thematischen Blöcke der Veranstaltung ab, die Spalten die Ebenen des Lernens. In diesem Beispiel sind sie auf drei Stufen aufgeteilt: Kennen, Verstehen, Anwenden. Nun möchte man im Beispiel im ersten Thema 40% der Fragen ansiedeln. Ist dieser Blueprint der Prüfung einmal angelegt, kann die Anzahl Fragen pro Block schnell und übersichtlich ermittelt werden.

Fragen sollten inhaltlich keine Spitzfindigkeiten oder Trivialitäten abfragen, sondern Themen, die häufig vorkommen, häufige Fehlerquellen sind oder gravierende Folgen bei Nichtwissen haben. Die Fragestellung soll «authentisch» sein, d.h. bottom-up (nicht von der Theorie her kommend), fokussiert auf die eigentliche Frage und möglichst real bzw. konkret sein.

Am Psychologischen Institut werden die Prüfungen nach der Bewertung mit statistischen Tests analysiert, u.a. indem ermittelt wird, wie viele Studierenden welche Antwortmöglichkeit gewählt haben - so kann man z.B. feststellen, ob die richtige Antwort genug «weit weg» von den falschen Antworten war oder ob Studierende gleich häufig die falschen Antworten gewählt haben wie richtige.

Lesen Sie auch: Beispiele für Konzentrationstests

Typ A+: Positive Einfachwahl

Dieser Fragetyp fragt einen Sachinhalt ab. Es ist eine Single-Choice-Frage, d.h. von den vorgegebenen Antworten ist genau eine Antwort die «beste Antwort». Wichtig ist, dass die beste Antwort eine grosse Distanz zur zweitbesten Antwort hat. Distanz heisst, dass das unterscheidende Kriterium gut erkennbar sein muss. Dennoch dürfen die falschen Antworten, die sogenannten Distraktoren, nicht einfach Lückenfüller sein, sondern sollten ebenfalls plausibel sein, so dass das unterscheidende Kriterium für die richtige Wahl wirklich notwendig wird.

Typ A-: Negative Einfachwahl

Mit diesem Fragetypen können gut wichtige Ausnahmen abgefragt werden, da man fragt, welche Antwort nicht korrekt ist. Es gelten dieselben Bedingungen wie bei Typ A+. Zusätzlich sollten die Antworten zwingend positiv formuliert werden, um doppelte Verneinungen und damit unnötige Verwirrung zu verhindern. Auch diese Fragen brauchen eine grosse Distanz zwischen der richtigen (d.h. falschen) Antwort und den Distraktoren. Wichtig ist bei diesem Fragetypen, dass graphisch hervorgehoben wird, dass es sich um eine Negativwahl handelt (z.B.

Zuordnungsfragen

Bei diesem Typ hat man mehrere kurze Aussagen vorgegeben und muss dann Begriffe oder Kurzantworten zuordnen, z.B. Antwort A gehört zu Aussage B etc. Er eignet sich gut, wenn unterschiedliche Aspekte eines Themas bedeutsam sind. Die Aussagen sollten positiv formuliert werden. Wichtig ist hier, dass plausible Aussagen formuliert werden, die nicht gegenseitig Definitionen oder Eigenschaftsbeschreibungen mitliefern, da man sonst mit der Beantwortung eines Teils der Fragen gleich die anderen Antworten erraten kann.

Pick N

Der Fragetyp funktioniert ähnlich wie die positive Einfachwahl, hat aber mehr als eine richtige Antwort, nämlich N richtige Antworten. So kann man später mehr Teilpunkte vergeben - zu den Bewertungen später mehr. In jedem Fall soll man hier explizit nennen, wie viele Antworten aus der Auswahl korrekt sind.

Richtig/Falsch Fragen

Es werden vier Antwortalternativen vorgelegt. Im Unterschied zu den vorherigen Fragetypen wird hier nicht eine «beste Antwort» abgefragt, sondern es muss für jede Frage richtig/falsch angekreuzt werden. Man macht vier verschiedene Aussagen, die möglichst verschiedene Aspekte eines Themas abfragen. Jede Aussage muss eindeutig richtig oder falsch sein. Man weist nicht darauf hin, wie viele Antworten richtig oder falsch sind. Auch sollte jede Aussage unabhängig von der anderen sein, damit andere Fragen die nächste nicht mitbeantworten. Über die ganze Prüfung hinweg macht es Sinn, die Anzahl richtigen/falschen Antworten ungefähr auszubalancieren (d.h. ca.

Lesen Sie auch: Änderungen im psychologischen Dienst

Bewertungsmethoden

Es gibt verschiedene Bewertungsmethoden für Multiple-Choice-Fragen:

  • Pattern: Hier gilt alles oder nichts, d.h. 1 Punkt oder kein Punkt wird vergeben. Diese Bewertung eignet sich für Single-Choice-Fragen (positiv oder negativ) oder für die Zuordnung.
  • Partial Credit: Hier werden Teilpunkte vergeben, dies eignet sich für den Typ PickN. Werden alle richtigen Antworten angewählt (d.h. alle richtigen sind korrekt angekreuzt, alle falschen Antworten sind nicht angekreuzt), gibt es 3 Punkte. Bei einem Fehler (eine korrekte Antwort nicht angekreuzt oder eine falsche Antwort angekreuzt) gibt es 2 Punkte, etc. Diese Bewertungsmethode sollte nicht angewendet werden, wenn es nur zwei Antwortmöglichkeiten gibt und davon nur eine richtig ist, da die Studierenden dann i.d.R.
  • Response Options: Jede korrekte Antwort gibt einen Punkt - d.h. pro Frage können die Studierenden so viele Punkte machen, wie Antworten da sind.
  • Kprim: Die Frage wird mit einem Punkt bewertet, wenn alle Antwortalternativen korrekt beurteilt worden sind. Bei drei von vier korrekten Antworten gibt es noch einen halben Punkt, bei weniger als drei korrekten Antworten noch 0 Punkte. Werden in einer Frage beide Antworten angekreuzt (d.h. richtig und falsch), gilt die Frage als falsch beantwortet.

Ein Auswertungsbeispiel zeigt - hier am Beispiel einer Single-Choice-Frage - wie unterschiedlich die Punktezahlen mit unterschiedlichen Bewertungsmethoden sein können. So wird bei der Pattern-Methode nur bei einer vollständig richtigen Antwort ein Punkt vergeben, mit Response Options erhält man hingegen gleich 5 Punkte.

Der Rorschach-Test

Der Rorschach-Test ist eine der bekanntesten und am häufigsten verwendeten psychologischen Testmethoden zur Persönlichkeitsdiagnostik. Entwickelt von dem Schweizer Psychiater Hermann Rorschach hat er seit seiner Entstehung in den 1920er Jahren eine breite Anwendung in der psychologischen Forschung und klinischen Praxis gefunden.

Was ist der Rorschach-Test?

Beim Rorschach-Test (auch Rorschachtest oder Tintenklecks-Test) handelt es sich um ein projektives Testverfahren mit dessen Hilfe man auf Struktur und Eigenschaften der Persönlichkeit schliessen kann. Man könnte ihn dementsprechend auch als „Persönlichkeitsentfaltungstest“ beschreiben. Zum Einsatz kommt dieses Testverfahren in der psychologischen Diagnostik.

Hierbei werden dem/-r Patienten/-in verschiedene Bilder mit abstrakt aussehenden Tintenklecksen vorgelegt und die Assoziationen dazu akribisch von der untersuchenden Person festgehalten. In zeitlicher Hinsicht benötigt die Durchführung eines Rorschach-Tests ungefähr eine Stunde. Dann werden dem/-r Patienten/-in nacheinander zehn verschiedene Tafeln mit Tintenklecksen in einer festen Reihenfolge vorgelegt. Die Bilder darauf sind zunächst fünf schwarze Tintenkleckse, darauf folgen zwei rote sowie abschliessend drei bunte. Die Testperson darf die Bilder beliebig drehen.

Lesen Sie auch: Persönlichkeit kostenlos testen

Nach dem Stellen dieser Frage erfordert der Rorschach-Test eine akribische Notation der gemachten Aussagen. Neben den individuellen Deutungen werden allerdings auch andere Dinge, wie etwa Reaktionszeit und Handhabung der Bilder, festgehalten.

Auswertung des Rorschach-Tests

Das Auswertungsschema des Rorschach-Tests hat sich im Laufe der Zeit deutlich verändert, was vor allem auch der Kritik bezüglich der mangelnden Objektivität bei der anschliessenden Analyse geschuldet ist. Trotz der modernen Weiterentwicklung des Rorschach-Tests, sind noch viele der ursprünglich von seinem Erfinder festgelegten Prinzipien gültig.

Hermann Rorschach postulierte in seinen Publikationen zu diesem Testverfahren etwa, dass beispielsweise die Formantworten Rückschlüsse auf die Funktionen des Bewusstseins zulassen. Sie repräsentieren sozusagen das “disziplinierte Denken”. Dahingegen spiegeln die Antworten hinsichtlich der Farbe eher die emotionale Resonanz sowie die Affektivität wider, die durch das Betrachten der Bilder erzeugt wird. Schliesslich schloss Rorschach anhand der Antworten zu Bewegungen auf den Klecksen darauf, wie es um die “Innerlichkeitsarbeit” des/-r Patienten/-in steht.

Anhand dessen lassen sich durch den Rorschach-Test (gemäss seinem ursprünglichen Schöpfer) vier verschiedene Persönlichkeitstypen ausmachen. Die einzelnen Typen sind direkt von der Bewertung der drei Aspekte Form, Farbe und Bewegung abhängig.

Typ Form Farbe Bewegung
introversiv 0 0 +
extroversiv 0 + 0
koartiert 0 - -
ambiäqual 0 + +

Neben diesem Beispiel zur Erfassung eines groben Persönlichkeitstypus gibt es mittlerweile noch viele weitere Rückschlüsse auf die Psyche der Testperson, die man anhand der gesammelten Antworten ziehen kann. Hierzu zählen neben der Gestaltverarbeitung beispielsweise auch emotionale, soziale sowie intellektuelle Persönlichkeitscharakteristika und zudem seelische Störkomplexe.

Kritik und Rezeption des Rorschach-Tests

Nach Rorschachs Tod mit nur 37 Jahren (ein Jahr nach der Veröffentlichung seiner Tintenklecks-Versuchsreihe im Jahr 1921), lag die weitere Entwicklung seines Tests nicht mehr in seinen eigenen Händen. Der Rorschach-Test verbreitete sich zunächst schnell in den USA, denn er stellte eine günstigere und zudem auch schnellere Option zu der damals vorherrschenden Gesprächstherapie nach Freud dar. So fand er beispielsweise in den Vereinigten Staaten Anwendung beim Militär und zur Befragung von Involvierten des Vietnamkrieges. Auch zur Befragung der NS-Häftlinge während der Nürnberger Gerichtsprozesse in Deutschland kam er zum Einsatz.

In seinem Heimatland der Schweiz fand er ebenfalls rege Anwendung, hier jedoch vorwiegend in Zusammenhang mit Vorstellungsgesprächen und Berufstests. In einigen Ländern, darunter etwa Grossbritannien, hat sich der Ruf des Rorschach-Tests seit dieser Welle von Kritik und Entrüstung bis heute nicht mehr erholt. Allerdings ist das Verfahren bereits seit 1925 ein fester Bestandteil der Psychologie in Japan und gilt dort nach wie vor als beliebtester psychologischer Test. Auch in Argentinien findet er heut noch breite Anwendung, in der Türkei ist der ebenfalls auf dem Vormarsch. In Russland auf der anderen Seite wird dem Rorschach-Test nur noch eine geringe Bedeutung beigemessen.

Seit seiner Veröffentlichung im Jahr 1921 bis in das moderne 21. Jahrhundert gibt es im Bereich der Psychiatrie und Psychologie Kritik am Rorschach-Test. Der häufigste Kritikpunkt zielt dabei auf die Subjektivität bei der Auswertung und Zuordnung der Antworten ab. Hinzu kommt, dass es bei der Bewertung viele mögliche Kombinationen gibt, was zu einer variierenden Deutung der Testfaktoren führen kann. Des Weiteren werden die Assoziationen zu den Bildern auch oftmals stark von kurzfristigen Erfahrungen und Erlebnissen beeinflusst, anstatt von mehr oder weniger konstanten Persönlichkeitsmerkmalen.

Aufgrund der vielen Widrigkeiten rund um diesen Test sah sich die “Society for Personality Assessment” 2005 dazu gezwungen, ein Statement zu dem Testverfahren abzugeben.

Vertrauensintervalle bei psychologischen Tests

Kein psychologischer Test misst wirklich zuverlässig. Selbst bei Persönlichkeitsmerkmalen wie der Intelligenz, denen eine gewisse Stabilität unterstellt wird, kann die Reliabilität nur annäherungsweise befriedigend erreicht werden.

Wie fehlerbehaftet die einzelnen Tests in dieser Hinsicht sind, lässt sich nie genau ermitteln. Die Messfehler werden mit sehr unterschiedlichen Verfahren geschätzt (Klassische Testtheorie, Item-Response-Theorie). Auch wenn man seriös nach dem sogenannten wahren Testwert sucht, man wird ihn nie perfekt, messgenau kennen. Auf eine einzelne Person zutreffend, kann man ihn gar nicht einschätzen. Die Schätzung des Standardmessfehlers erfolgt über modellbasierte Annahmen und mit Hilfe der Testdaten grosser Populationen.

Gemäss den Standards for Educational and Psychological Testing (AERA, APA & NCME, 2014) muss der Standardmessfehler bei jedem Test ausgewiesen werden. Dank dieser Messgrösse kann verlässlicher darüber spekuliert werden, in welchem Bereich der wahre Wert liegen dürfte. Die Aussage, der IQ einer bestimmten Person betrage gemäss einem bestimmten Intelligenztest 132, ist irreführend und nicht fachgerecht. Anstelle von IQ ist von einem IQ-Intervall auszugehen. Allgemein spricht man hier von Vertrauensintervall oder verbreiteter von Konfidenzintervall.

Bei einem sechsjährigen Kind mit einem Gesamt-IQ von 108 liegt der IQ auf dem 95%-Niveau zwischen 102 und 113 (Petermann, 217, S. 83). Dies heisst: Ein durchschnittlicher bis überdurchschnittlicher IQ. Bei einem siebenjährigen Kind mit einem Gesamt-IQ von 113 liegt der IQ mit 95-prozentiger Wahrscheinlichkeit zwischen 107 und 118 (Petermann, 217, S. 84). Dies heisst: Ein durchschnittlicher bis überdurchschnittlicher IQ.

Bei IQ-Werten eines Intelligenztests sind nicht die «genauen» Punktwerte interpretierbar, sondern nur die Konfidenzintervalle (Vertrauensintervalle).

Unterscheidet sich Annas IQ-Testleistung von Pauls IQ-Testleistung? Nein, denn ihre Konfidenzbereiche (IQ-Intervalle, IQ-Bereiche; IQ-Bänder)überlappen sich:

  • Paul: Mit 95-prozentiger Sicherheit liegt der IQ-Wert zwischen 86 und 110.
  • Ann: Mit 95-prozeniger Sicherheit liegt der IQ-Wert zwischen 98 und 122.
(Standardmessfehler rtt = 0.84; Tewes, 1983)

Ivan hat beim Intelligenzstrukturtest 2000R von Liepman et al. (2007) beim SubtestSchlussfolgerndes Denken einen IQ-Wert von 111 erzielt. Dies heisst: Ivans IQ liegt mit 95prozentiger Sicherheitswahrscheinlichkeit zwischen IQ 103 und 118.

Zu beachten ist, dass die Standardabweichung des IQ bei diesem Test 10 IQ-Punkte beträgt und nicht wie üblich 15 IQ-Punkte! (siehe Standardnormalverteilung IQ-Werte: + 1 Standardabweichung entspricht dem ungefähren Prozentrang 84; +2 Standardabweichungen entsprechen dem ungfähren Prozentrang 98).

tags: #psychologischer #test #beispiele #fragen