Als Normierung bezeichnet man in der Psychologischen Diagnostik das Erarbeiten einer Umrechnungsskala von Rohwerten zu Normwerten zwecks Herstellung der Vergleichbarkeit eines individuellen Testergebnisses mit einer repräsentativen Vergleichsgruppe.
So können z. B. die Ergebnisse eines Intelligenztests einer spezifischen Personengruppe, etwa der Abiturienten, mit der aus der Normentafel ersichtlichen Intelligenzverteilung der entsprechenden Gruppe verglichen, eingeordnet und interpretiert werden.
Zugrunde liegt in der Regel die Annahme, dass psychologische Merkmale normalverteilt sind und der Grad der Abweichung eines Ergebnisses vom Mittelbereich der Referenzgruppe interpretationsrelevant ist. Diese Interpretationen können dann z. B. als „überdurchschnittlich“, „durchschnittlich“ oder „unterdurchschnittlich“ eingeordnet werden – die Bewertung ergibt sich aus dem Inhalt des Merkmals (z. B. bei Intelligenz anders als Aggressivität). In der Regel umfasst der Mittel- oder Durchschnittsbereich den Abstand einer Standardabweichung um den Mittelwert, dieser Grenzwert ist allerdings nicht psychologisch begründet. Bei einigen Tests werden deshalb Abweichungen von zwei oder drei Standardabweichungen für die Interpretation einer extremen Ausprägung gefordert. Genauer ist die fragestellungsspezifische Feststellung von Grenzwerten im Rahmen der Validierung für das Treffen einer diagnostischen Entscheidung (z. B. ab welchem Konzentrations-Leistungswert die Fahrtauglichkeit verneint werden muss, weil das Risiko der Unfallverursachung größer ist als die Einschränkung der persönlichen Freiheit).
Die Durchführung einer Normierung ist ein wesentliches Gütekriterium für ein ausgereiftes Testverfahren und seine praktische Brauchbarkeit.[1] Bei Papier-Bleistift-Tests muss die Normierungstafel (Umrechnung Rohwert zu Normwert im Test-Handbuch verfügbar sein. Bei computerunterstützten Verfahren oder Auswerteprogrammen, wo eine automatische Umrechnung erfolgt, müssen mindestens Angaben zur Stichprobe (und der Unterteilung der Norm z. B. nach Alter, Geschlecht u. a.), Erhebungsmethodik und dem Erhebungszeitraum veröffentlicht sein (vgl. z. B. DIN 33430). Hier wird auf die direkte Verfügbarkeit der Normtabellen häufig aus Gründen des Test- bzw. Investitionsschutzes verzichtet, da die Erhebung repräsentativer Normierungsstichproben meist der teuerste Einzelposten einer Testentwicklung ist und so ein Nachbau durch Dritte verhindert werden soll.
Für jeden psychologischen Test ist anzugeben, für welche Zielgruppe und welche diagnostische Entscheidung dieser Test ein gültiges Messinstrument sein soll und durch empirische Ergebnisse im Test-Manual zu belegen. Art, Aktualität und Güte der Normierung sind mitbestimmend für die sogenannte Utilität (Nützlichkeit) des Testverfahrens.
Normierung als Gütekriterium
Die wissenschaftliche Bedeutung und der praktische Gebrauchswert eines Testverfahrens werden an sogenannten Gütekriterien gemessen. Die Verfügbarkeit von Normentafeln ist solch ein Gütekriterium. Die Normierung wird auf der Basis von Testdurchführungen an einer repräsentativen Stichprobe vorgenommen und statistisch aufgearbeitet. Dies benötigt eine längere Zeit der Erprobung und Ausreifung, bis das Testverfahren den an es zu stellenden Anforderungen genügt. Zahlreiche der gehandelten Tests kranken am Fehlen dieses Gütekriteriums und sind insofern nur sehr begrenzt aussagekräftig und einsetzbar:
Tests erbringen als unmittelbares Ergebnis zunächst lediglich Rohwerte. Diese lassen sich nur über einen Vergleich beurteilen. So ist zwar bei der Auswertung eines 100-Meter-Laufs feststellbar, dass eine Zeit von 11,6 Sekunden erzielt und diese eine höhere Leistung darstellt als 12,0 Sekunden. Ohne einen Vergleichsmaßstab ist aber nicht zu beurteilen, ob dieses Ergebnis für die entsprechende Vergleichsgruppe (Kinder, Männer, Frauen, Hochleistungssportler, Behinderte) ein herausragendes, ein schwaches oder ein durchschnittliches Ergebnis darstellt. Ohne eine Vergleichsmöglichkeit mit einer an einer größeren Vergleichsgruppe gewonnenen Normentafel eignen sich die Ergebnisse nur für den „Hausgebrauch“, etwa innerhalb einer Schulklasse oder einer Vereinsabteilung. Eine darüber hinausgehende Bewertung der Rohscores bedarf eines Maßstabs, an dem sich ablesen lässt, was als „durchschnittlich“, „überdurchschnittlich“ oder unter dem Durchschnitt der betreffenden Population liegend zu gelten hat.
Die Normierung und die aus ihr hervorgegangenen Normentabellen stellen daher eine wichtige Voraussetzung dar, um ein spezielles Testergebnis nach der erfolgten Auswertung auch interpretieren und bewerten zu können.[2]
Normierungsbeispiele
Der Progressive Matrizentest von John C. Raven ist ein sprachfreies Testverfahren zur Messung der Intelligenz. Es arbeitet mit der Methode Multiple Choice und wurde, -zunächst im Dienst der britischen Armee entwickelt-, in drei unterschiedlichen Formen für unterschiedliche Intelligenz-Levels publiziert.[3] Die Auswertung der Rohscores erfolgt über Folien. Für jede der Fassungen mussten außer der Normierung für das Ausgangsland Großbritannien speziell für Deutschland gültige Normentabellen erstellt werden.[4] Da die Matrizen von Raven in die Öffentlichkeit gerieten und missbräuchlich auch als Übungsmaterial genutzt wurden, mussten mehrfach Parallelversionen gestaltet und angepasste Normierungen vorgenommen werden.
Der Wiener Koordinationsparcours von Siegbert A. Warwitz ist ein ausgereiftes Prüfverfahren zur Erfassung der Bewegungskoordination. Für ihn wurden zunächst aus einer repräsentativen Stichprobe Normentafeln für beide Geschlechter der 17- bis 21-jährigen Gymnasialschüler erarbeitet.[5] Speziell experimentalpsychologisch ausgebildete Studierende erweiterten nach und nach in zusätzlichen Testabnahmen die Tabellen für die Altersstufen ab dem zwölften Lebensjahr sowie für die speziellen Populationen der männlichen und weiblichen Sportstudenten.[6] Die Normierungen wurden zehn Jahre später nochmals mit einer Population von N = 2778 wiederholt und auf dem Signifikanzniveau von p = 1 % in ihren Resultaten bestätigt. Der WKP kommt wegen der objektiven Vergleichbarkeit der Leistungen heute vor allem bei den Eignungsprüfungen für das Sportstudium an Universitäten sowie bei Prüfungen zur Polizei- und Militärlaufbahn zum Einsatz. Die differenzierten Normentafeln lassen neben dem überregionalen auch einen Generationen-Vergleich zu. Die der einzelnen Testleistung zugeordneten Prozentränge ermöglichen dabei eine Leistungszuordnung innerhalb einer fünfstufigen Bewertungsskala von „unzureichend“ über „mängelbehaftet“, „durchschnittlich“ und „gut“ bis „hervorragend“.[7]
Kulturabhängigkeit der Normierung
Neben den Faktoren Alter, Geschlecht etc. muss ein psychodiagnostisches Instrument auch für unterschiedliche Kulturen genormt werden. Ein Test, der in Mitteleuropa zutreffend das Konstrukt „soziale Unterwürfigkeit“ misst, kann bei der Anwendung in Fernost unbrauchbare Indizes ausgeben, da viele soziale Interaktionen aus dem asiatischen Raum in Zentraleuropa als übertriebene Höflichkeit oder gar Unterwerfungsgesten gedeutet würden. Weitere Dimensionen, die in den Normierungsprozess einbezogen werden müssen, sind denkbar.
In der Entstehungsphase des Testverfahrens bedient sich der Forscher typischerweise eines großen Itempools, also einer umfassenden Sammlung eventuell passender Fragestellungen („Items“ genannt), von denen er einige für den ersten Prototypen auswählen wird. Daraufhin wird die repräsentative Versuchsgruppe mit dem Test konfrontiert. Wird (in diesem Falle) die Gaußsche Normalverteilung nicht erreicht, sondern sprechen die Ergebnisse eher für einen Deckeneffekt, ist eine Änderung der Items aus dem Pool hin zu anspruchsvolleren Problemstellungen nötig. Dieses Verfahren – die Normierung – muss eventuell mehrfach wiederholt werden.
Einfluss der Zeit auf Normierungsprozesse
Psychodiagnostische Messinstrumente sind nicht ohne weiteres über einen unbegrenzten Zeitraum anwendbar. Insbesondere die oben erwähnten Intelligenztests müssen regelmäßig überprüft und gegebenenfalls neu normiert werden. Ein Grund dafür ist der häufig zitierte sogenannte Flynn-Effekt.
Einfluss von gesellschaftlichen Änderungen auf Normierungsprozesse
Insbesondere psychologische Tests, die nicht den projektiven, sondern den objektiven (Leistungs)tests zugeordnet werden, müssen regelmäßig „gewartet“ werden. So ist die Frage in einem Wissenstest nach Politikernamen aus dem Zweiten Weltkrieg in den 1950er Jahren sicherlich eine als einfach einzustufende Frage. Würde sie dagegen heute gestellt, wäre sie wegen des zeitlichen Zwischenraums bereits schwieriger zu beantworten. Der betreffende Test würde also anteilig komplizierter und das Maximum der Verteilungsfunktion würde geringfügig zu kleineren Werten verschoben. Gesellschaftlicher Wandel kann also eine „Neujustierung“ eines psychologischen Verfahrens erzwingen.
Einfluss der internationalen Verbreitung von Tests
Ausgereifte Testverfahren, die den hohen Ansprüchen möglichst zahlreicher Gütekriterien entsprechen, werden über die Scientific Community in der ganzen Fachwelt populär. Dies bedeutet für die Normierung zusätzlichen Aufwand:
Bereits kleine Veränderungen an der Frage- bzw. Aufgabenstellung können die Ergebnisse erheblich verzerren. Diese Tatsache wird insbesondere bei sprachbasierten Tests und der Notwendigkeit einer Übersetzung in eine andere Sprache problematisch und kann eine völlige Neunormierung nötig machen.
Literatur
- R. Horn (Hrsg.): Standard Progressive Matrices (SPM). (Deutsche Bearbeitung und Normierung nach J. C. Raven.) 2. Auflage. Pearson Assessment, Frankfurt 2009.
- H. W. Krohne & M. Hock: Psychologische Diagnostik – Intelligenztests. Kohlhammer, Stuttgart 2007.
- Gustav A. Lienert, Ulrich Raatz: Testaufbau und Testanalyse. 6. Auflage. Beltz, Weinheim 1998, ISBN 3-621-27424-3
- J. Raven, John C. Raven, J. H. Court: Raven’s Progressive Matrices und Vocabulary Scales. Grundlagenmanual. Pearson Assessment, Frankfurt 2003
- N. Schirach: Die Erstellung von Normentabellen zu einer sportmotorischen Testbatterie (Wiener Koordinationsparcours). Wiss. Staatsexamensarbeit GHS, Karlsruhe 1979
- Siegbert Warwitz: Der Wiener Koordinationsparcours. In: Siegbert Warwitz: Das sportwissenschaftliche Experiment. Planung-Durchführung-Auswertung-Deutung. Verlag Hofmann, Schorndorf 1976, S. 48–62
- Siegbert Warwitz: Normentafeln zum Wiener Koordinationsparcours (WKP). In: Sportunterricht (Lehrhilfen) 4 (1982) S. 59–64
Einzelnachweise
- ↑ Gustav A. Lienert, Ulrich Raatz: Testaufbau und Testanalyse. 6. Auflage. Beltz, Weinheim 1998
- ↑ Siegbert Warwitz: Das sportwissenschaftliche Experiment. Planung-Durchführung-Auswertung-Deutung. Verlag Hofmann, Schorndorf 1976
- ↑ J. Raven, J. C. Raven, J. H. Court: Raven’s Progressive Matrices und Vocabulary Scales. Grundlagenmanual. Pearson Assessment, Frankfurt 2003
- ↑ R. Horn (Hrsg.): Standard Progressive Matrices (SPM). (Deutsche Bearbeitung und Normierung nach J. C. Raven.) 2. Auflage. Pearson Assessment, Frankfurt 2009
- ↑ Siegbert Warwitz: Normentafeln zum Wiener Koordinationsparcours (WKP). In: Sportunterricht (Lehrhilfen) 4 (1982) S. 59–64
- ↑ N. Schirach: Die Erstellung von Normentabellen zu einer sportmotorischen Testbatterie (Wiener Koordinationsparcours). Wiss. Staatsexamensarbeit GHS, Karlsruhe 1979
- ↑ Siegbert Warwitz: Der Wiener Koordinationsparcours. In: Siegbert Warwitz: Das sportwissenschaftliche Experiment. Planung-Durchführung-Auswertung-Deutung. Verlag Hofmann, Schorndorf 1976, S. 48–62