Normwerte in Leistungstests: Boden- und Deckeneffekte

Auch bei normierten Tests kann es manchmal schwierig sein, die Leistungen von Probanden, gerade in den Extrembereichen, richtig einzuschätzen. Das ist der Fall, wenn die Aufgaben in einem Untertest für viele Teilnehmer zu schwer oder zu leicht sind. In den Normtabellen zeigt sich dann ein Boden- bzw. Deckeneffekt. Von Dr. Anne Wyschkon

Sehr leichte Rechenaufgaben werden von fast allen Kindern gelöst. Es kann so zu einem Deckeneffekt kommen.
Sehr leichte Rechenaufgaben werden von fast allen Kindern gelöst. Es kann so zu einem Deckeneffekt kommen.

Was sind Bodeneffekte?

Weist ein Test Bodeneffekte auf, bedeutet dies, dass er nicht (ausreichend) in der Lage ist, Unterscheidungen zwischen Personen mit unterschiedlich schwachen Leistungen zu treffen. So würden beispielsweise in einem Rechentest Probanden, die gar nicht rechnen können, den gleichen Normwert erhalten wie solche, die unterdurchschnittliche oder gar knapp durchschnittliche Leistungen im Fach Mathematik erbringen. Am unteren Ende der Verteilung (dem „Testboden") könnten also keine klaren Aussagen zur Leistungsfähigkeit eines Probanden getroffen werden.

In der Normtabelle des Tests wird dies erkennbar, wenn man sich anschaut, welchen Normwerten die schwächsten Rohwertpunkte zugeordnet sind. In Fällen von extremen Bodeneffekten wird mit dem Erzielen von 0 oder 1 Rohwertpunkt bereits ein durchschnittlicher Normwert (T-Werte ab 40) erreicht, weil mindestens 16 % der Normstichprobe (fast) keine Aufgabe lösen konnten. Nach Durchführung eines solchen Tests kann man also das Vorliegen von Defiziten beim Probanden nicht sicher ausschließen. Auch wenn die Person formal einen durchschnittlichen Normwert erzielt hat, war dafür ja keine echte Leistung erforderlich (im Beispiel: 0 bis 1 Rohwertpunkt).

In einer fiktiven Normtabelle würden Bodeneffekte z. B. so aussehen:

T-Werte für den Untertest 1

Anmerkung: Der Durchschnittsbereich ist grau hervorgehoben (T-Werte ab 40).
Anmerkung: Der Durchschnittsbereich ist grau hervorgehoben (T-Werte ab 40).

Die Normtabelle zeigt, dass 6-jährige Kinder schon bei 0 Rohwertpunkten (keine gelöste Aufgabe) einen T-Wert von 40 erhalten. Ihre Fähigkeit wird somit unabhängig von ihrer Testleistung immer als mindestens durchschnittlich eingeschätzt. Bei den 7-Jährigen genügt danach das Erreichen eines einzigen Punktes, um ihnen eine altersentsprechende Leistung zu attestieren. Eine Unterscheidung zwischen verschiedenen Graden unterdurchschnittlicher Fähigkeiten ist mit diesem Untertest bei 7-Jährigen nicht möglich. Es wird auch deutlich, dass der Bodeneffekt bei älteren Kindern schwächer wird. So müssen 9-Jährige immerhin schon 4 Aufgaben richtig lösen, um einen T-Wert im Durchschnittsbereich zu erhalten. Für jüngere Kinder ist dieser Untertest also sehr schwer, bei 16-Jährigen differenziert er dagegen gut im unteren Leistungsbereich (feine Abstufung der T-Werte bei einer Verbesserung der Leistung um jeweils einen Rohwertpunkt).

Was sind Deckeneffekte?

Unter einem Deckeneffekt versteht man, dass der in Frage stehende Test im oberen Leistungsbereich nicht ausreichend zwischen Probanden mit verschiedenen Fähigkeitsniveaus unterscheiden kann. Gut durchschnittliche und sehr begabte Rechner würden also in einem Rechentest mit Deckeneffekten gleichermaßen gute Testleistungen erreichen. Bei einer Inspektion der Normtabellen werden Deckeneffekte dadurch deutlich, dass im oberen Leistungsbereich (T-Werte ab 60) keine oder nur noch sehr grobe Unterscheidungen zwischen verschiedenen Fähigkeitsniveaus möglich sind. So könnte beispielsweise das Lösen von 20 Aufgaben mit einem T-Wert von 60 bewertet werden, während dem Rohwert von 21 bereits 65 oder gar 70 T-Wert-Punkte zugordnet werden.

In einer fiktiven Normwerttabelle würden Deckeneffekte z. B. so aussehen:

T-Werte für den Untertest 2

Anmerkung: Der Durchschnittsbereich ist grau hervorgehoben (T-Werte unter 60).
Anmerkung: Der Durchschnittsbereich ist grau hervorgehoben (T-Werte unter 60).

Die Normwerte am Tabellenende machen hier bei den Jugendlichen sehr große „Sprünge". Ein 16-Jähriger, der 19 Aufgaben löst, würde in seinen Fähigkeiten als durchschnittlich eingeordnet werden. Bei nur einer weiteren gelösten Aufgabe würde sein Ergebnis um fast eine Standardabweichung besser eingeschätzt werden.

Worin liegen die Ursachen für Boden- und Deckeneffekte?

Ursächlich sind im Regelfall ungünstige Schwierigkeitsstaffelungen der Testitems. Wenn ein Test fast ausschließlich schwierige und sehr schwierige Items enthält, resultieren Bodeneffekte, Probanden mit schwachen und mittleren Leistungen lösen also (fast) keine Aufgaben richtig und „klumpen" am Testboden.

Bei Deckeneffekten ist das Gegenteil der Fall: Der Test enthält für die fragliche Altersgruppe insbesondere leichte und mittelschwere Aufgaben. Die meisten Probanden können in diesem Test also viele Aufgaben auf Anhieb lösen. Dagegen fehlen schwierige Items, die zwischen Probanden mit sehr guten, überdurchschnittlichen oder herausragenden Leistungen differenzieren können.

Woran erkennt man, ob ein Test im oberen oder unteren Bereich gut differenziert?

Als Faustregel für eine gute Normwertstaffelung gilt: Der Zugewinn eines Rohwertpunktes darf nicht dazu führen, dass der Normwert um mehr als ein Drittel einer Standardabweichung ansteigt (Bracken, 1987). Am Beispiel der T-Skala, die eine Standardabweichung von 10 aufweist, bedeutet dies, dass durch den Zugewinn eines einzigen Rohwertpunktes im Test nicht mehr als 3 zusätzliche T-Wert-Punkte erreicht werden sollten.

Was hat der Altersbereich eines Tests mit Decken- und Bodeneffekten zu tun?

Decken- und Bodeneffekte finden sich häufig dann, wenn Tests für ein relativ breites Altersspektrum (z. B. 6 bis 16 Jahre) konzipiert wurden und gemessen an der breiten Altersspanne vergleichsweise wenige Testaufgaben zur Verfügung stehen (Wyschkon & Esser, 2015). Dann ist es in den meisten Fällen so, dass für die jüngsten Kinder Bodeneffekte resultieren, weil der Test zu wenige sehr leichte Aufgaben für diese Altersgruppe enthält, während für die Ältesten gehäuft Deckeneffekte zu verzeichnen sind (vgl. auch fiktive Normtabellen der Beispiele).

Angaben zu den Itemschwierigkeiten in Testmanualen

Oft finden sich in den Testmanualen Tabellen, denen die Lösungshäufigkeiten der einzelnen Items in der Eichstichprobe oder der Konstruktionsstichprobe zu entnehmen sind (Schwierigkeitsindex P). Ein Wert von 0.99 bedeutet dabei beispielsweise, dass 99 % der Personen aus der zugrundeliegenden Stichprobe die Aufgabe korrekt gelöst haben. Es handelt sich also um ein sehr leichtes Item.

Wie sollten die Itemschwierigkeiten verteilt sein?

Aufgaben, die oberhalb eines T-Wertes von 60 ihr Differenzierungsoptimum haben, weisen in repräsentativ ausgewählten Stichproben eine Lösungshäufigkeit zwischen 0.001 und 0.15 auf. Entsprechend haben Items, deren Lösungshäufigkeit zwischen 0.99 und 0.85 liegt, ihr Differenzierungsoptimum im unterdurchschnittlichen Leistungsbereich. Um Boden- und Deckeneffekte zu vermeiden, ist eine möglichst feine und gleichmäßige Schwierigkeitsstaffelung über den gesamten Leistungsbereich (0.99 bis 0.001) wünschenswert (vgl. auch Bracken, 1988).

Darf ein Test grundsätzlich keine Boden- oder Deckeneffekte aufweisen?

Boden- und Deckeneffekte eines Testverfahrens in bestimmten Altersgruppen müssen bei der Anwendung des Tests nicht immer ein Problem sein. Entscheidend ist das Ziel der Testung mit dem individuellen Probanden.

Besteht die Frage darin, ob bei einem Kind eine Rechenstörung vorliegt, sind Deckeneffekte des Verfahrens unerheblich. Wichtig ist hier nur, dass der ausgewählte Test für die fragliche Klassenstufe sehr fein im unteren Leistungsbereich differenziert. In der Normtabelle sollten also möglichst feine Abstufungen zwischen den T-Werten 20 und 39 gegeben sein. Umgekehrt verhält es sich, wenn es um die Frage von besonderen Begabungen geht. Hier müsste die Normtabelle im Bereich ab einem T-Wert von 60 feine Abstufungen enthalten. Dies sollte vor der Testung eines Kindes mit vermuteten schwachen bzw. überdurchschnittlichen Leistungen in jedem Fall geprüft werden. Hierdurch scheiden bei der Überlegung, welcher Test verwendet werden soll, von vornherein einige Tests aus, weil sie keine oder unzureichende Normwerte im fraglichen Leistungsbereich liefern.

Je nach Fragestellung kann ein Boden- oder Deckeneffekt in Kauf genommen werden

Beispielhaft soll hier die Basisdiagnostik Umschriebener Entwicklungsstörungen im Vorschulalter – Version 3 (BUEVA-III, Esser & Wyschkon, 2016) angeführt werden, die sich im Sinne der Testökonomie auf einen bestimmten kritischen Leistungsbereich konzentriert.

Die Aufgabe des Testverfahrens besteht darin, Kinder mit Umschriebenen Entwicklungsstörungen und allgemeinen Entwicklungsrückständen im Alter von 4;0 bis 6;5 Jahren zu erkennen und einer frühzeitigen Förderung zuzuführen. Es geht also lediglich um die Entscheidung, ob das Kind im fraglichen Entwicklungsbereich auffällige Leistungen zeigt oder mindestens altersentsprechende Kompetenzen aufweist.

Um die in der BUEVA-III erfassten 11 Leistungsbereiche möglichst ökonomisch zu erheben, was angesichts der oft geringen Aufmerksamkeitsspanne von Vorschulkindern sehr wichtig ist, werden bewusst keine sehr schwierigen, sondern pro Leistungsbereich lediglich leichte und mittelschwere Items vorgegeben. Viele schwierige Aufgaben in 11 verschiedenen Untertests würden gerade kleine Kinder stark frustrieren und die Testung unnötig verlängern. Das Differenzierungsoptimum des Verfahrens liegt also gezielt im unterdurchschnittlichen und durchschnittlichen Bereich. Selbstverständlich können daher besondere Begabungen mit der BUEVA-III nicht diagnostiziert werden. Dafür muss auf andere Testverfahren zurückgegriffen werden.

Literatur

Bracken, B. A. (1988). Ten psychometric reasons why similar tests produce dissimilar results. Journal of School Psychology, 26, 155–166.

Bracken, B. A. (1987). Limitations of preschool instruments and standards for minimal levels of technical adequacy. Journal of Psychoeducational Assessment, 4, 313–326.

Esser, G. & Wyschkon, A. (2016). Basisdiagnostik Umschriebener Entwicklungsstörungen im Vorschulalter – Version III (BUEVA-III). Göttingen: Hogrefe.

Wyschkon, A. & Esser, G. (2015). Testleiterfehler und Beurteilung von Testnormen: Empfehlungen für Testentwickler und -anwender. In G. Esser, M. Hasselhorn & W. Schneider (Hrsg.), Diagnostik im Vorschulalter (Tests und Trends, Bd. 13, S. 165–179). Göttingen: Hogrefe.


Dr. Anne Wyschkon
ist Diplom-Psychologin sowie Kinder- und Jugendlichenpsychotherapeutin. Sie ist stellvertretende Ambulanzleiterin in der Akademie für Psychotherapie und Interventionsforschung Potsdam (API) und Lektorin im Hogrefe Verlag.


  • Ressort Im Fokus
  • Testdiagnostik
  • Ressort Klinik Testzentrale