Test-Statistik

Der Zugriff erfolgt über das Zahnrad-Symbol im Test rechts oben > (oder innerhalb des Tests im Block Einstellungen > Test-Administration) > Ergebnisse > Statistik.

Dieser Bericht liefert eine statistische Auswertung des Tests und der dazugehörigen Fragen. Sie können auswählen, ob nur der erste oder alle Testversuche in die Auswertung einbezogen werden. Im oberen Abschnitt des Berichts stehen allgemeine statistische Informationen zum Test. Darunter erfolgt eine Auswertung der einzelnen Testfragen in tabellarischer Form. Sie können die einzelnen Fragen anklicken, um ihre statistische Auswertung zu sehen, oder die Fragen in der Vorschau ansehen bzw. bearbeiten . Unter der Tabelle sehen Sie eine Balkengrafik, die die statistischen Parameter Leichtigkeitsindex (facility index) und Trennschärfe-Effizienz (discriminative efficiency) für die einzelnen Testfragen darstellt.

Der Bericht kann in verschiedenen Formaten heruntergeladen werden.

Eine gute Einführung in die Statistik und die im Bericht verwendeten statistischen Parametern finden Sie in diesem 45-Minuten-Seminar.

Statistische Auswertung

Im folgenden wird detailliert erläutert, was im Bericht dargestellt wird.

Test-Information

In diesem Abschnitt finden Sie allgemeine statistische Informationen zum Test insgesamt. Dazu gehört:

Test-Name
Kursname
Testöffnung, Testschließung, Geöffnet für - Zeitraum, in dem der Test zur Verfügung steht (falls definiert), d.h. Beginn, Ende und Dauer
Anzahl der vollständig bewerteten ersten Versuche, die in die statistische Auswertung einfließen
Gesamtzahl an vollständig bewerteten Versuchen, die in die statistische Auswertung einfließen
Durchschnitt beim ersten Versuch - welche Bewertung wurde durchschnittlich beim ersten Versuch erreicht
Durchschnittsergebnis aller Versuche - welche Bewertung wurde durchschnittlich bei allen Versuchen erreicht
Median (für Erste/Alle Versuche) - Median
Standardabweichung (für Erste/Alle Versuche) - Standardabweichung
Schiefe der Punkteverteilung (für Erste/Alle Versuche) - Schiefe
Bewertungsverteilungsgraph (für Erste/Alle Versuche) - Wölbung
Koeffizient interner Konsistenz (für Erste/Alle Versuche) - Cronbachs Alpha
Fehlerquotient (für Erste/Alle Versuche) - die Unterschiede in den Bewertungen der einzelnen Teilnehmer/innen kommen wie folgt zustande: Zum einen gibt es bessere und schlechtere Teilnehmer/innen und zum anderen gibt es zufällige Unterschiede. In einem Test möchte man diese zufälligen Unterschiede minimieren, so dass die Bewertungen im Test den tatsächlichen Wissensstand der Teilnehmer/innen widerspiegeln. Der Fehlerquoitient gibt das Verhältnis zwischen zufälligen Unterschieden und leistungsbedingetn Unterschieden in den Bewertungen an. Je kleiner der Fehlerquotient, desto geringer der zufällige Unterschied, desto besser spiegelt der Test den tatsächlichen Wissenstand wider.
Standardfehler (für Erste/Alle Versuche) - dieser Parameter wird vom Fehlerquotienten abgeleitet und ist ein Maß dafür, wie viel zufällige Abweichung in jeder einzelnen Testbewertung steckt. Wenn z.B. der Standardfehler 10% beträgt und eine Person im Test 60% erreicht hat, dann liegt der tatsächliche Wissenstand der Person zwischen 50% und 70%.

Kennwert bezogen auf den gesamten Test (in Klammern wird die oben getroffene Auswahl / der Bezug genannt)	Fragestellung
Durchschnitt bei ...	Wie viele Punkte haben die Teilnehmenden durchschnittlich erreicht? Wie ist der Test insgesamt ausgefallen?
Median	Welche Punktzahl liegt bei 50% der Punkteverteilung?
Standardabweichung	Wie stark weichen die Bewertungen von der Durchschnittsbewertung ab? Handelt es sich um eine heterogene oder eine homogene Punkteverteilung?
Schiefe der Punkteverteilung	Entspricht die Punkteverteilung einer Normalverteilung? Oder neigt sie sich eher nach links/rechts?
Koeffizient interner Konsistenz	Wie konsistent sind die Fragen des Tests? Ist der Test gut konzipiert?
Bewertungsverteilungsgraph	Entspricht die Punkteverteilung einer Normalverteilung? Oder verläuft sie steiler/breiter?
Fehlerquotient	Basieren die Punkteunterschiede zwischen den Personen eher auf Zufall oder auf unterschiedlicher Vorbereitung?
Standardabweichung	Wie hoch ist der Anteil fehlerbedingter Abweichung in den Punkten?
	Quelle: E-Assessments in der Hochschulpraxis, S. 139. Veröffentlichung des Projekts „E-Assessment NRW“ 2017, www.eassessmentnrw.de

Test-Strukturanalyse

Die statistische Auswertung der einzelnen Testfragen wird in Form einer Tabelle angezeigt. Im einzelnen enthält die Tabelle folgende Spalten bzw. statistischen Parameter:

F# - Nummer der Frage
Titel der Frage
Versuche - in wie vielen Testversuchen wurde die Frage beantwortet
Leichtigkeitsindex - Anteil der Testversuche, in denen die Frage richtig beantwortet wurde
Standardabweichung - wie groß war die Abweichung der einzelnen Bewertungen von der Durchschnittsbewertung
Ratewahrscheinlichkeit - Wie hoch die Wahrscheinlichkeit, das richtige Ergebnis zu erraten, ist
Beabsichtigte Gewichtung - wenn eine Frage 3 Punkte für die richtige Antwort bringt und im Test 10 Punkte erreicht werden können, dann ist die beabsichtigte Gewichtung 30%.
Effektive Gewichtung - diese Gewichtung ist ein Maß dafür, wie viel die Frage zur zur Abweichung von der Durchschnittsbewertung im Test insgesamt beigetragen hat. Im Idealfall sollte die effektive Gewichtung nahe bei der beabsichtigten Gewichtung liegen.
Trennschärfeindex - dieser Parameter ist die Korrelation zwischen der erreichten Punktzahl für die Frage und der erreichten Punktzahl im Test insgesamt. Bei einer "guten" Frage (im Sinne, dass die Frage kein Ausreißer im Test ist) sollten die Teilnehmer/innen, die in dieser Frage eine hohe Punktzahl erreicht haben, auch im Test insgesamt eine hohe Punktzahl erzielt haben.
Trennschärfe-Effizienz - ein weiteres Maß, das (ähnlich wie der Discrimination Index) beschreibt, in wie weit eine Frage einen Ausreißer im Test darstellt oder nicht.

Wenn im Test Zufallsfragen verwendet werden, dann enthält die Tabelle je eine Zeile für die jeweilige Zufallsfrage und zusätzlich eine Zeile für jede konkrete Frage, die bei einem Testversuch zufällig ausgewählt wurde.

Weitere Detailinformationen finden Sie in der Entwicklerdokumentation.

Kennwert – bezogen auf einzelne Testfragen	Fragestellung
Leichtigkeitsindex	Wie hoch ist der Anteil der Testversuche, in denen die Frage richtig beantwortet wurde? Beachten: Wie viele Versuche haben die Studierenden? Einen, mehrere (ggf. Testate), unendlich (freiwilliges Üben)?
Standardabweichung	Wie stark weichen die Bewertungen von der Durchschnittsbewertung ab? Handelt es sich um eine heterogene oder eine homogene Punkteverteilung?
Ratewahrscheinlichkeit	Wie hoch ist die Wahrscheinlichkeit, das richtige Ergebnis zu erraten? Bei einer Wahr-Falsch-Frage z.B. 50:50.
Beabsichtigte Gewichtung	Mit welcher Gewichtung sollte die Frage in die Gesamtwertung eingehen? Z.B. drei Punkte für die richtige Beantwortung einer Frage; im Test können insgesamt zehn Punkte erreicht werden: beabsichtigte Gewichtung der richtigen Antwort dieser Frage = 30%.
Effektive Gewichtung	Wie viel trägt die erreichte Durchschnittspunktzahl aller Teilnehmenden bei einer Frage tatsächlich zum Durchschnittsergebnis des Gesamttests bei? Liegt die effektive Gewichtung nahe (ist sie gleich) der beabsichtigten Gewichtung?
Trennschärfeindex	Zusammenhang zwischen der erreichten Punktzahl bei einer konkreten Frage und der erreichten Punktzahl im gesamten Test. Haben die Studierenden, die im gesamten Test eine hohe Punktzahl erreicht haben, auch in dieser Frage eine hohe Punktzahl erreicht? Haben Personen mit insgesamt wenigen Punkten auch hier nur wenige Punkte erzielt?
Trennschärfe-Effizienz	Ein Maß, welches den Zusammenhang zwischen der Trennschärfe und dem Leichtigkeitsindex für eine Frage beschreibt. Trennt die Frage auch dann zwischen „guten“ und „schlechten“ Studierenden, wenn sie sehr leicht oder sehr schwer ist?
	Quelle: E-Assessments in der Hochschulpraxis, S. 140/141. Veröffentlichung des Projekts „E-Assessment NRW“ 2017, www.eassessmentnrw.de

Statistik für Fragepositionen

Diese Balkengrafik zeigt zu jeder einzelnen Frage den Möglichkeitsindex (d.h. wie oft (prozentual) wurde die Frage richtig beantwortet) und die unterschiedliche Effizienz (d.h. ein Maß dafür, ob die Frage als Ausreißer das Gesamtergebnis des Tests verfälscht oder nicht).

Analyse einer einzelnen Testfrage

Wenn Sie in der Tabelle eine einzelnen Frage anklicken, erscheint die statistische Auswertung dieser Frage im Detail. Mit anderen Worten wird die zugehörige Zeile in der Tabelle noch einmal separat auf einer Extraseite dargestellt.

Documentation