Test-Statistik
Der Zugriff erfolgt über das Zahnrad-Symbol im Test rechts oben > (oder innerhalb des Tests im Block Einstellungen > Test-Administration) > Ergebnisse > Statistik.
Dieser Bericht liefert eine statistische Auswertung des Tests und der dazugehörigen Fragen. Sie können auswählen, ob nur der erste oder alle Testversuche in die Auswertung einbezogen werden. Im oberen Abschnitt des Berichts stehen allgemeine statistische Informationen zum Test. Darunter erfolgt eine Auswertung der einzelnen Testfragen in tabellarischer Form. Sie können die einzelnen Fragen anklicken, um ihre statistische Auswertung zu sehen, oder die Fragen in der Vorschau ansehen bzw. bearbeiten . Unter der Tabelle sehen Sie eine Balkengrafik, die die statistischen Parameter Möglichkeitsindex (facility index) und Effizienz (discriminative efficiency index) für die einzelnen Testfragen darstellt.
Der Bericht kann in verschiedenen Formaten heruntergeladen werden.
Eine gute Einführung in die Statistik und die im Bericht verwendeten statistischen Parametern finden Sie in diesem 45-Minuten-Seminar.
Statistische Auswertung
Im folgenden wird detailliert erläutert, was im Bericht dargestellt wird.
Test-Information
In diesem Abschnitt finden Sie allgemeine statistische Informationen zum Test insgesamt. Dazu gehört:
- Test-Name
- Kursname
- Testöffnung, Testschließung, Geöffnet für - Zeitraum, in dem der Test zur Verfügung steht (falls definiert), d.h. Beginn, Ende und Dauer
- Anzahl der vollständig bewerteten ersten Versuche, die in die statistische Auswertung einfließen
- Gesamtzahl an vollständig bewerteten Versuchen, die in die statistische Auswertung einfließen
- Durchschnitt beim ersten Versuch - welche Bewertung wurde durchschnittlich beim ersten Versuch erreicht
- Durchschnittsergebnis aller Versuche - welche Bewertung wurde durchschnittlich bei allen Versuchen erreicht
- Median (für Erste/Alle Versuche) - Median
- Standardabweichung (für Erste/Alle Versuche) - Standardabweichung
- Schiefe der Punkteverteilung (für Erste/Alle Versuche) - Schiefe
- Bewertungsverteilungsgraph (für Erste/Alle Versuche) - Wölbung
- Koeffizient interner Konsistenz (für Erste/Alle Versuche) - Cronbachs Alpha
- Fehlerquotient (für Erste/Alle Versuche) - die Unterschiede in den Bewertungen der einzelnen Teilnehmer/innen kommen wie folgt zustande: Zum einen gibt es bessere und schlechtere Teilnehmer/innen und zum anderen gibt es zufällige Unterschiede. In einem Test möchte man diese zufälligen Unterschiede minimieren, so dass die Bewertungen im Test den tatsächlichen Wissensstand der Teilnehmer/innen widerspiegeln. Der Fehlerquoitient gibt das Verhältnis zwischen zufälligen Unterschieden und leistungsbedingetn Unterschieden in den Bewertungen an. Je kleiner der Fehlerquotient, desto geringer der zufällige Unterschied, desto besser spiegelt der Test den tatsächlichen Wissenstand wider.
- Standardfehler (für Erste/Alle Versuche) - dieser Parameter wird vom Fehlerquotienten abgeleitet und ist ein Maß dafür, wie viel zufällige Abweichung in jeder einzelnen Testbewertung steckt. Wenn z.B. der Standardfehler 10% beträgt und eine Person im Test 60% erreicht hat, dann liegt der tatsächliche Wissenstand der Person zwischen 50% und 70%.
Kennwert bezogen auf den gesamten Test (in Klammern wird die oben getroffene Auswahl / der Bezug genannt) | Fragestellung |
---|---|
Durchschnitt bei ... | Wie viele Punkte haben die Teilnehmenden durchschnittlich erreicht? Wie ist der Test insgesamt ausgefallen? |
Median | Welche Punktzahl liegt bei 50% der Punkteverteilung? |
Standardabweichung | Wie stark weichen die Bewertungen von der Durchschnittsbewertung ab? Handelt es sich um eine heterogene oder eine homogene Punkteverteilung? |
Schiefe der Punkteverteilung | Entspricht die Punkteverteilung einer Normalverteilung? Oder neigt sie sich eher nach links/rechts? |
Koeffizient interner Konsistenz | Wie konsistent sind die Fragen des Tests? Ist der Test gut konzipiert? |
Bewertungsverteilungsgraph | Entspricht die Punkteverteilung einer Normalverteilung? Oder verläuft sie steiler/breiter? |
Fehlerquotient | Basieren die Punkteunterschiede zwischen den Personen eher auf Zufall oder auf unterschiedlicher Vorbereitung? |
Standardabweichung | Wie hoch ist der Anteil fehlerbedingter Abweichung in den Punkten? |
Quelle: E-Assessments in der Hochschulpraxis, S. 139. Veröffentlichung des Projekts „E-Assessment NRW“ 2017, www.eassessmentnrw.de |
Test-Strukturanalyse
Die statistische Auswertung der einzelnen Testfragen wird in Form einer Tabelle angezeigt. Im einzelnen enthält die Tabelle folgende Spalten bzw. statistischen Parameter:
- F# - Nummer der Frage
- Titel der Frage
- Versuche - in wie vielen Testversuchen wurde die Frage beantwortet
- Möglichkeitsindex - Anteil der Testversuche, in denen die Frage richtig beantwortet wurde
- Standardabweichung - wie groß war die Abweichung der einzelnen Bewertungen von der Durchschnittsbewertung
- Zufällig angenommene Punktezahl - Punktzahl, die eine Person erreichen würde, wenn sie die Antwort zufällig wählt (errät)
- Beabsichtigte Gewichtung - wenn eine Frage 3 Punkte für die richtige Antwort bringt und im Test 10 Punkte erreicht werden können, dann ist die beabsichtigte Gewichtung 30%.
- Effektive Gewichtung - diese Gewichtung ist ein Maß dafür, wie viel die Frage zur zur Abweichung von der Durchschnittsbewertung im Test insgesamt beigetragen hat. Im Idealfall sollte die effektive Gewichtung nahe bei der beabsichtigten Gewichtung liegen.
- Discrimination Index - dieser Parameter ist die Korrelation zwischen der erreichten Punktzahl für die Frage und der erreichten Punktzahl im Test insgesamt. Bei einer "guten" Frage (im Sinne, dass die Frage kein Ausreißer im Test ist) sollten die Teilnehmer/innen, die in dieser Frage eine hohe Punktzahl erreicht haben, auch im Test insgesamt eine hohe Punktzahl erzielt haben.
- Unterschiedliche Effizienz - ein weiteres Maß, das (ähnlich wie der Discrimination Index) beschreibt, in wie weit eine Frage einen Ausreißer im Test darstellt oder nicht.
Wenn im Test Zufallsfragen verwendet werden, dann enthält die Tabelle je eine Zeile für die jeweilige Zufallsfrage und zusätzlich eine Zeile für jede konkrete Frage, die bei einem Testversuch zufällig ausgewählt wurde.
Weitere Detailinformationen finden Sie in der Entwicklerdokumentation.
Kennwert – bezogen auf einzelne Testfragen | Fragestellung |
---|---|
Leichtigkeitsindex | Wie hoch ist der Anteil der Testversuche, in denen die Frage richtig beantwortet wurde? Beachten: Wie viele Versuche haben die Studierenden? Einen, mehrere (ggf. Testate), unendlich (freiwilliges Üben)? |
Standardabweichung | Wie stark weichen die Bewertungen von der Durchschnittsbewertung ab? Handelt es sich um eine heterogene oder eine homogene Punkteverteilung? |
Ratewahrscheinlichkeit | Wie hoch ist die Wahrscheinlichkeit, das richtige Ergebnis zu erraten? Bei einer Wahr-Falsch-Frage z.B. 50:50. |
Beabsichtigte Gewichtung | Mit welcher Gewichtung sollte die Frage in die Gesamtwertung eingehen? Z.B. drei Punkte für die richtige Beantwortung einer Frage; im Test können insgesamt zehn Punkte erreicht werden: beabsichtigte Gewichtung der richtigen Antwort dieser Frage = 30%. |
Effektive Gewichtung | Wie viel trägt die erreichte Durchschnittspunktzahl aller Teilnehmenden bei einer Frage tatsächlich zum Durchschnittsergebnis des Gesamttests bei? Liegt die effektive Gewichtung nahe (ist sie gleich) der beabsichtigten Gewichtung? |
Trennschärfeindex | Zusammenhang zwischen der erreichten Punktzahl bei einer konkreten Frage und der erreichten Punktzahl im gesamten Test.
Haben die Studierenden, die im gesamten Test eine hohe Punktzahl erreicht haben, auch in dieser Frage eine hohe Punktzahl erreicht? Haben Personen mit insgesamt wenigen Punkten auch hier nur wenige Punkte erzielt? |
Trennschärfe-Effizienz | Ein Maß, welches den Zusammenhang zwischen der Trennschärfe und dem Leichtigkeitsindex für eine Frage beschreibt. Trennt die Frage auch dann zwischen „guten“ und „schlechten“ Studierenden, wenn sie sehr leicht oder sehr schwer ist? |
Quelle: E-Assessments in der Hochschulpraxis, S. 140/141. Veröffentlichung des Projekts „E-Assessment NRW“ 2017, www.eassessmentnrw.de |
Statistik für Fragepositionen
Diese Balkengrafik zeigt zu jeder einzelnen Frage den Möglichkeitsindex (d.h. wie oft (prozentual) wurde die Frage richtig beantwortet) und die unterschiedliche Effizienz (d.h. ein Maß dafür, ob die Frage als Ausreißer das Gesamtergebnis des Tests verfälscht oder nicht).
Analyse einer einzelnen Testfrage
Wenn Sie in der Tabelle eine einzelnen Frage anklicken, erscheint die statistische Auswertung dieser Frage im Detail. Mit anderen Worten wird die zugehörige Zeile in der Tabelle noch einmal separat auf einer Extraseite dargestellt.