Test-Statistik: Unterschied zwischen den Versionen

Aus MoodleDocs
Wechseln zu:Navigation, Suche
Keine Bearbeitungszusammenfassung
KKeine Bearbeitungszusammenfassung
 
(7 dazwischenliegende Versionen desselben Benutzers werden nicht angezeigt)
Zeile 1: Zeile 1:
{{Test-Berichte}}
{{Test-Berichte}}
Zugriff über die Aktivitätsnavigation ''Ergebnisse'' und wählen Sie im Pulldown-Menu ''Statistik'' (oder im Block ''[[Einstellungen-Block|Einstellungen]] > Test-Administration > Ergebnisse > Statistik'').


Zugriff über ''[[Navigation-Block|Navigation]] > Meine Kurse > Kurs X > Test Y > Ergebnisse > Statistik''
Dieser Bericht liefert eine statistische Auswertung des Tests und der dazugehörigen Fragen. Sie können auswählen, ob nur der erste oder alle Testversuche in die Auswertung einbezogen werden. Im oberen Abschnitt des Berichts stehen allgemeine statistische Informationen zum Test. Darunter erfolgt eine Auswertung der einzelnen Testfragen in tabellarischer Form. Sie können die einzelnen Fragen anklicken, um ihre statistische Auswertung zu sehen, oder die Fragen in der Vorschau ansehen [[Image:preview.svg|16px|baseline]] bzw. bearbeiten [[Image:settings.svg|16px|baseline]]. Unter der Tabelle sehen Sie eine Balkengrafik, die die statistischen Parameter ''Leichtigkeitsindex'' (facility index) und ''Trennschärfe-Effizienz'' (discriminative efficiency) für die einzelnen Testfragen darstellt.
 
Dieser Bericht liefert eine statistische Auswertung des Tests und der dazugehörigen Fragen. Sie können auswählen, ob nur der erste oder alle Testversuche in die Auswertung einbezogen werden. Im oberen Abschnitt des Berichts stehen allgemeine statistische Informationen zum Test. Darunter erfolgt eine Auswertung der einzelnen Testfragen in tabellarischer Form. Sie können die einzelnen Fragen anklicken, um ihre statistische Auswertung zu sehen, oder die Fragen in der Vorschau ansehen [[Image:preview.gif]] bzw. bearbeiten [[Image:edit.gif]]. Unter der Tabelle sehen Sie eine Balkengrafik, die die statistischen Parameter ''Möglichkeitsindex'' (facility index) und ''Effizienz'' (discriminative efficiency index) für die einzelnen Testfragen darstellt.  


Der Bericht kann in verschiedenen Formaten heruntergeladen werden.
Der Bericht kann in verschiedenen Formaten heruntergeladen werden.
Zeile 24: Zeile 23:
*''Gesamtzahl an vollständig bewerteten Versuchen'', die in die statistische Auswertung einfließen
*''Gesamtzahl an vollständig bewerteten Versuchen'', die in die statistische Auswertung einfließen
*''Durchschnitt beim ersten Versuch'' - welche Bewertung wurde durchschnittlich beim ersten Versuch erreicht
*''Durchschnitt beim ersten Versuch'' - welche Bewertung wurde durchschnittlich beim ersten Versuch erreicht
*''Durchschnittsergebnis aller Versuche'' - welche Bewertung wurde durchschnittlich bei allen Versuchen erreicht  
*''Durchschnittsergebnis aller Versuche'' - welche Bewertung wurde durchschnittlich bei allen Versuchen erreicht
*''Median (für Erste/Alle Versuche)'' - [http://de.wikipedia.org/wiki/Median Median]
*''Median (für Erste/Alle Versuche)'' - [http://de.wikipedia.org/wiki/Median Median]
*''Standardabweichung (für Erste/Alle Versuche)'' - [http://de.wikipedia.org/wiki/Standardabweichung Standardabweichung]
*''Standardabweichung (für Erste/Alle Versuche)'' - [http://de.wikipedia.org/wiki/Standardabweichung Standardabweichung]
Zeile 32: Zeile 31:
*''Fehlerquotient (für Erste/Alle Versuche)'' - die Unterschiede in den Bewertungen der einzelnen Teilnehmer/innen kommen wie folgt zustande: Zum einen gibt es bessere und schlechtere Teilnehmer/innen und zum anderen gibt es zufällige Unterschiede. In einem Test möchte man diese zufälligen Unterschiede minimieren, so dass die Bewertungen im Test den tatsächlichen Wissensstand der Teilnehmer/innen widerspiegeln. Der Fehlerquoitient gibt das Verhältnis zwischen zufälligen Unterschieden und leistungsbedingetn Unterschieden in den Bewertungen an. Je kleiner der Fehlerquotient, desto geringer der zufällige Unterschied, desto besser spiegelt der Test den tatsächlichen Wissenstand wider.
*''Fehlerquotient (für Erste/Alle Versuche)'' - die Unterschiede in den Bewertungen der einzelnen Teilnehmer/innen kommen wie folgt zustande: Zum einen gibt es bessere und schlechtere Teilnehmer/innen und zum anderen gibt es zufällige Unterschiede. In einem Test möchte man diese zufälligen Unterschiede minimieren, so dass die Bewertungen im Test den tatsächlichen Wissensstand der Teilnehmer/innen widerspiegeln. Der Fehlerquoitient gibt das Verhältnis zwischen zufälligen Unterschieden und leistungsbedingetn Unterschieden in den Bewertungen an. Je kleiner der Fehlerquotient, desto geringer der zufällige Unterschied, desto besser spiegelt der Test den tatsächlichen Wissenstand wider.
*''Standardfehler (für Erste/Alle Versuche)'' - dieser Parameter wird vom Fehlerquotienten abgeleitet und ist ein Maß dafür, wie viel zufällige Abweichung in jeder einzelnen Testbewertung steckt. Wenn z.B. der Standardfehler 10% beträgt und eine Person im Test 60% erreicht hat, dann liegt der tatsächliche Wissenstand der Person zwischen 50% und 70%.
*''Standardfehler (für Erste/Alle Versuche)'' - dieser Parameter wird vom Fehlerquotienten abgeleitet und ist ein Maß dafür, wie viel zufällige Abweichung in jeder einzelnen Testbewertung steckt. Wenn z.B. der Standardfehler 10% beträgt und eine Person im Test 60% erreicht hat, dann liegt der tatsächliche Wissenstand der Person zwischen 50% und 70%.
{| class="wikitable" border="1"
|-
! Kennwert bezogen auf den gesamten Test (in Klammern wird die oben getroffene Auswahl / der Bezug genannt)
! Fragestellung
|-
| Durchschnitt bei ...
| Wie viele Punkte haben die Teilnehmenden durchschnittlich erreicht? Wie ist der Test insgesamt ausgefallen?
|-
| Median
| Welche Punktzahl liegt bei 50% der Punkteverteilung?
|-
|Standardabweichung
|Wie stark weichen die Bewertungen von der Durchschnittsbewertung ab? Handelt es sich um eine heterogene oder eine homogene Punkteverteilung?
|-
|Schiefe der Punkteverteilung
|Entspricht die Punkteverteilung einer Normalverteilung? Oder neigt sie sich eher nach links/rechts?
|-
|Koeffizient interner Konsistenz
|Wie konsistent sind die Fragen des Tests? Ist der Test gut konzipiert?
|-
|Bewertungsverteilungsgraph
|Entspricht die Punkteverteilung einer Normalverteilung? Oder verläuft sie steiler/breiter?
|-
|Fehlerquotient
|Basieren die Punkteunterschiede zwischen den Personen eher auf Zufall oder auf unterschiedlicher Vorbereitung?
|-
|Standardabweichung
|Wie hoch ist der Anteil fehlerbedingter Abweichung in den Punkten?
|-
|
|Quelle: E-Assessments in der Hochschulpraxis, S. 139. Veröffentlichung des Projekts „E-Assessment NRW“ 2017, [https://www.eassessmentnrw.de www.eassessmentnrw.de]
|}


===Test-Strukturanalyse===
===Test-Strukturanalyse===
Zeile 40: Zeile 72:
*''Titel der Frage''
*''Titel der Frage''
*''Versuche'' - in wie vielen Testversuchen wurde die Frage beantwortet
*''Versuche'' - in wie vielen Testversuchen wurde die Frage beantwortet
*''Möglichkeitsindex'' - Anteil der Testversuche, in denen die Frage richtig beantwortet wurde
*''Leichtigkeitsindex'' - Anteil der Testversuche, in denen die Frage richtig beantwortet wurde
*''Standardabweichung'' - wie groß war die Abweichung der einzelnen Bewertungen von der Durchschnittsbewertung
*''Standardabweichung'' - wie groß war die Abweichung der einzelnen Bewertungen von der Durchschnittsbewertung
*''Zufällig angenommene Punktezahl'' - Punktzahl, die eine Person erreichen würde, wenn sie die Antwort zufällig wählt (errät)
*''Ratewahrscheinlichkeit'' - Wie hoch die Wahrscheinlichkeit, das richtige Ergebnis zu erraten, ist
*''Beabsichtigte Gewichtung'' - wenn eine Frage 3 Punkte für die richtige Antwort bringt und im Test 10 Punkte erreicht werden können, dann ist die beabsichtigte Gewichtung 30%.
*''Beabsichtigte Gewichtung'' - wenn eine Frage 3 Punkte für die richtige Antwort bringt und im Test 10 Punkte erreicht werden können, dann ist die beabsichtigte Gewichtung 30%.
*''Effektive Gewichtung'' - diese Gewichtung ist ein Maß dafür, wie viel die Frage zur zur Abweichung von der Durchschnittsbewertung im Test insgesamt beigetragen hat. Im Idealfall sollte die effektive Gewichtung nahe bei der beabsichtigten Gewichtung liegen.
*''Effektive Gewichtung'' - diese Gewichtung ist ein Maß dafür, wie viel die Frage zur zur Abweichung von der Durchschnittsbewertung im Test insgesamt beigetragen hat. Im Idealfall sollte die effektive Gewichtung nahe bei der beabsichtigten Gewichtung liegen.
*''Discrimination Index'' - dieser Parameter ist die Korrelation zwischen der erreichten Punktzahl für die Frage und der erreichten Punktzahl im Test insgesamt. Bei einer "guten" Frage (im Sinne, dass die Frage kein Ausreißer im Test ist) sollten die Teilnehmer/innen, die in dieser Frage eine hohe Punktzahl erreicht haben, auch im Test insgesamt eine hohe Punktzahl erzielt haben.
*''Trennschärfeindex'' - dieser Parameter ist die Korrelation zwischen der erreichten Punktzahl für die Frage und der erreichten Punktzahl im Test insgesamt. Bei einer "guten" Frage (im Sinne, dass die Frage kein Ausreißer im Test ist) sollten die Teilnehmer/innen, die in dieser Frage eine hohe Punktzahl erreicht haben, auch im Test insgesamt eine hohe Punktzahl erzielt haben.
*''Unterschiedliche Effizienz'' - ein weiteres Maß, das (ähnlich wie der Discrimination Index) beschreibt, in wie weit eine Frage einen Ausreißer im Test darstellt oder nicht.
*''Trennschärfe-Effizienz'' - ein weiteres Maß, das (ähnlich wie der Trennschärfeindex) beschreibt, in wie weit eine Frage einen Ausreißer im Test darstellt oder nicht.


Wenn im Test Zufallsfragen verwendet werden, dann enthält die Tabelle je eine Zeile für die jeweilige Zufallsfrage und zusätzlich eine Zeile für jede konkrete Frage, die bei einem Testversuch zufällig ausgewählt wurde.
Wenn im Test Zufallsfragen verwendet werden, dann enthält die Tabelle je eine Zeile für die jeweilige Zufallsfrage und zusätzlich eine Zeile für jede konkrete Frage, die bei einem Testversuch zufällig ausgewählt wurde.


Weitere Detailinformationen finden Sie in der [[dev:Quiz_statistics_calculations|Entwicklerdokumentation]].
Weitere Detailinformationen finden Sie in der [[dev:Quiz_statistics_calculations|Entwicklerdokumentation]].
{| class="wikitable" border="1"
|-
! Kennwert – bezogen auf einzelne Testfragen
! Fragestellung
|-
| Leichtigkeitsindex
| Wie hoch ist der Anteil der Testversuche, in denen die Frage richtig beantwortet wurde? Beachten: Wie viele Versuche haben die Studierenden? Einen, mehrere (ggf. Testate), unendlich (freiwilliges Üben)?
|-
| Standardabweichung
| Wie stark weichen die Bewertungen von der Durchschnittsbewertung ab? Handelt es sich um eine heterogene oder eine homogene Punkteverteilung?
|-
| Ratewahrscheinlichkeit
| Wie hoch ist die Wahrscheinlichkeit, das richtige Ergebnis zu erraten? Bei einer Wahr-Falsch-Frage z.B. 50:50.
|-
| Beabsichtigte Gewichtung
| Mit welcher Gewichtung sollte die Frage in die Gesamtwertung eingehen? Z.B. drei Punkte für die richtige Beantwortung einer Frage; im Test können insgesamt zehn Punkte erreicht werden: beabsichtigte Gewichtung der richtigen Antwort dieser Frage = 30%.
|-
| Effektive Gewichtung
| Wie viel trägt die erreichte Durchschnittspunktzahl aller Teilnehmenden bei einer Frage tatsächlich zum Durchschnittsergebnis des Gesamttests bei? Liegt die effektive Gewichtung nahe (ist sie gleich) der beabsichtigten Gewichtung?
|-
| Trennschärfeindex
| Zusammenhang zwischen der erreichten Punktzahl bei einer konkreten Frage und der erreichten Punktzahl im gesamten Test.
Haben die Studierenden, die im gesamten Test eine hohe Punktzahl erreicht haben, auch in dieser Frage eine hohe Punktzahl erreicht?
Haben Personen mit insgesamt wenigen Punkten auch hier nur wenige Punkte erzielt?
|-
| Trennschärfe-Effizienz
| Ein Maß, welches den Zusammenhang zwischen der Trennschärfe und dem Leichtigkeitsindex für eine Frage beschreibt. Trennt die Frage auch dann zwischen „guten“ und „schlechten“ Studierenden, wenn sie sehr leicht oder sehr schwer ist?
|-
|
| Quelle: E-Assessments in der Hochschulpraxis, S. 140/141. Veröffentlichung des Projekts „E-Assessment NRW“ 2017, [https://www.eassessmentnrw.de www.eassessmentnrw.de]
|}


===Statistik für Fragepositionen===
===Statistik für Fragepositionen===
Zeile 64: Zeile 129:


[[en:Quiz statistics report]]
[[en:Quiz statistics report]]
[[es:Reporte de estadísticas de examen]]

Aktuelle Version vom 6. November 2022, 23:03 Uhr

Zugriff über die Aktivitätsnavigation Ergebnisse und wählen Sie im Pulldown-Menu Statistik (oder im Block Einstellungen > Test-Administration > Ergebnisse > Statistik).

Dieser Bericht liefert eine statistische Auswertung des Tests und der dazugehörigen Fragen. Sie können auswählen, ob nur der erste oder alle Testversuche in die Auswertung einbezogen werden. Im oberen Abschnitt des Berichts stehen allgemeine statistische Informationen zum Test. Darunter erfolgt eine Auswertung der einzelnen Testfragen in tabellarischer Form. Sie können die einzelnen Fragen anklicken, um ihre statistische Auswertung zu sehen, oder die Fragen in der Vorschau ansehen preview.svg bzw. bearbeiten settings.svg. Unter der Tabelle sehen Sie eine Balkengrafik, die die statistischen Parameter Leichtigkeitsindex (facility index) und Trennschärfe-Effizienz (discriminative efficiency) für die einzelnen Testfragen darstellt.

Der Bericht kann in verschiedenen Formaten heruntergeladen werden.

Eine gute Einführung in die Statistik und die im Bericht verwendeten statistischen Parametern finden Sie in diesem 45-Minuten-Seminar.


Statistische Auswertung

Im folgenden wird detailliert erläutert, was im Bericht dargestellt wird.

Test-Information

teststatistik 1.jpg

In diesem Abschnitt finden Sie allgemeine statistische Informationen zum Test insgesamt. Dazu gehört:

  • Test-Name
  • Kursname
  • Testöffnung, Testschließung, Geöffnet für - Zeitraum, in dem der Test zur Verfügung steht (falls definiert), d.h. Beginn, Ende und Dauer
  • Anzahl der vollständig bewerteten ersten Versuche, die in die statistische Auswertung einfließen
  • Gesamtzahl an vollständig bewerteten Versuchen, die in die statistische Auswertung einfließen
  • Durchschnitt beim ersten Versuch - welche Bewertung wurde durchschnittlich beim ersten Versuch erreicht
  • Durchschnittsergebnis aller Versuche - welche Bewertung wurde durchschnittlich bei allen Versuchen erreicht
  • Median (für Erste/Alle Versuche) - Median
  • Standardabweichung (für Erste/Alle Versuche) - Standardabweichung
  • Schiefe der Punkteverteilung (für Erste/Alle Versuche) - Schiefe
  • Bewertungsverteilungsgraph (für Erste/Alle Versuche) - Wölbung
  • Koeffizient interner Konsistenz (für Erste/Alle Versuche) - Cronbachs Alpha
  • Fehlerquotient (für Erste/Alle Versuche) - die Unterschiede in den Bewertungen der einzelnen Teilnehmer/innen kommen wie folgt zustande: Zum einen gibt es bessere und schlechtere Teilnehmer/innen und zum anderen gibt es zufällige Unterschiede. In einem Test möchte man diese zufälligen Unterschiede minimieren, so dass die Bewertungen im Test den tatsächlichen Wissensstand der Teilnehmer/innen widerspiegeln. Der Fehlerquoitient gibt das Verhältnis zwischen zufälligen Unterschieden und leistungsbedingetn Unterschieden in den Bewertungen an. Je kleiner der Fehlerquotient, desto geringer der zufällige Unterschied, desto besser spiegelt der Test den tatsächlichen Wissenstand wider.
  • Standardfehler (für Erste/Alle Versuche) - dieser Parameter wird vom Fehlerquotienten abgeleitet und ist ein Maß dafür, wie viel zufällige Abweichung in jeder einzelnen Testbewertung steckt. Wenn z.B. der Standardfehler 10% beträgt und eine Person im Test 60% erreicht hat, dann liegt der tatsächliche Wissenstand der Person zwischen 50% und 70%.
Kennwert bezogen auf den gesamten Test (in Klammern wird die oben getroffene Auswahl / der Bezug genannt) Fragestellung
Durchschnitt bei ... Wie viele Punkte haben die Teilnehmenden durchschnittlich erreicht? Wie ist der Test insgesamt ausgefallen?
Median Welche Punktzahl liegt bei 50% der Punkteverteilung?
Standardabweichung Wie stark weichen die Bewertungen von der Durchschnittsbewertung ab? Handelt es sich um eine heterogene oder eine homogene Punkteverteilung?
Schiefe der Punkteverteilung Entspricht die Punkteverteilung einer Normalverteilung? Oder neigt sie sich eher nach links/rechts?
Koeffizient interner Konsistenz Wie konsistent sind die Fragen des Tests? Ist der Test gut konzipiert?
Bewertungsverteilungsgraph Entspricht die Punkteverteilung einer Normalverteilung? Oder verläuft sie steiler/breiter?
Fehlerquotient Basieren die Punkteunterschiede zwischen den Personen eher auf Zufall oder auf unterschiedlicher Vorbereitung?
Standardabweichung Wie hoch ist der Anteil fehlerbedingter Abweichung in den Punkten?
Quelle: E-Assessments in der Hochschulpraxis, S. 139. Veröffentlichung des Projekts „E-Assessment NRW“ 2017, www.eassessmentnrw.de

Test-Strukturanalyse

teststatistik 2.jpg

Die statistische Auswertung der einzelnen Testfragen wird in Form einer Tabelle angezeigt. Im einzelnen enthält die Tabelle folgende Spalten bzw. statistischen Parameter:

  • F# - Nummer der Frage
  • Titel der Frage
  • Versuche - in wie vielen Testversuchen wurde die Frage beantwortet
  • Leichtigkeitsindex - Anteil der Testversuche, in denen die Frage richtig beantwortet wurde
  • Standardabweichung - wie groß war die Abweichung der einzelnen Bewertungen von der Durchschnittsbewertung
  • Ratewahrscheinlichkeit - Wie hoch die Wahrscheinlichkeit, das richtige Ergebnis zu erraten, ist
  • Beabsichtigte Gewichtung - wenn eine Frage 3 Punkte für die richtige Antwort bringt und im Test 10 Punkte erreicht werden können, dann ist die beabsichtigte Gewichtung 30%.
  • Effektive Gewichtung - diese Gewichtung ist ein Maß dafür, wie viel die Frage zur zur Abweichung von der Durchschnittsbewertung im Test insgesamt beigetragen hat. Im Idealfall sollte die effektive Gewichtung nahe bei der beabsichtigten Gewichtung liegen.
  • Trennschärfeindex - dieser Parameter ist die Korrelation zwischen der erreichten Punktzahl für die Frage und der erreichten Punktzahl im Test insgesamt. Bei einer "guten" Frage (im Sinne, dass die Frage kein Ausreißer im Test ist) sollten die Teilnehmer/innen, die in dieser Frage eine hohe Punktzahl erreicht haben, auch im Test insgesamt eine hohe Punktzahl erzielt haben.
  • Trennschärfe-Effizienz - ein weiteres Maß, das (ähnlich wie der Trennschärfeindex) beschreibt, in wie weit eine Frage einen Ausreißer im Test darstellt oder nicht.

Wenn im Test Zufallsfragen verwendet werden, dann enthält die Tabelle je eine Zeile für die jeweilige Zufallsfrage und zusätzlich eine Zeile für jede konkrete Frage, die bei einem Testversuch zufällig ausgewählt wurde.

Weitere Detailinformationen finden Sie in der Entwicklerdokumentation.

Kennwert – bezogen auf einzelne Testfragen Fragestellung
Leichtigkeitsindex Wie hoch ist der Anteil der Testversuche, in denen die Frage richtig beantwortet wurde? Beachten: Wie viele Versuche haben die Studierenden? Einen, mehrere (ggf. Testate), unendlich (freiwilliges Üben)?
Standardabweichung Wie stark weichen die Bewertungen von der Durchschnittsbewertung ab? Handelt es sich um eine heterogene oder eine homogene Punkteverteilung?
Ratewahrscheinlichkeit Wie hoch ist die Wahrscheinlichkeit, das richtige Ergebnis zu erraten? Bei einer Wahr-Falsch-Frage z.B. 50:50.
Beabsichtigte Gewichtung Mit welcher Gewichtung sollte die Frage in die Gesamtwertung eingehen? Z.B. drei Punkte für die richtige Beantwortung einer Frage; im Test können insgesamt zehn Punkte erreicht werden: beabsichtigte Gewichtung der richtigen Antwort dieser Frage = 30%.
Effektive Gewichtung Wie viel trägt die erreichte Durchschnittspunktzahl aller Teilnehmenden bei einer Frage tatsächlich zum Durchschnittsergebnis des Gesamttests bei? Liegt die effektive Gewichtung nahe (ist sie gleich) der beabsichtigten Gewichtung?
Trennschärfeindex Zusammenhang zwischen der erreichten Punktzahl bei einer konkreten Frage und der erreichten Punktzahl im gesamten Test.

Haben die Studierenden, die im gesamten Test eine hohe Punktzahl erreicht haben, auch in dieser Frage eine hohe Punktzahl erreicht? Haben Personen mit insgesamt wenigen Punkten auch hier nur wenige Punkte erzielt?

Trennschärfe-Effizienz Ein Maß, welches den Zusammenhang zwischen der Trennschärfe und dem Leichtigkeitsindex für eine Frage beschreibt. Trennt die Frage auch dann zwischen „guten“ und „schlechten“ Studierenden, wenn sie sehr leicht oder sehr schwer ist?
Quelle: E-Assessments in der Hochschulpraxis, S. 140/141. Veröffentlichung des Projekts „E-Assessment NRW“ 2017, www.eassessmentnrw.de

Statistik für Fragepositionen

teststatistik 3.jpg

Diese Balkengrafik zeigt zu jeder einzelnen Frage den Möglichkeitsindex (d.h. wie oft (prozentual) wurde die Frage richtig beantwortet) und die unterschiedliche Effizienz (d.h. ein Maß dafür, ob die Frage als Ausreißer das Gesamtergebnis des Tests verfälscht oder nicht).

Analyse einer einzelnen Testfrage

teststatistik 4.jpg

Wenn Sie in der Tabelle eine einzelnen Frage anklicken, erscheint die statistische Auswertung dieser Frage im Detail. Mit anderen Worten wird die zugehörige Zeile in der Tabelle noch einmal separat auf einer Extraseite dargestellt.