Gewissheitsbegründete Bewertung

Hinweis: Die gewissheitsbegründete Bewertung (englisch: certainty-based marking, CBM) basiert auf Strategien, die von Prof. Gardner-Medwin am University College London, UK entwickelt wurden. Mehr Dokumentation dazu hier.

Was ist eine gewissheitsbegründete Bewertung?

Bei jeder Antwort auf eine Testfrage geben Sie zusätzlich an, wie sicher Sie sich mit Ihrer Antwort sind.
Die Angabe "wie sicher" Sie sich sind, erfolgt auf einer Gewissheitsstufen-Skala: C=1 (unsicher), C=2 (mittel), C=3 (sicher).
Es wird nicht unterschieden zwischen "unsicher" und "sehr unsicher", weil diese Einschätzung sehr subjektiv ist.
Die Bewertung erfolgt nach folgendem Schema:

Gewissheitsstufen-Skala	C=1	C=2	C=3
Bewertung bei richtiger Antwort	1	2	3
Bewertung bei falscher Antwort	0	-2	-6
Beschreibung	unsicher	mittel	sicher

Bei richtiger Antwort gibt es entsprechend der Gewissheitsstufen 1, 2 oder 3 Punkte.
Bei falscher Antwort gibt es bei C=1 keine Punkte, bei C=2 einen Punktabzug von -2 Punkten und bei C=3 einen Punktabzug von -6 Punkten.

Warum sollte die gewissheitsbegründete Bewertung verwendet werden?

Die Teilnehmer/innen müssen darüber nachdenken, wie zuverlässig ihre Antwort ist.
Die Teilnehmer/innen werden angehalten, wirklich über den Sachverhalt nachzudenken, und nicht nur unmittelbar auf die Frage zu reagieren.
Die Teilnehmer/innen werden herausgefordert: Wenn sie keinen Punktabzug riskieren, dann wissen sie die richtige Antwort nicht wirklich.
Teilnehmer/innen, die ein solides Wissen zum Gegenstand der Testfrage, aber wenig Selbstvertrauen haben, können durch diese Methode ihr Selbstvertrauen stärken.
Die Methode ist fairer in folgendem Sinne: Eine durchdachte und wohlüberlegte richtige Antwort bringt mehr Punkte als eine zufällig geratene richtige Antwort.
Teilnehmer/innen durchlaufen einen aktiven Lernprozess, wenn sie eine falsche Antwort geben, bei der sie sich sicher sind: sie denken nach, reflektieren und lernen daraus.
Wirkliches Wissen bedeutet genau zu wissen, was man weiß und auch, was man nicht weiß.

Datei:lplconf.gif

Wie wählt man die beste Gewissheitsstufe?

Wenn Sie sich sicher sind bei Ihrer Antwort, dann ist es offensichtlich am besten C=3 zu wählen. Allerdings erhalten Sie einen Punktabzug von -6, falls die Antwort doch falsch ist.
Wenn Sie unsicher sind, dann sollten Sie das Risiko eines Punktabzugs vermeiden und C=1 wählen.
Wenn keiner der beiden obigen Fälle zutrifft, wählen Sie C=2: Sie gewinnen oder verlieren 2 Punkte, je nachdem, ob die Antwort richtig oder falsch ist.

Die Grafik zeigt, wie auf den verschiedenen Gewissheitsstufen die durchschnittliche Punktzahl, die Sie für Ihre Antwort erhalten, davon abhängt, wie sicher Sie sich mit Ihrer Antwort sind.
- Angenommen, Sie sind sich zu 50% sicher, dass Ihre Antwort richtig ist. Bei 50% liegt die schwarze Kurve (für C=1) über den anderen Kurven, bringt Ihnen also (wahrscheinlich) die meisten Punkte. Wählen Sie daher C=1.
- Wenn Sie zu mindestens 80% sicher sind, dass Ihre Antwort richtig ist, liegt die rote Kurve (für C=3) über den beiden anderen Kurven. In diesem Fall wählen Sie C=3.
Beachten Sie, dass Sie niemals gewinnen können, wenn Sie Ihre Gewissheit falsch angeben. Wenn Sie C=3 (rote Kurve) klicken, obwohl Sie unsicher, dann werden Sie sehr wahrscheinlich einen Punktabzug bekommen. Es kann sein, dass Sie Glück haben, aber im Schnitt werden Sie Punkte verlieren. Wenn Sie das Thema gut verstanden haben und denken, dass Ihre Antwort verlässlich ist, dann erhalten Sie weniger Punkte, wenn Sie sich für C=1 oder C=2 statt für C=3 entscheiden. Sie fahren am besten, wenn Sie gut einschätzen können, welche Ihrer Antworten verlässlich und welche unsicher sind.

Feedback zur gewissheitsbegründeten Bewertung

Wenn Sie die gewissheitsbegründete Bewertung verwenden, dann sagt die Bewertung viel aus: bei -6 Punkten für eine falsche Antwort müssen Sie sich fragen, wie Sie zu Ihrer offensichtlich falschen Selbsteinschätzung gekommen sind. Versuchen Sie, (unter Verwendung aller verfügbaren Erklärungen, Ihrer Bücher und Notizen) Ihr Wissen zusammenzuführen.
Wenn Sie wiederholt Fragen mit C=1 richtig beantworten, dann verstehen Sie das Thema vermutlich besser als Sie glauben. Versuchen Sie, Ihre Antworten in Bezug zu Sachen zu stellen, die Sie definitiv gut wissen und sich darüber "sicher" sind.
Wenn Sie Ihre Antworten abgeben, sehen Sie für jede Gewissheitsstufe den Prozentsatz der richtigen Antworten. Idealerweise liegen diese Prozentsätze bei ungefähr 50%,70% bzw. 90% für C=1,2 bzw. - je nachdem, ob Sie sich mit dem Thema gut auskennen (d.h. viele Antworten mit C=3) oder nicht (viele Antworten mit C=1). Das Feedback warnt Sie, wenn Sie sich über- oder unterschätzen. Falls Sie sich überschätzen, überlegen Sie, woher das kommt. Vielleicht waren Sie nicht sorgfältig genug oder Sie haben Fehlkonzepte oder Sie geben überzeugte Antworten zu Fragen, die Sie nicht wirklich verstehen oder die unklar formuliert sind. Nutzen Sie dieses Feedback, um Ihr Lernen zu steuern und Ihre Interaktione mit der Lehrperson zu verbessern.
Beachten Sie das manche Fragen in einem Test ein stärkeres Gewicht haben als andere Fragen. Z.B. können Sie für eine Frage -12 Punkte bekommen, wenn die Frage doppelt zählt und Sie eine sichere falsche Antwort gegeben haben. Da dies die Interpretation des Feedbacks erschwert, sollten Trainer/innen allen Fragen im Test dasselbe Gewicht geben, wenn sie die gewissheitsbegründete Bewertung verwenden.
Wenn Sie nur wenige Fragen beantwortet haben, dann sagt das Feedback wenig aus: 2 oder 3 unsichere richtige Antworten können Zufall sein. Wichtig ist, dass Sie darüber nachdenken, warum Sie sicher oder unsicher sind und daraus lernen.

Bewertungen und Punkte bei gewissheitsbegründeter Bewertung

Durchschnitt und Genauigkeit bei gewissheitsbegründeter Bewertung

Der Durchschnitt bei gewissheitsbegründeter Bewertung kann zwischen 3 und -6 liegen. Wenn alle Fragen in einem Test dasselbe Gewicht haben, dann ist der Durchschnitt bei gewissheitsbegründeter Bewertung der normale Punktdurchschnitt. Wenn die Gewichte (w) variieren, dann ist für die Bewertung (m) einer Frage der Durchschnitt bei gewissheitsbegründeter Bewertung gleich Σ(wm)/Σ(w).
Die Genauigkeit bei gewissheitsbegründeter Bewertung ist das normale Maß, wie viel Sie im Test richtig beantwortet haben, dabei werden die gewissheitsbegründeten Bewertungen ignoriert. Wenn alle Fragen dasselbe Gewicht haben, dann ist die Genauigkeit der Prozentsatz der Fragen, die richtig beantwortet wurden (darunter evtl. einige Fragen, die teilweise richtig beantwortet wurden). Wenn die Gewichte (w) variieren und die Fragen wurden mit einem Anteil f (zwischen 0 und 1) richtig beantwortet, dann ist die Genauigkeit bei gewissheitsbegründeter Bewertung gleich Σ(wf)/Σ(w).
Teilweise richtige Antworten: Wenn die Antworten teilweise richtig sind (mit einem Anteil f zwischen 0 und 1), dann ist die Bewertung bei C=1, 2 bzw. 3 entsprechende f, 2f bzw. 3f. Wenn f negativ ist (d.h. jede richtige Teilantwort wird durch falsche Teilantworten überschrieben), dann ist die Bewertung dieselbe wie bei falschen Antworten (d.h. 0,-2 bzw. -6).

Was sagen Durchschnitt und Genauigkeit bei gewissheitsbegründeter Bewertung aus?

Die Grafik ^* zeigt die Bewertungen (Genauigkeit und Durchschnitt) für mehrere Tausend Online-Aufgabenabgaben auf der Basis von verschiedenen freiwilligen Selbsttests zum Üben und Wiederholen, mehrheitlich von Studierenden an Universitäten. In der Grafik sind verschiedene Einschätzungen des Wissens der Studierenden mit Pfeilen markiert.

Datei:WhatCBMavgtells.png

^* Diese Grafik wird in CBM Self-Tests (derzeit nicht in Moodle) verwendet, um die Bewertungen der Teilnehmer/innen nach der Abgabe darzustellen.

Beachten Sie, dass der Durchschnitt (als Prozentangabe bezogen auf ein Maximum) stets kleiner als die Genauigkeit ist. Z.B. ist für die gelb markierte Bewertung der Durchschnitt 1.5, d.h. 50% des Maximums, während die Genauigkeit 80% beträgt. Sie sollten sich nicht darüber wundern, dass dieser Durchschnitt kleiner ist als Ihre normale Bewertung. Das ist immer so!
Wenn Sie keinen Unterschied zwischen verlässlichen und unsicheren Antworten machen (indem Sie allen denselben C-Wert geben, was dem entspricht, wie gut die Teilnehmer/innen das Thema im Durchschnitt verstanden haben), dann liegen Ihre Bewertungen ungefähr auf der grünen Linie in der Grafik.
Wenn Ihre Bewertungen oberhalb der grünen Linie liegen, dann unterscheiden Sie erfolgreich zwischen verlässlichen und unsicheren Antworten. Wenn Ihre Bewertungen darunter liegen, dann schätzen Sie entweder Ihren Wissenstand falsch ein oder Sie haben schwerwiegende falsche Vorstellungen und Missverständnisse in Bezug auf das Thema.

Zusatzpunkte, Genauigkeit und Bewertung bei gewissheitsbegründeter Bewertung

Es ist zweckmäßig, den Erfolg der Teilnehmer/innen dadurch auszudrücken, dass man verlässliches Wissen unterscheidet von unsicherem Wissen, indem man Bonuspunkte vergibt, die zur normalen Genauigkeit addiert (oder subtrahiert) werden können und die den Anteil der richtigen Antworten widerspiegeln. Dieser gewissheitsbegründete Bonus wird dadurch bestimmt, wie stark der Durchschnitt von der grünenn Linie in der Grafik im vorherigen Abschnitt abweicht. Ein negativer Bonus^** bedeutet, dass Teilnehmer/innen nicht gut zwischen verlässlichen und sicheren Antworten unterscheiden oder die Verlässlichkeit ihrer Antworten falsch einschätzen. Z.B. ist der Durchschnitt der gelb markierten Bewertung in der Grafik im vorherigen Abschnitt 0.3 Punkte über der grünen Linie (Durchschnitt der gelebn Markierung = 1.5, Durchschnitt der grünen Linie = 1.2); diese 0.3 Punkte werden mit einem Standardfaktor β (=10%)^* multipliziert, so dass sich ein Bonus = +3% ergibt. Addiert man diesen Bonus zur Genauigkeit(= 80%) erhält man eine gewissheitsbegründete Genauigkeit = 83%. Die gewissheitsbegründete Bewertung ist dann einfach die gewissheitsbegründete Genauigkeit multipliziert mit der maximalen Bewertung für den Test. Die Verwendung der gewissheitsbegründeten Genauigkeit dient Teilnehmer/innen und Prüfer/innen dazu, zwischen normalen und gewissheitsbegründeten Bewertungen zu unterscheiden, während die Differenz (der gewissheitsbegründete Bonus) angibt, wie gut Teilnehmer/innen einschätzen können, ob ihr Wissen verlässlich ist oder unsicher.

Datei:WhatCBMaccytells.png

^* Der Faktor β=10%, der zur Berechnung der Bonuspunkte verwendet wurde, ist optimal in dem Sinne gewählt, dass die statistische Zuverlässigkeit der Gesamtbewertung (Genauigkeit + Bonus) maximiert wird, d.h. dass die Bewertungen bestmöglich vorhergesagt werden können, siehe Gardner-Medwin, 2013

^**Wenn Sie negative Bonuspunkte merkwürdig finden, denken Sie daran, wie viel besser die Welt wäre, wenn Boni für Banker/innen negativ sein könnten. Ein negativer Bonus spiegelt das wider, was Konfuzius Unfähigkeit bezeichnet hat, "wenn du etwas nicht weißt, zuzulassen, dass du es nicht weißt" oder wie Donald Rumsfeld sagt "die unbekannten Unbekannten". Beides bringt zum Ausdruck, dass Nichtwissen weniger schlimm ist, als die Ignoranz des Nichtwissens.

Gewissheitsbegründete Bewertung in Prüfungen

Im Verlauf der Zeit werden viele falsche Vorstellungen (die zu negatibven Zusatzpunkten führen) korrigiert und die Lernenden schätzen sich zunehmend besser ein. Das bedeutet, dass in Prüfungen die Zusatzpunkte überwiegend im positiven Bereich liegen. Die Genauigkeit erlaubt es den Prüfer/innen, direkte Vergleiche zwischen gewissheitsbegründeten Standardkriterien und konventionellen Standards zu ziehen.

Datei:cbmexamdata.png
Beispiel-Daten aus einer Medizinprüfung am University College London mit Wahr-Falsch-Fragen.

Gewissheitsbegründete Bewertungen, die sich nur auf einen Teil eines Tests beziehen

Die gewissheitsbegründete Bewertung ist besonders in Selbsttests nützlich, in denen sich die Teilnehmer/innen als Teil ihres Lernprozesses selbst herausfordern. In solchen Selbsttests können einzelne Fragen ausgelassen werden, weil sie momentan nicht von Interesse oder zu leicht sind oder noch nicht behandelt wurden. Die gewissheitsbegründete Bewertung kann dann bezogen auf die beantworteten Fragen dargestellt werden. Wenn alle bearbeiteten Fragen richtig beantwortet wurden, bedeutet das eine Genauigkeit von 100%. Es bleibt den Lernenden überlassen, solche Ergebnisse zu interpretieren: Wenn Fragen ausgelassen wurden, weil sie zu schwer waren, dann kann die Bewertung die Kompetenzen in dem Gebiet überschätzen. Die Bewertungen in Moodle sind immer relativ zur Gesmatbewertung eines Tests, und das ist auch der Standard für andere Bewertungen.

Moodle-Bewertungen mit gewissheitsbegründeter Bewertung

Die Moodle-Bewertung für einen Test ist die Gesamtheit aller erzielten Bewertungen bezogen auf die Gesmatpunktzahl des Tests. Bewertungenwerden manchmal als "X von Y" Punkten angezeigt, aber bei gewissheitsbegründeten Bewertungen kann die Moodle-Bewertung bis zu drei Mal höher sein (wenn alle Fragen mit C=3 richtig beantwortet wurden). Diese einfache Art der Bewertung ist mit konventionellen Bewertungen nicht leicht zu vergleichen. Die gewissheitsbegründete Bewertung (siehe oben) ist zu bevorzugen, aber solange Moodle-Bewertungen bei gewissheitsbegründeten Bewertungen so berechnet werden, sollten Trainer/innen die Daten in den Tabellen unter Test > Ergebnisse > Gewissheitbegründete Bewertungen oder Versuche verwenden, um eine bestmögliche Einschätzung der Leistungen der Teilnehmer/innen zu erhalten. Beachten Sie, dass solange Offene Bewertung (siehe unten) deaktiviert ist, werden die Moodle-Bewertungen häufig in der Bewertungsübersicht falsch angezeigt.

Was muss die Moodle-Administration tun?

Zusatz-Plugin für die Anzeige von Daten installieren

Moodle 2.6 und neuere Versionen müssen das Zusatz-Plugin Quiz Report Plugin installieren, damit Daten zur gewissheitsbegründeten Bewertung in den speziellen Bewertungsberichten angezeigt werden. Ältere Moodle-Versionen können diese Codeanpassungen verwenden, um die Daten in Standard-Bewertungsberichten anzuzeigen.

Einstellung Offene Bewertung aktivieren

Die Moodle-Administration muss auf der Seite Website-Administration (oder im Block Einstellungen > Website-Administration) > Bewertungen > Allgemeines die Checkbox Offene Bewertung markieren, so dass Bewertungen nicht auf 100% begrenzt sind. Moodle berechnet die Daten in den Bewertungen basierend auf den Rohdaten (bis zu 300% erreichbar ohne gewissheitsbegründete Bewertung). Wenn Sie die Checkbox nicht markieren, werden die meisten Teilnehmerbewertungen mit 100% angezeigt. Wenn Sie die Codeanpassungen gemacht haben, so dass gewissheitsbegründete Bewertungen als solche gekennzeichnet sind (damit sie mit "normalen" Bewertungen vergleichbar sind), dann spielt die Einstellung keien Rolle.

Gardner-Medwin, Januar 2016
Mehr Information: Certainty-Based Marking

Documentation