Estadísticas del reporte del examen

Traducido de la página Quiz report statistics de la documentación en inglés para desarrolladores, que al parecer proviene del artículo A brief guide to what the statistics mean, from the Open University, que al parecer fue escrito por Phil Butcher:

Estas estadísticas están diseñadas para usarse con exámenes sumativos en donde los estudiantes solamente tuvieron un intento para resolver el examen y completaron ese intento.

Estadísticas del examen

Calificación promedio: Para exámenes discriminantes con retroalimentación diferida, los exámenes de la Universidad Abierta están encaminados hacia obtener una calificación promedio de 50% a 75%. Los valores fuera de estos límites requieren re-pensarse. Los exámenes interactivos con múltiples intentos invariablemente conducen a promedios más altos.

Mediana de la calificación: La mitad de los estudiantes tienen una calificación inferior a este valor.

Desviación estándar : Una medida de la dispersión de las calificaciones alrededor de la media. Intente obtener valores entre 12% y 18%. Valores inferiores a 12% sugieren que las calificaciones están demasiado amontonadas.

Sesgo: Una medida de la asimetría de la distribución de calificaciones. Cero implica una distribución perfectamente simétrica, los valores positivos indican una 'cola' a la derecha y los valores negativos una 'cola' a la izquierda.

Intente obtener un valor de sesgo de -1.0. Si fuera muy negativo, puede indicar falta de discriminación entre los estudiantes a los que les va mejor que al promedio. Similarmente, valores positivos muy grandes (mayores a 1) pueden indicar falta de discriminación cerca de la calificación umbral para pasar/reprobar.

Kurtosis es una medida de que tan plana está la distribución. Trate de obtener un valor en el rango entre 0 y 1. Un valor mayor que 1 puede indicar que el exámen no está discriminando muy bien entre los estudiantes muy buenos (o los muy malos) y aquellos que son promedio.

Coeficiente de consistencia interna : Es imposible obtener consistencia interna mayor al 90%. Cualquier valor arriba de 75% es satisfactorio. Si el valor es inferior a 64%, el examen completo es insatisfactorio y deberían considerarse medidas correctivas. Un valor bajo indica, ya sea que algunas de las preguntas no son muy buenas para discriminar entre estudiantes de diferente habilidad y por esto las diferencias entre las puntuaciones totales están en gran medidad asociadas al azar; o puede indicar que algunas de las preguntas están evaluando una calidad diferente que el resto de las preguntas y que estas dos calidades no correlacionan bien, lo que significa que el exámen en su conjunto no es homogeneo.

Tasa de error : Esto está relacionado con el coeficiente de consistencia interna de acuerdo con la tabla siguiente: Esto estima el porcentaje de la desviación estandar que se debe a efectos aleatorios en lugar de diferencias genuinas de la habilidad entre los estudiantes. Valores de tasa de error superiores al 50% no pueden considerarse satisfactorios; implican que menos de la mitad de la desviación estandar se debe a diferencias en habilidad y que el resto son efectos aleatorios.

Coeficiente de Consistencia Interna	100	99	96	91	84	75	64	51
Tasa de Error	0	10	20	30	40	50	60	70

Error estandar: Esto es la desviacion estandar multiplicada por la tasa de error y dividida entre 100. Estima qué tanto de la desviación estandar se debe a efectos aleatorios, y es una medida de la incertidumbre en la calificación de cualquier estudiante dado. Si el mismo estudiante tomó otro exámen equivalente en la misma institución, su calificación se esperaría que estuviera dentro de más menos un error estandar de la calificación anterior.

Cuanto menor sea el valor del error estandar, mejor es el examen, pero es difícil lograr que el error estándar sea inferior al 5% o 6%.
Un valor de 8% corresponde a la mitad de una diferencia de calificación (por ejemplo, entre un seis y un siete) en la escala de calificaciones de la Universidad Abierta del Reino Unido, o en cualquier otra escala típica de calificaciones.
Si el error estandar excediera de 8%, es probable que una proporción sustancial de los estudiantes estén erroneamente calificados, en el sentido que las calificaciones otrogadas no indican con exactitud sus habilidades verdaderas.

Estadísticas de las preguntas

Índice de Facilidad

Índice de Facilidad : La puntuación promedio de los estudiantes en el ítem.

Índice de Facilidad	Interpretación
5% o menos	Extremadamente dificil, o algo está mal con la pregunta.
6% - 10%	Muy dificil.
11% - 20%	Dificil.
21% - 34%	Moderadamente dificil.
35% - 65%	Correcta para el estudiante promedio.
66% - 80%	Bastante fácil.
81% - 89%	Fácil.
90% - 94%	Muy fácil.
95% - 100%	Extremadamente fácil.

El nivel de dificultad (p) es igual al porcentaje de aprobación', que es igual al índice de facilidad .

Como regla general, los índices de facilidad entre 30% y 70% suelen proporcionar diferencias importantes entre el nivel de conocimiento, habilidad y preparación entre los individuos. Hay excepciones, asociadas al propósito de la evaluación y las características de los estudiantes; por ejemplo, para los exámenes para el ingreso a un posgrado, los ítems deberán tener una mayor dificultad (menor índice de facilidad) , para poder hacer distinciones finas entre los estudiantes que realizan un examen para solicitar su admisión.

Desviación estandar

Desviación estandar: Una medida de la dispersión de calificaciones respecto a la media y por tanto, la magnitud de cuanto puede discriminar la pregunta. Si el índice de facilidad fuera muy alto, o fuera muy bajo, es imposible que la dispersión sea grande. Sin embargo, tome nota de que una buena desviación estandar no asegura automaticamente una buena discriminación. Un valor de la desviación estandar inferior de 1/3 del máximo de la pregunta (33%) en la tabla de arriba generalmente es insatisfactorio.

Calificación aleatoria estimada

Calificación aleatoria estimada: Este es el promedio de calificación que se esperaría que los estudiantes obtuvieran por una adivinanza aleatoria de la pregunta. Los puntajes por adivinanza aleatoria solamente están disponibles para las preguntas que usan algun tipo de opción múltiple. Todos los puntajes de adivinanza aleatoria son solamente para retroalimentación diferida y asumen la más simple de las situaciones; por ejemplo, que para las preguntas de opción múltiple se le dirá al estudiante cuantas respuestas están correctas.

Valores arriba del 40% son insatisfactorios, y demuestran que las preguntas de Falso/Verdadero deben emplearse muy mesuradamente (poco o nada) en examenes sumativos.

Ponderación deseada y ponderación efectiva

Ponderación deseada: La ponderación o peso de la pregunta, expresado como un porcentaje del puntaje general.

Ponderación efectiva: Un estimado de la ponderación o peso que realmente tiene la pregunta para contribuir a la dispersión total de las calificaciones. Las ponderaciones efectivas deberian sumar un total de 100%, pero lea más adelante:

La ponderación deseada y la ponderación efectiva se deben comparar:
- Si la ponderación efectiva fuera mayor que la deseada, demuestra que la pregunta tiene una mayor participación en la dispersión de las calificaciones de lo que usted habria deseado.
- Si la ponderación efectiva fuera menor que la ponderación deseada, demuestra que la pregunta no está teniendo tanto efecto en la dispersión de las calificaciones como Usted deseaba.
El calculo de la ponderación efectiva se basa en tomar la raíz cuadrada de la covarianza de los puntajes de la pregunta con respecto al desempeño general. Si los puntajes de una pregunta varían de forma opuesta a la calificación general, esto indicaría que esta pregunta es muy extraña, y que está evaluando algo completamente diferente de las demás preguntas. Y como la computadora no puede calcular las ponderaciones efectivas de estas preguntas, esto resulta en la aparición de cajas con mensajes de advertencia.

Indice de discriminación y Eficiencia discriminativa

Indice de discriminación: Esta es la correlación entre las calificaciones ponderadas en la pregunta y las del resto del examen. Indica que tan efectiva es la pregunta para clasificar/separar/discernir a los estudiantes más capaces de los menos capaces. Los resultados deberían de interpretarse como sigue:

Index	Interpretación
50% y superior	Muy buena discriminación.
30% – 50%	Adecuada discriminación.
20% - 29%	Débil discriminación.
0 - 19%	Muy débil discriminación.
valores negativos	La pregunta probablemente sea inválida.

Eficiencia discriminativa: Esta estadística intenta estimar que tan bueno es el índice de discriminación en relación con la dificultad de la pregunta.

Un Ítem que sea muy fácil o muy difícil no puede discriminar entre los estudiantes de habilidades diferentes, debido a que la mayoría de ellos obtendrán el mismo puntaje para esta pregunta.
La discriminación máxima requiere un indice de facilidad que esté en el rango del 30% al 70% (a pesar de que este valor no es garantía de obtener un alto indice de discriminación).
La eficiencia de discriminación muy rara vez se acercará al 100%, pero deberían de poder obtenerse valores superiores al 50%.
Valores inferiores al 50% de eficiencia de discriminación indican que la pregunta no es tan efectiva para discriminar entre estudiantes de habilidades diferentes como lo debería de ser, y por esto, no es una pregunta particularmente buena.

Nota: El índice de discriminación se usa en Moodle >= 4.0 para una nueva columna que indicará si una pregunta 'Probablemente necesita revisión' cuando el índice de discriminación es en promedio muy bajo.

Vea también

https://docs.moodle.org/dev/Quiz_statistics_calculations en la documentación en inglés para desarrolladores
https://docs.moodle.org/dev/Quiz_report_statistics

Vea también esta documentación traducida del sitio de la Open University:

Documentation