Estadísticas del reporte del examen

Tomado del artículo A brief guide to what the statistics mean, from the Open University escrito por Tim Hunt:

Calificación promedio: Para exámenes con retroalimentación diferida, discriminantes, los exámenes de la Universidad Abierta están encaminados hacia obtener de 50% a 75%. Los valores fuera de estos límites requieren re-pensarse. Los exámenes interactivos con múltiples intentos inverablemente conducen a promedios más altos.

Mediana de la calificación: La mitad de los estudiantes tienen una calificación inferior a este valor.

Desviación estándar : Una medida de dispersión de las calificaciones alrededor de la media. Intente obtener valores entre 12% y 18%. Valores inferiores a esto sugiere que las calificaciones están demasiado amontonadas.

Sesgo: Una medida de la asimetría de la distribución de calificaciones. Intente obtener un valor de -1.0. Si fuera muy negativo, puede indicar falta de discriminación entre los estudiantes a los que les va mejor que al promedio. Similarmente, valores muy grandes positivos (mayores a 1) pueden indicar falta de discriminación cercana a la calificación umbral para pasar/reprobar.

Kurtosis: Kurtosis es una medida de que tan plana esta la distribución. Trate de obtener un valor en el rango entre 0 y 1. Un valor mayor que uno puede indicar que el exámen no esta discriminando muy bien entre los estudiantes muy buenos o muy malos y aquellos que son medianos.

Coeficiente de consistencia interna: Es imposible obtener consistencia interna mayor al 90%. Cualquier cosa arriba de 75% es satisfactorio. Si el valor es inferior a 64%, el exámen completo es insatisfactorio y deberían considerarse medidas correctivas. Un valor bajo indica, ya sea que algunas de las preguntas no son muy buenas para discriminar entre estudiantes de diferente habilidad y por esto las diferencias entre las puntuaciones totales estan en gran medidad asociadas al azar o, puede indicar que algunas de las preguntas estan evaluando una calidad diferente que el resto de las preguntas y que estas dos calidades no correlacionan bien, lo que significa que el exámen en su conjunto no es homogeneo.

Tasa de error: Esto esta relacionado con el coeficiente de consistencia interna de acuerdo con la tabla siguiente: Esto estima el porcentaje de la desviación estandar que se debe a efectos aleatorios en lugar de diferencias genuinas de la habilidad entre los estudiantes. Valores de tasa de error superiores al 50% no pueden considerarse satisfactorios; inplican que menos de la mitad de la desviación estandar se debe a diferencias en habilidad y que el resto son efectos aleatorios.

Error estandar: Esto es la desviacion estandar multiplicada por la tasa de error y dividida entre 100. Estima que tanto de la desviación estandar se debe a efectos aleatorios y es una medida de la incertidumbre en la calificación de cualquier estudiante dado. Si el mismo estudiante tomó otro exámen equivalente, su calificación se esperaria que estuviera dentro de mas menos un error estandar de la calificación anterior. Cuanto menor sea el valor del error estandar, mejor es el exámen, pero es difícil lograr que sea inferior al 5% o 6%. Un valor de 8% corresponde a la mitad de una diferencia de calificación (por ejemplo, entre un seis y un siete) en la escala de la Universidad Abierta del Reino Unido. Si el error estandar exediera de 8% es probable que una proporción sustancial de los estudiantes esten erroneamente calificados, en el sentido que las calificaciones otrogadas no indican con exactitud sus habilidades verdaderas.

Desviación estandar: Una medida de la dispersión de calificaciones respecto a la media y por tanto, la magnitud de cuanto puede discriminar la pregunta. Si el indice de facilidad fuera muy alyo o fuera muy bajo, es imposible que la dispersión se agrande.Sin embargo, tome nota de que una buena desviación estandar no asegura automaticamente una buena discriminación. Un valor de la desviación estandar inferior de 1/3 del maximo de la pregunta (33%) en la tabla de arriba generalmente es insatisfactorio.

Puntaje esperado aleatoriamente: Este es el promedio de calificación que se esperaria que los estudiantes obtuvieran por una adivinanza aleatoria de la pregunta. Los puntajes por adivinanza aleatoria solamente estan disponibles para las preguntas que usan algun tipo de opción multiple. Todos los puntajes de adivinanza aleatoria son solamente para retoralimentación diferida y asumen la mas simple de las situaciones, por ejemplo que para las preguntas de opción multiple se le dira al estudiante cuantas respuestas estan correctas. Valores arriba del 40% son insatisfactorios, y demusestran que las preguntas de Falso/Verdadero deben emplearse muy poco en examenes sumativos.

Ponderación deseada: La ponderación o peso de la pregunta expresado como un porcentaje del puntaje general.

Ponderación efectiva: Un estimado de la ponderación o peso que realmente tiene la pregunta para contribuir a la dispersión total de las calificaciones. Las ponderaciones efectivas deberian sumar un 100%, pero lea mas adelante: La ponderación deseada y efectiva se deben comparar. Si la ponderación efectiva fuera mayor que la deseada demuestra que la pregunta tiene una mayor participación en la dispersión de las calificaciones de lo que usted habria deseado. Si fuera menor que la ponderación deseada demuestra que no esta teniendo tanto efecto en la dispersión de las calificaciones como usted deseaba. El calculo de la ponderación efectiva se basa en tomar la raíz cuadrada de la covarianza de los puntajes de la pregunta con desempeño general. Si los puntajes de una pregunta varían de forma opuesta a la calificación general, esto indicaria que esta pregunta es muy extraña y que esta evaluando algo completamente diferente de las demas. Y la computadora no puede calcular las ponderaciones efectivas de estas preguntas lo que resulta en la aparición de cajas con mensajes de advertencia.

Indice de discriminación: Esta es la correlación entre las calificaciones ponderadas en lña pregunta y las del resto del exámen. Indica que tan efectiva es la pregunta para clasificar a los estudiantes mas capaces de los menos capaces. Los resultados deberían de intepretarse como sigue:

50 y superior: Muy buena discriminación de 30 a 50: Discriminación adecuada de 20 a 29: Discriminación debil de 0 a 19: Discriminación muy debil Valores negativos: La pregunta probablemente no sea valida.

Eficiencia de discriminación: Esta estadistica intenta estimar que tan bueno es el indice de discriminación relativo con la dificultad de la pregunta. Un Ítem que sea muy facíl o muy dificil no puede discriminar entre los estudiantes de habilidades diferentes, debido a que la mayoria de ellos obtendran el mismo puntaje para esta pregunta. La discriminación maxima requiere un indice de facilidad que este en el rango del 30% al 70% (a pesar de que este valor no es garantia de obtener un alto indice de discriminación). La eficiencia de discriminación se acercara al 100% pero deberían de poder obtenerse valores superiores al 50%. Valores inferiores al 50% indican que la pregunta no es tan efectiva para discriminar entre estudiantes de habilidades diferentes como deberia de ser, y pr esto no es una pregunta particularmente buena.

Documentation

Estadísticas del reporte del examen