Evaluación Escolar: Evaluación formativa, desde una perspectiva optimista

La evaluación formativa, o de proceso es puesta bajo la lupa en diversas oportunidades, los siguientes párrafos analizan las investigaciones sobre el tema, asumiendo una posición optimista.

La noción de evaluación formativa (EF) denota las acciones hechas para valorar el avance de los alumnos en el desarrollo de conocimientos o competencias, buscando aportar elementos al maestro y a los alumnos mismos para adecuar sus esfuerzos para alcanzar las metas de aprendizaje establecidas, y no para emitir un juicio definitivo al respecto. La noción opuesta es la de evaluación sumativa.

Aunque reciente, la literatura sobre EF comienza a proliferar y, en general, parte del supuesto de que su uso produce beneficios importantes sobre el aprendizaje. Sin embargo los estudios de carácter empírico que sometan este supuesto a la prueba de la experiencia son escasos. En estas páginas se revisa la literatura al respecto, con énfasis en la producida en los medios anglosajones.

Algunas síntesis de estudios sobre el sistema Mastery Learning que promovió Benjamín S. Bloom en las décadas de 1960 y 1970, llegaban a la conclusión de que era “una de las estrategias de enseñanza más efectivas que los maestros pueden utilizar, en cualquier nivel educativo” (Walberg).

Bloom plantea el tema en términos de lo que llama el problema de las dos sigmas, en alusión al dato de que la diferencia entre los alumnos de alto y bajo rendimiento suele situarse en el rango de dos desviaciones estándar; esto quiere decir que el reto de reducir las brechas del rendimiento de manera significativa en un sistema educativo consiste en mejorar el desempeño de los alumnos de menor rendimiento en el equivalente a dos desviaciones estándar (dos sigmas).

Según Bloom es posible conseguir mejoras de esa importancia con sistemas de enseñanza que asignan un tutor a cada alumno de bajo rendimiento (enseñanza tutorial uno a uno), lo cual es costoso; pero él afirma que con su sistema es posible obtener resultados similares, con un costo que no difiere mucho del que implican las formas tradicionales de enseñanza (Bloom, 1984a y 1984b).

Estudios en perspectiva optimista
Sin contar las relativas a resultados del modelo Mastery Learning, seguramente la revisión de literatura que más ha influido en las ideas sobre el efecto de la EF es la que publicaron en 1998 Paul Black y Dylan Wiliam. El artículo no es el primero en ese sentido, sin embargo, la conclusión tan positiva a la que llega llamó la atención entre los interesados en el tema, algunos de los cuales lo retomaron sin considerar sus alcances y límites, lo que posiblemente dio lugar a que se extendiera una visión acrítica de la evaluación formativa, en un medio que a veces parece ávido de soluciones milagrosas para los problemas que enfrenta.

La revisión se organizó en siete secciones: ejemplos notables; evaluación por los maestros; perspectiva de los alumnos; papel del maestro; estrategias y tácticas usados por los maestros; sistemas en que la evaluación formativa tiene un papel especial; y retroalimentación. En cada sección los textos identificados se revisan con diferente amplitud, pero la primera, la de ejemplos notables, atrae la atención tanto por su ubicación al inicio del artículo como por la naturaleza positiva de las conclusiones a que llegan los autores, que sustentan las afirmaciones reiteradas y enfáticas que se hacen. Así, en el resumen del trabajo, Black y Wiliam dicen:

Varios estudios muestran evidencia firme de que las innovaciones que se diseñan para reforzar la retroalimentación frecuente que el alumno recibe sobre su aprendizaje produce ganancias substanciales (…)

La idea se retoma con fuerza similar al final del trabajo, donde los autores responden la pregunta sobre las implicaciones para las políticas de sus hallazgos:

La investigación reportada muestra en forma concluyente que la EF mejora el aprendizaje. Las ganancias en desempeño parecen muy considerables y son de las más grandes reportadas para una intervención educativa. Como ejemplo de su importancia, si se alcanzara a escala nacional un efecto de 0.7 (size effect), equivaldría a elevar el puntaje promedio en matemáticas de un país promedio como Inglaterra, Nueva Zelanda o Estados Unidos, al nivel de los cinco mejores, detrás de los países de la cuenca del Pacífico como Singapur, Corea, Japón y Hong Kong (…)

Los estudios seleccionados por Black y Wiliam para incluir en la primera sección de su trabajo, de ejemplos destacados, son ocho: 1) Un proyecto que involucró a 25 profesores portugueses de matemáticas, con 246 alumnos de ocho y nueve años de edad y 108 más de 10 a 14 años. 2) La experiencia de un profesor a lo largo de 18 años durante los cuales utilizó el modelo de Mastery Learning en sus cursos, con unos 7,000 estudiantes. 3) Otro estudio que utilizó el modelo de Mastery Learning, con 120 estudiantes universitarios estadounidenses, en cuatro grupos en un diseño 2 x 2. 4) Uno más con 838 niños de cinco años de edad de medio desfavorecido, distribuidos en un grupo experimental y uno de control. 5) Un experimento con 48 alumnos de 11 años de edad, de 12 grupos en cuatro escuelas de Israel, seleccionados de manera que la mitad fueran del cuartil superior y el resto del inferior, en matemáticas y lengua. 6) Un estudio con 44 alumnos de 9 o 10 años de edad en una escuela elemental de los Estados Unidos. 7) Un trabajo con 12 grupos de 30 alumnos cada uno, en dos escuelas estadounidenses de educación media. 8) Un meta-análisis de 21 estudios con alumnos de preescolar a enseñanza media superior con necesidades educativas especiales de importancia media.

Black y Wiliam advierten sobre las limitaciones de los estudios revisados. Como ejemplo, en relación con una revisión sobre la efectividad de la retroalimentación (Kluger y De Nisi) señalan que, de más de 3,000 reportes analizados, la gran mayoría debieron descartarse por fallas metodológicas como falta de controles adecuados, mezcla de efectos de la retroalimentación con otros, número reducido de sujetos (<10), ausencia de mediciones del rendimiento y datos insuficientes para estimar el tamaño del efecto. Solamente se conservaron 131 reportes que no presentaban las fallas anteriores

Se mencionan efectos de la retroalimentación en sentidos opuestos, según se refiera a la tarea o a la persona. Un trabajo reporta que la retroalimentación que se refiere a la persona parece tener efectos negativos sobre el desempeño y otro que los maestros eficaces elogian menos a sus alumnos que el docente promedio, lo que coincide con otros hallazgos de que los elogios verbales y la retroalimentación de apoyo a la persona puede aumentar el interés y mejorar actitudes del alumno, pero tiene poco o nulo impacto sobre el desempeño.

La descripción que hacen Black y Wiliam de los ocho ejemplos notables suscita dudas en cuanto a la solidez de conclusiones tan contundentes como las citadas, pues parece difícil llegar a ellas sin muchas salvedades, a partir de una gama bastante reducida de trabajos diferentes, algunos de los cuales presentan claras debilidades. Pese a ello, la heterogeneidad misma de los ejemplos es manejada por los autores citados como argumento a favor de su punto de vista:

(…) Pese a la existencia de algunos resultados marginales e incluso negativos, el rango de las condiciones y contextos en los que los estudios revisados han mostrado que se pueden alcanzar tales ganancias debe indicar que los principios que subyacen al logro de mejoras sustanciales en el aprendizaje son robustos (…)

Al final de su revisión, Black y Wiliam advierten a los lectores sobre la dificultad que supone modificar en profundidad prácticas muy arraigadas:

(…) de esta revisión no emerge un modelo óptimo en que se pueda sustentar una política. Lo que emerge son principios orientadores, con la advertencia de que los cambios requeridos en la práctica docente son centrales y no marginales, y deben ser incorporados por cada docente a su propia práctica en la manera propia de cada uno. En otras palabras, una reforma de tales dimensiones inevitablemente llevará mucho tiempo y requerirá el continuo apoyo de educadores e investigadores.

En forma muy clara, el trabajo citado señala:
Sería deseable, y se podría esperar como lo habitual, que una revisión como ésta tratara de hacer un meta-análisis de los estudios cuantitativos revisados. El que esto difícilmente parezca posible lleva a reflexionar sobre este campo de investigación. Esta revisión aprovechó material útil de varios estudios basados en meta-análisis; éstos, sin embargo, centraban la atención en aspectos bastante restringidos de la evaluación formativa, por ejemplo la frecuencia con la que se formulan preguntas. El valor de sus generalizaciones es también dudoso porque se ignoran aspectos clave de los estudios sintetizados, por ejemplo la calidad de las preguntas que se formulan, ya que la mayoría de los investigadores no ofrecen evidencias sobre estos puntos.

Hay estudios cuantitativos que exploran la evaluación formativa de manera más comprensiva, y algunos se discuten en el texto, pero el número con un rigor cuantitativo adecuado y comparable debe situarse, como máximo, en el orden de 20. Sin embargo, si bien cada estudio es riguroso dentro de su propio marco y en relación son sus objetivos, y aunque muestran cierta coherencia en lo que se refiere a las ganancias de aprendizaje asociadas con las iniciativas de evaluación en aula, las diferencias subyacentes entre los estudios son tales que cualquier agregación de sus resultados tendría poco sentido.

Pese a lo anterior, varias lecturas del texto al que se refieren estos comentarios han retomado únicamente las conclusiones favorables, sin matiz alguno, e incluso contradiciendo afirmaciones expresas, como en el caso siguiente:

Con base en su síntesis de más de 250 artículos [Black y Wiliam] reportan que la respuesta [a la pregunta sobre si hay evidencias de que mejorar la calidad de la EF eleva el rendimiento de los alumnos] es un rotundo sí. De esas fuentes, unas 40 responden la pregunta con diseños experimentales suficientemente rigurosos para permitir la agregación de los datos para hacer un meta-análisis que permita estimar el efecto atribuible a EF mejoradas sobre el puntaje en pruebas sumativas. (Stiggins)

La diferencia entre lo que dice el texto de Black y Wiliam y la lectura de Stiggins es notable y hace parecer excesivo el tono optimista de esa y otras interpretaciones.

Un importante trabajo sobre evaluación formativa publicado por la Organización para la Cooperación y el Desarrollo Económicos (OCDE) retoma el texto ya citado de las conclusiones del artículo de Black y Wiliam:

(…) la evaluación formativa mejora el aprendizaje. Las ganancias en el desempeño parecen muy considerables y, como se ha señalado, son de las más grandes reportadas para una intervención educativa. (Centre for Educational Research and Innovation)

El trabajo de la OCDE, sin embargo, matiza la afirmación anterior como sigue:
Si bien la EF no es una solución mágica (silver bullet) que puede resolver todos los retos educativos, es un medio poderoso para alcanzar el objetivo de resultados de alto desempeño y alta equidad, y ofrece a los alumnos el conocimiento y las habilidades para seguir aprendiendo a lo largo de la vida. Los sistemas educativos que enfrenten las tensiones que impiden una práctica más amplia de la EF y fomenten culturas de evaluación probablemente avanzarán mucho más hacia tales metas.

En la Conferencia Internacional sobre Evaluación para el Aprendizaje que tuvo lugar en Chester en 2001, se llegó a la conclusión de que las discusiones sobre las prioridades de investigación en torno al tema:

(…) se desarrollaron con plena conciencia del hecho de que contamos ya con evidencia convincente, basada en investigaciones, en cuanto al impacto de la “enseñanza para el aprendizaje” sobre el rendimiento de los alumnos: se pueden conseguir avances sin precedentes. Tenemos también evidencia convincente, basada en investigaciones, sobre la baja calidad de muchas evaluaciones que se hacen en el aula, debido a la persistente falta de oportunidades que tienen los maestros para desarrollar sus competencias de evaluación (assessment literacy).

En un texto más reciente, Stiggins sigue mostrando su perspectiva optimista: “La evidencia recolectada en todo el mundo revela de manera consistente efectos directamente atribuibles a la aplicación efectiva de EF en aula, que van de media a una y media desviación estándar”

Otras revisiones de las que se extraen conclusiones favorables para la evaluación formativa se refieren a los efectos de la retroalimentación. Marzano presenta así algunos trabajos sobre el tema:

Como resultado de revisar casi 8,000 estudios, Hattie encontró que, sin duda, “la modificación singular más poderosa para mejorar rendimiento es la retroalimentación”. La receta más simple para mejorar la educación es “cucharadas de retroalimentación”. Más recientemente, Hattie y Timperley actualizaron y ampliaron la revisión sobre retroalimentación y llegaron a la misma conclusión. Desafortunadamente no todas las formas de retroalimentación son igualmente efectivas. Un meta-análisis de que revisó los hallazgos de 40 estudios sobre evaluación en aula, encontró que decir simplemente al alumno si sus respuestas son correctas o incorrectas tenía efecto negativo sobre el aprendizaje, mientras que explicar la respuesta correcta y/o pedir que siguiera mejorando sus respuestas se asociaba con ganancias de 20 puntos percentilares en el desempeño.

Extraído de
Martínez Rizo, F. (2012). Investigación empírica sobre el impacto de la evaluación formativa. Revisión de literatura. Revista Electrónica de Investigación Educativa, 14(1), 1-15.

miércoles, 12 de diciembre de 2012

Evaluación formativa, desde una perspectiva optimista

No hay comentarios:

Busca en mis blogs