Evaluación Escolar: La evaluación formativa, visión crítica

Hay casi unanimidad en el uso de las evaluaciones para mejorar el proceso, la evaluación “formativa”, “en proceso”, o “para aprender” puede y debe ser analizada críticamente, como se hace en los párrafos siguientes.

La noción de evaluación formativa (EF) denota las acciones hechas para valorar el avance de los alumnos en el desarrollo de conocimientos o competencias, buscando aportar elementos al maestro y a los alumnos mismos para adecuar sus esfuerzos para alcanzar las metas de aprendizaje establecidas, y no para emitir un juicio definitivo al respecto. La noción opuesta es la de evaluación sumativa.

Perspectivas críticas
La experiencia de la complejidad de los fenómenos educativos y la dificultad de introducir cambios que produzcan consecuencias importantes hace tomar con reservas los textos optimistas, que a veces parecen promover una panacea más que, tras cierto tiempo, provocará una desilusión tanto más fuerte cuanto mayores hubieran sido las expectativas inicialmente despertadas.

Esta idea se ve reforzada por las salvedades que contienen los mismos textos citados, que una lectura atenta no deja de advertir, y que en ocasiones se incluyen de manera tan expresa que sorprende que no sean atendidas por algunas lecturas posteriores. Confirma y refuerza la reflexión crítica sobre conclusiones demasiado optimistas un trabajo reciente de dos estudiosos de la Universidad de Arkansas, publicado con el título Una revisión crítica de la investigación sobre evaluación formativa. La limitada evidencia científica del impacto de la evaluación formativa en la educación. Al principio de su texto los autores señalan que:

Una creencia casi nunca cuestionada es que la investigación demuestra en forma concluyente que el uso de evaluación formativa facilita la mejora de las prácticas de enseñanza, identifica lagunas en el currículo y contribuye a aumentar el desempeño de los alumnos. Sin embargo… una revisión de la literatura reveló la limitada evidencia empírica que demuestra que el uso de evaluación formativa en el aula resulta directamente en cambios marcados en los resultados educativos. (Dunn y Mulvenon)

El texto comienza con una discusión sobre la forma en que se suele definir la noción de EF, los autores indica que la heterogeneidad al respecto es muy considerable, de manera que la tarea de analizar en forma rigurosa su posible impacto se dificulta mucho. El artículo analiza en particular la revisión de literatura hecha por Black y Wiliam, a la que se refiere el apartado anterior de este artículo, cuya influencia se puede apreciar por el elevado número de veces que se le cita en la revistas académicas.

En cierta medida, las investigaciones discutidas… apoyan el impacto de la EF sobre el rendimiento de los alumnos, pero en una medida mayor apoyan la necesidad de hacer investigaciones en las que diseños y metodologías más eficientes lleven a resultados más concluyentes… no argumentamos que la EF carezca de importancia, sino sólo que la evidencia empírica que existe para apoyar “las mejores prácticas” de EF es limitada. (Dunn y Mulvenon)

Otros trabajos recientes avanzan en la dirección señalada en el texto anterior, ya que utilizan acercamientos metodológicos más sólidos. Así lo muestra un análisis de investigaciones sobre programas de actualización para maestros en servicio que buscan mejorar sus habilidades en EF (Schneider y Randel).

En muchos casos los resultados fueron favorables a la hipótesis de que las prácticas de EF contribuyen a mejorar el aprendizaje; en un número menor no se encontraron diferencias significativas. Nuevamente la evidencia no es concluyente, pero sí parece inclinar la balanza en el sentido de las opiniones favorables a la EF.

Otro ejemplo interesante en el sentido que se comenta es el trabajo sobre EF, motivación y aprendizaje de las ciencias naturales, de Ma. Araceli Ruiz Primo et al., que los autores describen como sigue:

Un estudio de pequeñas dimensiones, aleatorizado, para someter a prueba la afirmación de Black y Wiliam de que la retroalimentación basada en EF produce un fuerte efecto positivo en el aprendizaje… el proyecto ponía a prueba una gran idea relacionada con la EF, que se podría obtener una gran ganancia en el aprendizaje con una inversión relativamente pequeña: incorporar a un currículo de ciencias utilizado en todo el país EF conceptualmente coherentes. (Ruiz Primo)

Después de explicar las características del estudio, cuidadosamente diseñado e implementado, los investigadores reportan los resultados relativos a los cambios esperados en los niveles de rendimiento de los alumnos como sigue:

Sorprendentemente los resultados no corroboraron la hipótesis (…) el grupo experimental no obtuvo resultados significativamente mejores que el grupo de comparación ni en las pruebas de rendimiento ni en las medidas de motivación. De hecho los alumnos del grupo de comparación tuvieron resultados promedio ligeramente mejores que los del grupo experimental, aunque no estadísticamente significativos (…) la brecha entre los alumnos de alto y bajo rendimiento en el grupo experimental no fue tan grande como en el grupo de comparación (…) (Ruiz Primo)

La revisión de videos de clases que se grabaron permitió buscar una explicación de esos resultados, revisando la fidelidad de implementación.

El estudio de implementación buscaba entender la relación entre el tratamiento (el currículo prescrito) y las mediciones del aprendizaje (el currículo logrado), para lo cual primero se sistematizó el currículo prescrito según la guía que se había dado a los maestros participantes, y luego se analizaron las grabaciones de clases para medir en qué grado los maestros realizaron las EF como se esperaba lo hicieran. El resultado fue que había considerables diferencias en cuanto a la forma de hacer las evaluaciones, lo cual parece reflejarse en un impacto diferencial en el rendimiento. La conclusión de los investigadores es la siguiente:

Black y Wiliam encontraron que la intervención que impacta el nivel de aprendizaje de los estudiantes es la retroalimentación. Hattie y Timperley encontraron además que la calidad de la retroalimentación impacta el grado en que ayuda a los estudiantes a mejorar. No debe sorprender que los estudiantes con mejores resultados sean los que tuvieron maestros que cierran mejor el ciclo de EF (…) usar información para ajustar enseñanza no fue bien implementado por muchos maestros del grupo experimental (…) con base en la evidencia recogida durante el estudio de implementación sabemos que, en general, los maestros conseguían que los alumnos compartieran sus ideas, pero que no conseguían utilizar la información para ajustar su propia enseñanza. Obviamente recomendar que se ajuste la enseñanza es más fácil que hacerlo. (Ruiz Primo)

Conviene precisar que la justificación del uso de estudios basados en diseños experimentales estrictos (que incluyan la asignación aleatoria de los sujetos a los grupos experimental y control) como soporte para llegar a conclusiones sobre el impacto de cierta intervención se justifica plenamente en principio, pues sabemos que, en ausencia de tal tipo de diseño, es problemático sacar conclusiones de tipo causal. Sin embargo, en la investigación educativa y social deben cuidarse otros aspectos para que un estudio pueda arrojar conclusiones sólidas.

En particular, es indispensable cuidar la llamada fidelidad de implementación a la que han aludido los dos últimos trabajos citados, y cuyo descuido es, al parecer, una de las deficiencias que más influyen para que los resultados de los trabajos sobre el posible impacto de la evaluación formativa no sean concluyentes. Como ha mostrado Raudenbush, en la investigación sobre el efecto de ciertos fármacos sobre el organismo es sencillo garantizar que todos los sujetos de un grupo experimental reciban un tratamiento idéntico (por ejemplo “X” dosis del fármaco) y que ninguno de los sujetos del grupo control lo reciba. En educación, en cambio, y aunque se haya dado cierta preparación a los participantes, es difícil asegurar, por ejemplo, que todos los maestros de un grupo experimental manejen prácticas de EF del mismo tipo y con idéntica calidad e intensidad, y que ninguno del grupo control utilice prácticas que puedan llevar a resultados análogos.

Por otra parte, un elemento más a tener en cuenta al estudiar el impacto de la EF tiene que ver con la dificultad de introducir prácticas novedosas, que se oponen a tradiciones muy arraigadas, como las que tienen que ver con la forma tradicional de evaluar que prevalece en las aulas desde hace muchos años. En el caso del sistema educativo mexicano, por ejemplo, si se analiza la normatividad sobre las evaluaciones que deben hacer los maestros se aprecia que casi no ha cambiado desde hace medio siglo, pese a que en ese lapso se puso de moda la pedagogía constructivista, surgieron y proliferaron las pruebas en gran escala y se comenzó a hablar de EF. Por ello no debería sorprender que muchos actores, incluyendo a maestros, pero también a alumnos y padres de familia, se sientan incómodos cuando se quiere introducir innovaciones como la que es objeto de este trabajo.

El último trabajo empírico que se revisa en esta sección tiene que ver justamente con esa resistencia, en el contexto de un sistema educativo en el que las nuevas formas de evaluación está mucho más extendido que en México.

Smith y Gorard reportan resultados de un estudio sobre las reacciones de alumnos que participaban en un proyecto que incluía la práctica de no dar calificación numéricas, como suele hacerse, para desalentar la tendencia a trabajar en función de la nota, y no por un interés intrínseco por el aprendizaje. Cuando se preguntaba a esos estudiantes cómo se sentían, las respuestas eran diversas, pero:

(…) un número considerable de alumnos tenían opiniones bastante negativas, particularmente porque, en su opinión, el hecho de no recibir calificaciones no les permitía saber cómo orientar sus esfuerzos… cuando se preguntaba si los comentarios que recibían eran útiles, la mayoría opinaba que no les daban suficiente información para saber cómo mejorar. Tampoco pensaban que el recibir calificaciones estigmatizaría a los de bajo rendimiento… el deseo de recibir calificaciones era tan fuerte que algunos admitían que intentaban calcularlas. Esto era particularmente marcado en materias como matemáticas y lengua, en relación con las cuales los chicos admitían que sumaban las palabras bien deletreadas en pruebas de vocabulario, para calcular la calificación que habrían recibido. (Smith y Gorard)

Extraído de
Martínez Rizo, F. (2012). Investigación empírica sobre el impacto de la evaluación formativa. Revisión de literatura. Revista Electrónica de Investigación Educativa,
14(1), 1-15. Consultado en http://redie.uabc.mx/vol14no1/contenido-martinezrizo12.html

martes, 20 de noviembre de 2012

La evaluación formativa, visión crítica

No hay comentarios:

Busca en mis blogs