sábado, 25 de octubre de 2008

Evaluación en Educación

Si bien siempre fue una palabra muy usada en el ámbito educativo, cada vez más parece ampliar su significado. Tradicionalmente se refería a evaluar a alumnos, pero hoy se concibe la idea de ampliar el espectro de lo evaluable.

Se trata de evaluar no sólo al alumno, sino al sistema educativo, tanto a nivel nacional como a las distintas jurisdicciones, evaluar a las instituciones, ya sea en forma general, o parcial, como puede ser su gestión, su relación con los padres, con la comunidad, a los docentes, etc.

Como primer paso podemos determinar distintas categorías de evaluación, se puede hablar de evaluación de sistemas, de instituciones y de personas.

Pero cabe preguntarnos, ¿Bajo qué óptica evaluar?, ¿Para qué evaluar?. Tradicionalmente se evaluó bajo un paradigma del control, lo que significa en el caso de los alumnos, para acreditar, y en las instituciones y sistemas constituye una rendición de cuentas ante la sociedad.

Se concibió la idea de evaluar como un esfuerzo para lograr información para la toma de decisiones, pero hoy no puede dejar de considerarse como una postura ingenua, toda persona que deba tomar decisiones se dejará influenciar por diversos factores, y le resultará prácticamente imposible dejarse determinar por el resultado de una evaluación, que por lo general no resulta indiscutible.

Esta idea de evaluar para la búsqueda de informaciones como insumo para la toma de decisiones fue reemplazada por un criterio “iluminativo”, o sea para conocer mejor, para alumbrar el camino y poder “ver” mejor, y entonces tener más posibilidades de tomar decisiones oportunas, lo cual fundamentalmente cambia el sentido del tiempo, o sea no se evalúa para obtener ahora mismo resultados, sino que es posible que los beneficios sean logrados en el futuro.

Evaluación de sistemas
La evaluación de sistemas educativos tiene en nuestro país una corta trayectoria, de aproximadamente una década, y la adhesión a las evaluaciones internacionales es sólo excepcional, pero existen países con gran tradición, como los anglosajones.

En los EEUU, a partir del lanzamiento por parte de la desaparecida URSS del primer satélite artificial (el Spultnik), se vio conmocionada ante la sensación de ser superada tecnológicamente por su rival el la “guerra fría”. A partir de entonces centraron su mirada en la escuela, y se preguntaron porqué no era capaz de producir el material humano necesario que le permitiera avanzar más rápidamente en las innovaciones tecnológicas.

Se realizaron entonces importantes inversiones en el campo educativo, con el supuesto que eso le permitiría a largo plazo recuperar el liderazgo perdido. Una década después, ante la necesidad de evaluar el impacto de las acciones llevadas a cabo, se difunde el informe Coleman, cuya conclusión más importante es sumamente pesimista en cuanto a la capacidad de la escuela para modificar la realidad de los sectores socialmente más postergados. Dicho en otras palabras, los factores contextuales, como el nivel socioeconómico y sociocultural, eran considerados decisivos en la producción de resultados.

Si bien esta conclusión se mantiene en pie, el informe Coleman recibió fuertes críticas, dado que sus conclusiones estaban fuertemente determinadas por la metodología usada. Allí se consideraron solamente variables de ingreso (como las características de los alumnos) y de egreso (los resultados que obtuvieron), bajo un modelo de “caja negra”, o sea que no se consideraron los procesos que se llevaban a cabo en las escuelas.

Luego a partir de estudios, principalmente sobre las escuelas excepcionales (tanto las que obtenían mejores o peores resultados de lo esperable), se comenzó a analizar variables que dependían de la escuela, como el liderazgo del director, las expectativas sobre los docentes y alumnos, la organización etc.

Se puede entonces establecer una serie de características que reúnen las escuelas eficaces, pero esto no significa una relación causa-efecto, o sea que por más que consigamos todas esas características en una escuela de alumnos pobres, no necesariamente se obtendrían buenos resultados.

Situación actual
Ahora estamos en un paradigma de la colegialidad, quedó atrás el trabajo individualista del docente, se trata de lograr un trabajo compartido, dado que fundamentalmente, los docentes de un mismo centro comparten el contexto.. Es entonces el Centro Educativo la unidad de análisis.

Son precisamente los Centros más maduros los que aceptan el desafío de una evaluación institucional, “para mejorar lo que ya se está haciendo bien”, pero fundamentalmente ante la falta de tradición en lo que a evaluación institucional se refiere, resulta muy difícil que un centro acepte ser evaluado voluntariamente.

Muchas veces se recurre a la evaluación del sistema para evaluar centros, pero por lo general, los docentes no identifican su labor profesional, con los resultados, adjudicando estos a las variables contextuales, haciendo inútil todo esfuerzo al respecto.

La idea de que se puede evaluar los centros a partir de una aplicación directa de resultados de evaluaciones de sistemas, parte del supuesto de la negación de variables de contexto y de que la noción de calidad educativa puede ser impuesta desde afuera.

Por lo tanto, para que se pueda efectuar una adecuada contextualización de los resultados de una evaluación de sistema, en cada centro, se debería cumplir una serie de requisitos, y una vez cumplidos estos, son los integrantes del centro los que deben ofrecer una noción de calidad educativa, lo que debería constituir el núcleo inicial de todo PEI, y a partir de ello, ofrecer a la sociedad cual es su “efecto escuela”, o sea cuales son las características del centro que hacen conveniente que una familia les encargue la educación formal de sus hijos.

Por lo tanto, en épocas de admisión de la diversidad, donde cada centro debe atender a la misma, es necesario un nivel central de conducción fortalecido, con capacidad para:
· Apoyar a los centros en el cumplimiento de su misión
· Fortalecer políticas destinadas a asegurar la equidad (componente esencial de la calidad)
· Ofrecer elementos para la adecuada contextualización de las encuestas de calidad, o sea que establezca que a determinado nivel sociocultural cuáles son los niveles de logro, indicando intervalos esperables, ante los cuales los establecimientos educativos podrían autoimponerse metas realistas.
· Estimular la autoevaluación institucional, ofreciendo a los establecimientos instrumentos de evaluación ya probados, en todas las áreas, con su correspondiente estandarización, lo que permitiría a cada escuela interpretar adecuadamente el nivel de resultado alcanzado.

En nuestro país, no se han realizado trabajos sobre las encuestas de calidad educativa, que permitan cumplir con estos dos últimos puntos, muchas veces han sido utilizadas como parte de un discurso político, interpretando los datos de forma interesada, y luego de una década, podemos observar que nos queda por recorrer un camino más largo que el recorrido.

Reportaje a Santos Guerra

"Lo que importa es saber a qué valores sirve la evaluación"

¿Son valiosas las evaluaciones masivas, uniformes, estandarizadas, cuantitativas y comparativas de los centros, basadas en el rendimiento de los alumnos?
Esas precisamente, no. Cada objetivo que ha utilizado en la pregunta es una razón diferente para la negativa.
Cuando una evaluación está descontextualizada no puede llegar al corazón de los significados, cuando es meramente cuantitativa no podrá descifrar lo que sucede en una realidad compleja, cuando está masificada es difícil que llegue a interesar a los evaluados.
Todavía hay más problemas: los que se refieren a la manipulación de la evaluación por parte de los que tienen poder. La evaluación puede utilizarse para jerarquizar, para castigar, para comparar, para clasificar...
“Los abusos de la evaluación" es el título de uno de mis trabajos.
Todos los abusos que allí escribo los he vivido en mi propia carne.
De estas ideas se desprende que no toda evaluación es positiva y deseable. He dicho que no importa tanto evaluar (ni siquiera evaluar bien) cuanto saber a qué personas y a qué valores sirve la evaluación. La evaluación, más que un fenómeno de naturaleza técnica, es un proceso que tiene un trasfondo moral.

¿Qué podría tenerse en cuenta para elaborar un proyecto de evaluación de centros y profesores que intente ser alternativo de un modelo tecnocrático, eficientista y economicista?
Que tenga un control democrático, como ya he dicho.
Que esté atento a los procesos y no sólo a los resultados.
Que libere la voz de los participantes en condiciones de libertad.
Que esté encaminado a la mejora y no a la medición o a la comparación o a la clasificación.
Que esté atento a los valores (los de la institución y los de la sociedad)
Que esté inspirado en principios éticos.
Que respete a las personas.

¿Qué sugerencias podría hacerle a los directivos que quieren iniciar el proceso de evaluación en sus centros, pero temen el rechazo del profesorado? ¿Cómo podría negociarse esa transición?
En primer lugar, tienen que estar convencidos ellos mismos de la importancia y la necesidad de estos procesos. En segundo lugar, tienen que jugar limpio y no excluirse de los procesos de evaluación. La evaluación tiende a jerarquizarse.
Si los equipos de conducción tienen un talante democrático podrán negociar de forma limpia y transparente. No hay forma más bella y convincente de autoridad que el ejemplo.

Cinco Razones
Desde la conducción de un centro, o a partir de un grupo de docentes más sensibilizados por el tema ¿se puede contribuir a generar conciencia en el resto de la comunidad educativa? ¿Cómo?
Esa conciencia nace de las razones que respaldan un proceso de evaluación y que sintetizaría en las cinco siguientes:

El primero es el principio de racionalidad. No es lógico hacer un proyecto para una escuela y no saber qué es lo que sucede con su desarrollo. Es más lógico preguntarse qué es lo que sucede con aquello que se pretende. La evaluación responde a esa pregunta elemental: ¿Se puede saber qué es lo que estamos haciendo y cómo lo estamos consiguiendo?

Otro principio es el de responsabilidad: no da igual cómo hacemos las cosas. La educación es una práctica moral, cargada de consecuencias. Hay que preguntarse por la calidad de lo que se hace en un Centro.
Sería indecente que en un Hospital saliesen de las consultas los pacientes con un mal diagnóstico que les haga empeorar o morir.
¿Sería justo que se negasen los profesionales a pensar en lo que hacen y a mejorarlo bajo la excusa de que tienen mucho trabajo o de que no les pagan por pensar o de que tienen miedo a lo que se descubra?

¿Cuáles son los otros principios o razones que usted considera?
Otro es el principio de colegialidad: la evaluación de la institución permite hacerse una pregunta compartida.
¿Qué es lo que estamos haciendo juntos? No basta la evaluación que se hace de los alumnos. No basta una pregunta individual: ¿cómo lo hago yo? La balcanización de los Centros (Hargreaves, 1996) es una enfermedad que empobrece la práctica educativa y, sobre todo, a los profesionales que la desarrollan.
También el principio de profesionalidad: hay muchas formas de desarrollo profesional.
Una de las más potentes es la reflexión rigurosa sobre la práctica que brinda la evaluación. Para ser mejores profesionales podemos hacer lecturas, asistir a congresos, escuchar a expertos...
Pero es mucho más interesante descubrir las características de las prácticas y aprender de ellas.
Y por último, El principio de perfectibilidad: se puede mejorar un Centro educativo de muchas maneras: a través de leyes, de medios materiales, de disposiciones...
Pero es más efectiva la comprensión que se deriva de la evaluación y que nos pone en condiciones de tomar decisiones acertadas de mejora. Pues bien, los equipos de conducción pueden avivar el diálogo con sus colegas sobre los motivos que pueden impulsar la evaluación y sobre las ventajas de la misma.

¿Qué instrumentos variables, confiables y válidos, pero que a la vez permitan abarcar la complejidad e imprevisibilidad de lo que se quiere evaluar, podrían utilizarse para la evaluación de docentes y de centros?
He dicho en "Hacer visible lo cotidiano" que los métodos que se utilizan para evaluar los centros tienen que tener diversidad, adaptabilidad, sensibilidad, circularidad y gradualidad.
No puede conocerse una realidad compleja a través de métodos simples. No es posible tener un conocimiento riguroso a través de un solo tipo de métodos. Los cuestionarios, por ejemplo, no permiten saber si quien responde dice lo que piensa ni si eso que piensa es lo que realmente sucede...
Por eso se habla de la triangulación de la información proveniente de diferentes métodos como una garantía de la validez de la información.
Los métodos más importantes son la observación sistemática y prolongada, la entrevista a los participantes, el análisis de los documentos, los debates en vivo... En realidad, puede ser utilizado cualquier método que permita obtener una información fidedigna sobre lo que sucede en el Centro.

¿Qué se entiende por "sentido democrático de la evaluación"? ¿Podría este sentido de la evaluación contribuir a subsanar los temores y resistencias?
El sentido democrático de la evaluación tiene que ver con todo el proceso: Con la iniciativa, ya que parte de los evaluados y no exclusivamente del poder, con el control de las condiciones, exigencias y principios que rigen la evaluación, con la negociación inicial en la que se plantean las condiciones, las fases, los criterios, los ámbitos; con la negociación de los informes, que pueden ser modificados a instancias de los participantes (al menos han de plasmarse sus discrepancias literalmente si es que no se ha llegado a un acuerdo...). Y con la finalidad y el sentido de la evaluación, claramente enfocados a la mejora de la práctica...
En la evaluación democrática, nadie (ni grupos ni personas) tiene el privilegio de la verdad absoluta, sino que la verdad se va construyendo con las aportaciones de todos. La evaluación es una plataforma de debate para la comprensión de la práctica educativa.
Las intervenciones que se derivan de ella tienen múltiples direcciones, unas tienen carácter ascendente e interpelan a quienes están en el gobierno, otras afectan al profesorado. Otras, finalmente, a las familias y a los alumnos. Por todo ello se ve que es esencial la devolución de los informes a los protagonistas, si ellos tienen los informes, no podrá manipularse fácilmente la evaluación.
Barry McDonald y Ernest House han hablado ya desde hace años de la evaluación democrática y de sus exigencias.

¿Cuáles son las "patologías de la evaluación educativa" más frecuentes, en lo que se refiere a evaluación de profesores y centros?
Este es el título de uno de mis trabajos sobre evaluación educativa. Enumeraba en él (y describía brevemente) 23 enfermedades de la evaluación de los alumnos y alumnas.
También la evaluación de las instituciones tiene sus patologías: el evaluar por el mero hecho de evaluar, el poner la evaluación al servicio del dinero o del poder, el comparar de forma tramposa para favorecer a los ya privilegiados...
Hay que estar alerta para que la evaluación sea un verdadero, instrumento de comprensión y de mejora.
Para ello es necesario poner en marcha procesos de metaevaluación (es decir, de evaluación de evaluaciones).

¿Quiénes sería conveniente que participen en la evaluación del profesorado y de los centros?
Los profesores son los verdaderos protagonistas de la evaluación. Pueden ser ayudados por facilitadores externos. Cuando éstos intervienen, no son los que emiten un juicio incontestable sobre su actividad sino que ayudan a los profesionales a emitir un juicio más riguroso.

¿Qué implica hablar de necesidad de que la evaluación sea un proceso de diálogo, comprensión y mejora?
La evaluación es un proceso de gran complejidad. Todavía no existe una cultura de la evaluación y una cultura no se improvisa, no aparece asentada por una ley.
Hay que tener cuidado con las experiencias que se realizan para que no dejen un rastro de dolor y decepción
Hay que destruir muchos mitos y errores sobre la evaluación. Miedos previos, prejuicios, temores, falsas expectativas... La mejor manera de hacerlo será realizar experiencias en las que las personas se sientan respetadas y ayudadas. En la evaluación hemos de ser honestos, no duros y, mucho menos, crueles. El conflicto no siempre es negativo, conviene analizarlo, ver cuál ha sido su génesis y tratar de aprender lo que nos enseña.




Revista "Aula Hoy", Año 5, N° 15. Abril/Mayo 1999

domingo, 19 de octubre de 2008

Evaluación de instituciones educativas procesos de mejoramiento institucional, reformas e innovaciones.

Procesos de identificación y selección de problemas, innovaciones y seguimiento.
Teniendo en cuenta el uso de la evaluación como brújula que orienta el camino hacia la calidad de una institución escolar, los planes de evaluación deberán cumplir con ciertas pautas de organización que permitan transitar ese camino del mejoramiento.

Existen diversos modos de evaluar, métodos, e ideologías, elijo una metodología que permita ante todo concebir a la evaluación desde una filosofía y una ética en la cual se la entiende como actividad comprometida moral y socialmente con el proceso educativo, de manera tal que sirva para transformar allí en dónde lo que aparece como bueno para algunos no resulta justo para todos.

Esto requiere unos modos de trabajo que impliquen:
· la democratización de las estructuras de funcionamiento escolar
· la participación de los actores implicados
· la autocrítica y el reconocimiento de los problemas
· el trabajo en equipo, colegiado.
· la generación de proyectos o planes de mejora institucional
· la responsabilidad pública

Algunas condiciones:
ð Para lograr esto se requiere entre otras condiciones del liderazgo (de equipo de conducción u otros) centrado en la dimensión pedagógica de la escuela y que motorice este proceso de evaluación. Si el líder pedagógico coincide con el liderazgo formal de la institución (director/ rector/ etc, etc.), tanto más allanado quedará el camino.
ð Un equipo docente comprometido y dispuesto al cambio y la mejora, pueden no ser todos, pero algunos deben llevar el timón si se pretende iniciar un proceso de evaluación para la mejora.
ð Tiempos y espacios organizados para lograr realizar las tareas necesarias.
ð Una decisión institucional que permita construir un marco ara la acción evaluadora, es decir generar o construir autonomía para el desarrollo de los propios procesos de revisión interna.
ð En los casos en que fuera posible contar con apoyo externo para la tarea, puede ser de gran utilidad.

¿Qué es un problema?
¿Cómo reconocemos qué es un problema ?¿Cómo determinamos si el problema a su vez es importante?
El diccionario nos ayuda con algunas definiciones.
Un Problema es:
“Un asunto difícil, delicado, susceptible de varias soluciones”.
“Una proposición dirigida a averiguar el modo de obtener un resultado, conocimiento, datos etc.”
Miguel A. Quintanilla define problema como:
Una situación que no encaja con las expectativas, un desajuste en la estructura conceptual o bien un desajuste en la realidad.”

Todas estas definiciones nos acercan a una conceptualización más clara de lo que es un problema.
Las notas que caracterizan al problema entonces son:
· un cierto grado de dificultad reconocida
· la posibilidad de soluciones alternativas
· el inicio de algún tipo de indagación
· un desajuste en relación a algún punto referencial.

Recordemos que nuestro interés de definir qué es un problema se centra en la importancia que esta actividad tiene para la evaluación y para la realización de un proyecto.
De las notas que caracterizan un problema podremos decir que en relación al PEI (proyecto educativo institucional), son todas ellas importantes ya que:
Por un lado podemos definir un problema cuando hemos planteado
a) una imagen objetivo (un deseo de que la situación se transforme en alguna dirección)
b) establecemos además un punto de partida (análisis de la situación inicial)
c) determinamos la distancia que separan a la imagen objetivo de la situación inicial.

El problema entonces se presentará bajo la forma de desajuste, en el camino o distancia entre la situación actual o punto de partida inicial y la situación deseada.

Será preciso seleccionar dentro de los desajustes presentes, cuáles son los que de algún modo nos alejan más de la imagen objetivo.
Entonces seguramente serán definidos como los principales problemas a resolver.

La imagen objetivo en una institución educativa se define a partir del acuerdo acerca de lo que entendemos por calidad educativa, esta definición de calidad será el referente que nos permitirá visualizar los problemas más relevantes.

Será un problema, entonces, una situación que nos aleja de lo que hemos definido como calidad educativa.
Si la dificultad se formula como un problema, dará lugar a varias alternativas (variantes) para encarar su solución, alternativas que intentarán acortar la distancia respecto del referente que es la imagen objetivo propuesta (utopía posible, definición de calidad).

Para decidir u optar por una alternativa de solución posible, se debe estudiar el problema a fondo una vez que ha sido seleccionado por su relevancia.

Este estudio a fondo de los problemas seleccionados requiere de una indagación que implica la búsqueda de información, de datos, representaciones de los actores, ideas, es decir que el problema abre un campo de investigación -acción en la escuela. Un proceso de evaluación (búsqueda de información y emisión de un juicio valorativo).

¿Por qué decimos investigación-acción? Porque un proyecto de evaluación educativa implica necesariamente indagar sobre la realidad y a la vez accionar sobre ella modificándola. La evaluación institucional es un proceso que se realiza para actuar en consecuencia, implica necesariamente un uso instrumental de la información recogida.

Podemos decir entonces que se abre un movimiento circular que implica:
Ver Comprender Actuar.

No se evalúa sólo para conocer (ver) una determinada realidad, se intenta con esa mirada también su posible cambio o modificación.

Volvamos por un momento a la relación entre calidad y problema…
Un problema no puede identificarse sin algún referente.
Si decíamos hace un momento que un problema es un desajuste, ¿lo es respecto de qué?
Es el referente lo que determina al problema, siguiendo el ejemplo anterior, la dificultad para el uso de la biblioteca es un problema (un desajuste, una dificultad, pero lo es para quienes tienen como referencia de calidad, el uso de material bibliográfico, la necesidad de investigación, la búsqueda de información, su clasificación y selección como parte esencial en un proceso de aprendizaje significativo). Para quienes estas ideas no son un referente, no habría tal problema.

Por lo tanto, la institución educativa, todos sus actores, deben definir los rasgos que identifican en esa institución una educación de calidad, ya que esa definición funcionará como referente en el momento de pensar los problemas, permitirá identificarlos, jerarquizarlos y seleccionarlos con algunos criterios validados en forma consensuada.
Para finalizar
Una vez identificados y seleccionados dichos problemas darán lugar a:
1. explicaciones respecto del problema en cuestión, determinación de causas, efectos consecuencias
2. líneas de acción y proyectos específicos como parte de la búsqueda de alternativas u opciones para su solución. Estos proyectos son compromisos de acción que definen finalmente el PEI.
La selección de un problema implica discriminar aquello que es más relevante dentro de un conjunto amplio de dificultades.

La relevancia se determina en función de los criterios y parámetros que se hayan discriminado en función de la definición de calidad.

sábado, 18 de octubre de 2008

Calidad de las evaluaciones

A continuación transcribo unos párrafos de la obra “La evaluación de los aprendizajes en el debate didáctico contemporáneo” Ed PAIDÓS Buenos Aires Barcelona México la. edición, 1998 ISBN 950-12-2129-6
LA CALIDAD DE LOS PROGRAMAS DE EVALUACIÓN Y DE LOS INSTRUMENTOS QUE LOS INTEGRAN Alicia R. W. de Camilloni

LOS DETERMINANTES DE LA CALIDAD DE LA EVALUACIÓN
Un programa de evaluación y cada uno de los instrumentos de evaluación que lo integran deben cumplir con ciertas condiciones. Mencionaremos aquí algunas de ellas: debe permitir evaluar los aprendizajes que la institución y el o los docentes esperan que los alumnos desarrollen. Las consignas de trabajo que integran el instrumento deben ser seleccionadas, en consecuencia, de modo de permitir que tanto la presencia de una respuesta como su ausencia sean significativas en relación con los aprendizajes que se ha buscado promover. En términos generales, las consignas no deben producir respuestas que resulten irrelevantes para la evaluación de los aprendizajes previstos. Esto no significa, sin embargo, que se descarten las respuestas irrelevantes de los alumnos cuando aparecen, ya que a través de esos resultados en apariencia disfuncionales, a veces incomprensibles, el docente puede advertir errores que sí pueden ser altamente significativos y que requieren especial atención. El instrumento, aunque siempre haga una lectura parcial de lo aprendido por los alumnos, debe proponerse registrar no sólo los éxitos y fracasos sino también el origen de esos fracasos. El instrumento debe presentar el grado de organización suficiente para que la apreciación que efectúa del aprendizaje permita desprender algunas conclusiones acerca del desempeño presente y futuro del alumno, en cuestiones específicas pero también con visión integral.

Cada uno de los instrumentos de evaluación resuelve estos problemas de diversas maneras. Actúa como un reflector que en el escenario ilumina a algunos personajes y deja en la penumbra a otros, que sin embargo están allí, presentes, pero con una clase diferente de presencia. Por esta razón, la elección de los instrumentos de evaluación adecuados a la hora de diseñar el programa de evaluación de un curso, por ejemplo, constituye una de las decisiones más importantes para garantizar el valor didáctico de la evaluación en relación con los procesos de enseñanza y de aprendizaje.

Existe una variedad de modelos de instrumentos de evaluación. Cada uno de ellos, tomado aisladamente, es insuficiente para obtener información sobre el aprendizaje de los alumnos. EL diseño del programa exige, pues, la combinación de instrumentos diversos para obtener una cobertura adecuada. La eficacia de la evaluación depende, entonces, de la pertinencia de la combinación de diferentes instrumentos, de la oportunidad en que se administran y de la inteligencia y propiedad del análisis e interpretación de sus resultados.
Veamos, entonces, los criterios o requisitos que deben tenerse en cuenta en el momento de tomar decisiones acerca del programa de evaluación de un curso, por ejemplo, y sobre cada uno de los instrumentos de evaluación que lo integran. Las características generales que los instrumentos de evaluación deben reunir, aunque con distinto grado de relevancia, son cuatro: validez, confiabilidad, practicidad y utilidad.

VALIDEZ
Se dice que un instrumento de evaluación es válido cuando evalúa lo que se pretende evaluar con él. Como un instrumento es utilizado para apreciar ciertos logros de aprendizaje de un cierto grupo de alumnos en una cierta circunstancia y en un cierto momento de su proceso de aprendizaje (al inicio, en el transcurso o al final), la validez de un instrumento no puede ser determinada de manera absoluta, sino siempre en relación con su adecuación a los propósitos y situación específica de su aplicación. Como lo señala Henry E. Garrett (1966), "un test es válido para un propósito particular o en una situación especial; no es universalmente válido". Cuando se quiere determinar si un instrumento es válido se requiere, entonces, información acerca de los criterios que han presidido su construcción y su administración. Los criterios son, entonces, externos a la evaluación misma. Esta cuestión sería relativamente simple de resolver si todos los propósitos de la enseñanza, en todos los niveles de decisión y para todos los actores, fueran coincidentes. Pero rara vez ocurre esto. A veces los objetivos del docente coinciden plenamente con los de la escuela y los de ésta con los de la jurisdicción y los de esta última con los de la nación. Pero la plena armonía de todos esos niveles parece más improbable que posible de alcanzar y, más aún, ni siquiera se puede afirmar que, en lo pormenorizado de los aprendizajes escolares, sea absoluta y efectivamente deseable.

Las diferencias en la educación surgen de la acción y la resolución de cada docente y de cada alumno. Se podrán encontrar, en consecuencia, criterios generales, pero también criterios diferentes. Y no tiene sentido hablar de la validez de un instrumento si no se ha validado el criterio. Para lo cual se requiere, a su vez, una validación mediante criterios más amplios. Según Robert L. Ebel (1963), "esto requiere un criterio para validar el otro criterio y así sucesivamente ad infinitum .

En la Didáctica, ese proceso de validación al infinito podría ser reemplazado por una teoría de bases firmes, tanto desde un punto de vista científico como filosófico. De otra manera, y ante la obligación ineludible de evaluar a sus alumnos, los docentes se encontrarían en la situación de ser incorporados como nuevos personajes, junto a Aquiles, la tortuga y la flecha, de las aporías de Zenón de Elea.

No se trata, en consecuencia, de validar instrumentos y criterios como en un juego de permanente retroceso hacia los principios, sino de apoyarse en principios didácticos fuertes, con cierto grado de generalidad y que permitan fundamentar racionalmente las decisiones de diseño del programa y de los instrumentos. Veámoslo en algunos ejemplos.

Si para un docente el propósito principal de su enseñanza ha sido procurar que sus alumnos aprendan a resolver un cierto tipo de problemas, el instrumento de evaluación válido será aquel que introduzca problemas al alumno para que éste los resuelva. Deberá tener presente, sin embargo, que no obtendrá la misma información acerca de lo que sus alumnos saben cuando en el instrumento se plantean problemas que corresponden sólo al tipo de problema cuya solución los alumnos deben hallar, que si también incluyen otros problemas de tipos diferentes, de modo que los estudiantes deban reconocer a qué tipo de problema corresponde cada uno de los planteados por el docente. Se podría afirmar que, en tanto el propósito didáctico no habría de ser que el alumno resuelva sólo una clase de problemas, la capacidad de discriminar clases de problemas debería estar presente en la formulación de los propósitos de un programa de enseñanza, por lo que esa segunda alternativa, que incluye diversos tipos de problemas en el instrumento, es más válida que la primera, que presenta solamente un único tipo de problema. Así, pues, para lograr que la construcción del programa o de un instrumento de evaluación sean válidos, es menester poner en juego no sólo una lectura fragmentada de los propósitos de la enseñanza sino principios didácticos más generales.

En otro sentido y refiriéndonos a otro ejemplo, veamos el papel que tiene el tipo de instrumento: si se trata de construir un examen oral o un coloquio válidos, hay que definir previamente preguntas centrales. Éstas deben referirse a cuestiones fundamentales del dominio de conocimiento que el alumno debe aprender. Pero la validez no llega a estar asegurada de este modo ya que en estos tipos de instrumentos de evaluación, el examen oral y el coloquio, la característica que les es propia y que hay que desarrollar adecuadamente es la elaboración de preguntas o comentarios del docente a partir de las respuestas del alumno. Si ellas no le permiten al alumno corregir sus respuestas anteriores, por ejemplo, o no lo animan a profundizar respuestas que inicialmente eran superficiales, o si no lo inducen a la elaboración de asociaciones y conclusiones reuniendo respuestas fragmentarias, la técnica del examen oral o del coloquio están mal empleadas y podrían ser reemplazadas por un instrumento de respuesta escrita. Como se ve, la validez de los instrumentos también depende de su apropiada construcción en relación con las características específicas que los definen.

Se puede observar, a través de lo expuesto hasta aquí, que la validez nunca es absoluta. En primer lugar, porque siempre debe ser referida a un criterio externo. En segundo lugar, porque sólo se puede hablar de validez mayor o menor, ya que un instrumento nunca es "completamente" válido pues sólo permite hacer inferencias acerca de los saberes de los alumnos. Y finalmente, porque la validez está condicionada a un ajuste que nunca puede ser perfecto entre el saber aprendido que se quiere evaluar y los medios técnicos, esto es, los instrumentos disponibles para evaluarlo. Con frecuencia se obtiene mayor validez a través de la combinación feliz de distintos tipos de instrumentos.

Se diferencian diversas clases de validez. Desarrollaremos sintéticamente sus principales modalidades.

Validez de contenido
Se dice que un instrumento tiene validez de contenido cuando representa una muestra significativa del universo de contenido cubierto por el curso o la unidad didáctica, la clase o una serie de clases. La validez de contenido, por lo tanto, requiere que la selección de contenidos que se ha efectuado para construir el instrumento sea equivalente a la de cualquier otro conjunto de contenidos que se hubiera podido seleccionar con ese fin. Se trata, por supuesto, en todos los casos de contenidos importantes por su significación en el aprendizaje de los alumnos.
La dificultad que la construcción de un instrumento debe superar es la necesaria distancia que existe entre la gran cantidad y variedad de los contenidos de toda enseñanza y la brevedad exigida también para los tiempos destinados a una evaluación de los aprendizajes, si no se quiere fatigar a los alumnos, lo cual conduciría a desvirtuar el significado cognitivo de sus respuestas.

Esa distancia obliga al docente a elegir los temas, informaciones, competencias, habilidades, destrezas, procedimientos u otros que incluirá en el instrumento de evaluación. Cuanto mayor es la diferencia entre tiempos destinados a la enseñanza y al estudio y tiempos destinados a la evaluación, más difícil es lograr una validez de contenido aceptable, es decir, que permita asegurar que los resultados obtenidos por el alumno en una instancia de evaluación serían semejantes a los que obtendría en otra distinta. La justicia de la evaluación se pone en juego, entonces, cuando se efectúa el muestreo de los contenidos que se incluirán en el instrumento a través de las consignas de trabajo (por ejemplo, las preguntas) que éste presenta.

La validez de contenido es también llamada "validez curricular" porque el criterio externo que se emplea para garantizar esta clase de validez es el diseño curricular, ya que en éste se expresan los propósitos y los niveles de aprendizaje, las secuencias y las sugerencias sobre estrategias e incluso, en ocasiones, sobre actividades de aprendizaje y modalidades de evaluación. Con la libertad que debe caracterizar al manejo del diseño curricular por parte del docente, es indudable que este diseño es un recurso fundamental sobre el que se apoyará la estimación acerca de la validez de contenido de un instrumento de evaluación, así como la fuente en la que el docente encontrará la principal inspiración para realizar una selección adecuada y representativa de los contenidos de su curso. Es preciso recordar que cuando se habla de "contenido" se hace referencia a un concepto amplio que comprende todo lo que se quiere enseñar. Se incluyen, por tanto, informaciones, conceptos, principios, procedimientos, valores, actitudes, hábitos, destrezas motrices y todo aquello que se tiene el propósito de que los alumnos aprendan.

En virtud de que lo que se enseña varía de clase en clase, de docente a docente y de región a región, la validez de los instrumentos también es limitada en relación con sus alcances.

Validez predictiva
Esta clase de validez se refiere a la correlación existente entre los resultados obtenidos en una o varias pruebas combinadas y el desempeño posterior del alumno en aquellos aspectos que corresponden al área evaluada por esas pruebas. Los instrumentos de evaluación que se emplean en la escuela deben tener validez predictiva escolar y extraescolar y deben contribuir a pronosticar los éxitos y dificultades de los sujetos del aprendizaje tanto en los aprendizajes posteriores de las asignaturas escolares cuanto en sus desempeños ocupacionales o en su actuación social en general.

Un nivel significativo en la validez predictiva es una condición para un buen instrumento de evaluación. Y esto es así por cuanto no hay aprendizaje escolar cuyo único fin consista en procurar una única ejecución exitosa en un espacio escolar y un tiempo muy limitados. El mismo fin de la educación se define por la voluntad expresa de quien enseña de que los aprendizajes trasciendan el espacio y el tiempo escolares. Es el destino mismo de la educación buscar la perdurabilidad de los aprendizajes. De ahí que, aunque haya algunos instrumentos cuyo propósito específico es la predicción -como es el caso de las pruebas de admisión-, todo instrumento de evaluación empleado con fines pedagógicos tenga, entre otras, la función de predecir. Como antes dijimos, la validez de un instrumento no es absoluta, siempre es limitada. Pero el seguimiento de los alumnos para comprobar la capacidad del instrumento para efectuar predicciones adecuadas es una operación de medición relativamente sencilla, al alcance de todos los docentes que deben encararla como parte constituyente de sus programas de evaluación. Comparar los resultados obtenidos por cada alumno en pruebas diferentes, separadas en el tiempo y en las que el docente asume que hay relación entre los contenidos, es una tarea interesante a la hora de evaluar la enseñanza impartida. Si en una prueba se han detectado errores en las repuestas y se ha brindado atención especial a los alumnos que tenían esas dificultades específicas, el seguimiento de los resultados en una prueba posterior demostrará, a la vez, la validez de la prueba anterior y la adecuación del tratamiento didáctico de los errores que se ha encarado en la acción de enseñanza.

Debemos señalar, sin embargo -aunque esto no exima al docente de hacer el esfuerzo de evaluar la validez predictiva de los instrumentos que utiliza- que los aprendizajes que la escuela promueve tienen plazos más o menos prolongados para su logro pleno. Se han de diferenciar aquellos logros que el alumno puede demostrar en un plazo muy corto, casi contemporáneo con el período de su enseñanza en la escuela, con los aprendizajes que requieren un período algo más prolongado de procesamiento, trabajo y elaboración para una apropiación profunda y aquellos otros aprendizajes que, por el alcance temporal que tiene la maduración personal que requieren, no podrían ser evaluados durante la permanencia del alumno en la institución educativa y ni siquiera en un lapso próximo a su egreso. En estos últimos casos la apreciación de la validez predictiva de los instrumentos se ve limitada por razones técnicas difíciles de superar por el docente y por la institución. Queda en pie, empero, la necesidad de poner atención constante en la capacidad de predicción que tienen los instrumentos de evaluación que se emplean en la educación formal.

Validez de construcción
El programa de evaluación y cada uno de los instrumentos que lo integran deben estar construidos de acuerdo con los principios de la o las teorías didácticas que sostienen el proyecto pedagógico. Debe haber coherencia entre las teorías y las estrategias de enseñanza que se han de emplear o que se han utilizado, las teorías generales y específicas que describen y explican los procesos de aprendizaje que el programa de enseñanza se propone que los alumnos desarrollen y las teorías que fundamentan las elecciones de los tipos de instrumento, la secuencia empleada, la articulación de la enseñanza y de las instancias de evaluación que conforman el programa de evaluación diseñado. Lo mismo ocurre con las normas técnicas que deben respetarse cuando se construye cada tipo de instrumento de evaluación. De la coherencia de las teorías y el buen uso de las normas técnicas depende la validez de construcción del programa y de los instrumentos de e valuación.

Es éste un aspecto que debe ser particularmente cuidado por los docentes porque si la evaluación no tiene un fundamento teórico válido, las decisiones que se tomen a partir de la información recogida por esa vía y de las interpretaciones que se hagan de ella carecerán de legitimidad.
Puede comprenderse, por lo tanto, la importancia de esta clase de validez ya que ella condiciona las otras que antes hemos mencionado.

Validez de convergencia
Esta modalidad de la validez concierne a la relación que existe entre un programa de evaluación o un instrumento y otros programas o instrumentos de validez ya conocida. Cuando un programa o una prueba de evaluación son reemplazados por otros, por ejemplo, debe demostrarse que son, por lo menos, tan buenos o mejores que los empleados anteriormente. La validez de convergencia puede tener gran importancia, pues, cuando se modifican prácticas establecidas en la evaluación para mejorar su validez, su confiabilidad o su practicidad, o cuando se busca mejorarla ampliando el campo de los aspectos evaluados.

Tomemos, por ejemplo, una situación en la que es necesario encontrar una nueva modalidad de evaluación que permita trabajar adecuadamente con un número muy superior de alumnos al que se acostumbraba atender en la institución. En ese caso, se trata de encontrar un programa e instrumentos más prácticos pero igualmente válidos que los que se empleaban con anterioridad. Los resultados obtenidos con los nuevos programas deberán ser contrastados, en consecuencia, con los obtenidos por medio de la aplicación de los usados antes. La validez de convergencia se apreciará analizando las coincidencias entre ambas series de resultados de la evaluación. Pero si, en cambio, se procura obtener mayor información acerca de un aspecto significativo del aprendizaje, profundizando el examen de los logros obtenidos por los alumnos en competencias o ejecuciones específicas que hasta ese momento se evaluaban de manera más general, en situaciones diferentes o en tipos de expresión distintos, la elección de los nuevos instrumentos deberá ser sometida a un análisis de convergencia para establecer si los resultados de unas y otras series son coincidentes o contradictorios. Si ocurriera esto último, habría que reexaminar tanto los instrumentos empleados previamente como los nuevos, antes de adoptarlos y dar estabilidad al nuevo programa de evaluación.

Validez manifiesta
Esta modalidad de la validez no se refiere a la validez intrínseca del programa o del conjunto de las pruebas o de cada prueba, sino al modo en que ellos se presentan, aparecen, ante el público.

Su significatividad deriva de que los programas y los instrumentos de evaluación deben ser percibidos por los alumnos, sus padres y el público como instancias adecuadas para la evaluación. No pueden ser vistos como absurdas carreras de obstáculos ni como simples o complejos filtros que tienen el único fin de producir una selección, más o menos azarosa y más o menos injusta, entre los alumnos. La razonabilidad de los instrumentos debe ser visible y explicable. Los instrumentos deben ser vistos como formas capaces de dar cuenta de los aprendizajes necesarios de los alumnos, tanto en lo que respecta a la forma como a los contenidos evaluados.

La validez manifiesta exige, entonces, que los instrumentos evalúen de manera verosímil los aprendizajes. Sin esto la evaluación pierde transparencia y no puede convertirse en autoevaluación. Al perderse la confianza en ella, pierde de este modo su sentido pedagógico y se requiere efectuar las correcciones y operaciones que resulten necesarias para lograr restablecerlo.

Validez de significado
Dietel, Herman y Knuth (1991) añaden a los distintos tipos de validez que se describen habitualmente, la validez de significado, que se mide en respuesta a la siguiente pregunta: ¿las tareas de evaluación tienen significado para los estudiantes y los motivan para alcanzar su mejor rendimiento?

Semejante a la modalidad de validez manifiesta que hemos descrito, la validez de significado se centra, en particular, en la relación que se establece desde la perspectiva de los estudiantes, entre el programa y los instrumentos de evaluación, por un lado, y los procesos de enseñanza y de aprendizaje, por el otro. La evaluación tiene diversos efectos sobre el aprendizaje. Entre los efectos deseados se encuentra el de proveer información al alumno sobre los progresos y los obstáculos que encuentra en el proceso de su aprendizaje y sobre los errores que debe superar, dándole indicios claros acerca de cuál puede ser el origen de sus dificultades. Pero la evaluación también tiene el efecto de incentivar la motivación del alumno por aprender. La superación de dificultades constituye un aliciente para el aprendizaje, así como la reiteración de los fracasos disminuye el interés, si se perciben las dificultades como insuperables. En ese espacio de dimensiones variables para cada alumno, y que se establece entre los problemas demasiado difíciles para ser resueltos y los problemas demasiado fáciles en los que no se puede fallar, se encuentra el punto adecuado en el que debe ubicarse la dificultad que presenta la prueba de evaluación para que tenga significado para el estudiante y constituya un desafío en el que éste ponga su mejor esfuerzo de producción.

Validez de retroacción
La evaluación tiene un efecto de retroacción sobre la enseñanza. Un caso clásico es el que se presenta en las evaluaciones externas, que ejercen una influencia normativa sobre lo que se enseña. Conocidos los contenidos y las técnicas empleadas en las evaluaciones, ellas se convierten para los docentes en los modelos de lo que se debe enseñar y aprender. Lo mismo ocurre, con frecuencia, con los aprendizajes encarados por los alumnos, que se conforman a las pautas establecidas por los docentes en las evaluaciones que administran. Es un efecto, en este caso no deseado, de la evaluación, por cuanto, en vez de ocupar el lugar de un apoyo para el mejoramiento del aprendizaje y de la enseñanza, la evaluación se convierte en la verdadera reguladora de esos procesos. Cuando esto ocurre, el peligro es grande, ya que, como dijimos antes, el dominio de los aprendizajes en la educación es mucho más amplio que el que se puede cubrir mediante la evaluación.
La validez de retroacción, que debe ser medida al igual que los otros tipos de validez, impone la realización de acciones de corrección con el fin de restablecer el verdadero sentido didáctico de los procesos de evaluación.

CONFIABILIDAD
Se dice que un instrumento de evaluación es confiable cuando une exactitud en la medición y sensibilidad para la apreciación de la presencia y las diferencias de magnitud de los rasgos que mide.

Para que los resultados obtenidos mediante la administración de un instrumento de evaluación puedan ser considerados dignos de confianza, deben ser estables, permaneciendo semejantes en todas las ocasiones en que se administre ese instrumento u otro similar. Si, por ejemplo, se administra una prueba o se emplea algún otro tipo de instrumento de evaluación y se obtienen ciertos resultados, el instrumento es confiable si, unas semanas después, administrado nuevamente se obtienen resultados similares. Esa constancia de los resultados demostraría, primero, que el papel del azar es muy pequeño y no distorsiona de modo significativo los resultados obtenidos. Y, además, que la administración del instrumento ha podido dejar de lado la influencia de factores transitorios que no deberían tener relevancia en la consideración de los resultados del aprendizaje que se quieren evaluar.

Un instrumento confiable permite aislar los aspectos que mide de otros que para el caso se consideren irrelevantes. Así, por ejemplo, una lámpara colgante puede servir para detectar un sismo cercano, pero no puede ser considerada un instrumento confiable pues, al no encontrarse aislada de otros factores, el viento o una mano, por ejemplo, podría ser accionada por otras fuerzas que falsearían la interpretación de su movimiento pendular.

De la misma manera, un instrumento utilizado en la escuela con fines de evaluación de los aprendizajes alcanzados por los alumnos debe permitir la consideración de estos aprendizajes separándolos de otros factores que pueden incidir en las respuestas de los alumnos, tales como el azar, la fatiga o los estados de tensión nerviosa de los alumnos o de los docentes.

La confiabilidad depende, también, de la exactitud y precisión con que mide el instrumento. En primer lugar, debe detectar si el aprendizaje o el rasgo que es evaluado está presente o ausente (¿saben o no saben x?, ¿tienen y destreza o no la tienen?, ¿quieren z o no la quieren?, etcétera). Pero debe hacerlo con sensibilidad y sin ambigüedad ante las variaciones de intensidad, profundidad y calidad de las conductas observadas o inferidas.

La confiabilidad de un instrumento depende, pues, de su estabilidad, su exactitud y su sensibilidad. Agregamos a estas condiciones la objetividad, que supone que la evaluación es independiente de la persona que evalúa, esto es, que los resultados reciben una interpretación similar tanto de diferentes docentes como de un mismo docente en distintos momentos.

Entre los factores que afectan la confiabilidad se encuentran los siguientes: la longitud y duración de la prueba, ya que cuando es excesivamente breve su capacidad de cobertura de contenido es escasa y puede estar muy distorsionada por factores de azar. "La muestra limitada de conducta puede dar como resultado una puntuación inestable y poco confiable" (Thorndike y Hagen, 1989). Pero cuando la prueba es excesivamente larga, la duración prolongada puede proporcionar información afectada por la fatiga del alumno. Sin embargo, señala Gronlund (1973) que es preferible el riesgo de diseñar pruebas más largas para que tengan mayor validez de contenido, siempre que se añadan contenidos diferentes y que no se superpongan con los que ya presenta la prueba. Cuando no se trata de instrumentos para medir velocidad sino de pruebas de competencia o capacidad, el tiempo debe ser suficiente para la realización del trabajo, incluso para estudiantes lentos.

Otro factor que incide sobre la confiabilidad son las condiciones de administración del instrumento. En situaciones puntuales de evaluación formal, la tensión de los alumnos suele ser mayor que en las informales, y la manera en que son tratados por el examinador puede favorecer o perjudicar su desempeño. También tienen influencia sobre los rendimientos las condiciones materiales y físicas de administración de las evaluaciones tales como iluminación, silencio, mobiliario, equipamiento adecuado y comodidad en general de alumnos y docentes.

Alcances de la confiabilidad
La confiabilidad de un instrumento debe permitir cubrir apropiadamente las necesidades planteadas por el programa de evaluación. No todos los instrumentos tienen la misma exactitud y sensibilidad, ya que ella depende de la forma técnica que adoptan y de las características propias que les otorga su construcción específica. Así, en otro orden de mediciones, por ejemplo, un barómetro doméstico puede ser aceptablemente confiable porque las lecturas que permite efectuar brindan la información que, con márgenes de error adecuados a ese uso doméstico, le permiten cumplir con la función a la que está destinado. En una estación meteorológica, en cambio, esas mediciones serían consideradas insuficientemente confiables, pues la sensibilidad y exactitud requeridas para cumplir su función son mucho mayores. Los instrumentos de medición de precisión son los que tienen mayor estabilidad, exactitud, sensibilidad y objetividad. Pero se debe recordar siempre que todas las mediciones no son absolutas, sino que son relativas a los instrumentos de medición que se emplean.

En cada caso, en consecuencia, habrá de determinarse cuáles son los grados de confiabilidad que resultan necesarios para cumplir con los propósitos que el programa de evaluación asigna a cada instrumento.
No se puede confundir confiabilidad con validez. Es frecuente que los autores de libros sobre este tema afirmen que la confiabilidad es condición necesaria, aunque no suficiente, de la validez (Karmel, 1986; Gronlund, 1973; Popham, 1983; Ebel, 1963; Sachs Adams, 1970; Pidgeon y Yates, 1979). Veamos algunas de estas afirmaciones.

Popham (1983): "Un test carente de (con)fiabilidad no puede ser válido para fin alguno". Ebel (1963): "Para que una prueba sea válida debe ser confiable". Pidgeon y Yates (1979): "Un examen no puede ser válido a menos que sea (con)fiable; pero puede ser (con)fiable sin ser válido". Karmel (1986): "Recuerde que ningún test será válido a menos que sea confiable. Por otra parte, un test puede ser confiable y carecer de validez". Esta exigencia de confiabilidad como condición para hacer posible la validez ha tenido mucha influencia en la teoría y la práctica de la evaluación. Consideramos, sin embargo, que es un principio que debe ser examinado y modificado.

La validez y la confiabilidad de un instrumento de evaluación nunca son absolutas. Hemos visto que para la validez los criterios son los que sirven de pauta y, del mismo modo, que la confiabilidad presenta márgenes de aceptabilidad según el uso que se le quiera dar al instrumento.

Pero por otra parte, en los instrumentos de evaluación de los aprendizajes, cuando se exige confiabilidad como primera condición para lograr cumplir con la exigencia de validez del instrumento, se privilegia un cierto tipo de instrumentos en los que el peso de la subjetividad desaparece. Esos instrumentos de alta confiabilidad son aptos para evaluar un cierto tipo de aprendizajes o rasgos pero no para evaluar todos. Las llamadas "pruebas subjetivas" o "tradicionales" (exámenes o cuestionarios orales, pruebas escritas de ensayo o disertación o de respuesta extensa; pruebas de respuesta restringida o de cuestionario; monografías, tesinas y tesis; evaluación de portafolio; estudios de casos, entre otras) están destinadas a evaluar la producción del alumno sin pautas totalmente estructuradas ya que le dan libertad para escoger la información, organizarla, expresarla y presentarla. En estos casos la validez aumenta a expensas de la confiabilidad. Esta última no es, entonces, condición necesaria de la validez sino, por el contrario, una limitación de la validez en ciertas circunstancias, aquellas en las que se busca que la respuesta del alumno sea original y permita demostrar competencias que no pueden ser evaluadas por medio de instrumentos cuyas respuestas están previamente estructuradas por los evaluadores.

Conviene señalar, sin embargo, que según se trate de propósitos de alcance e impacto muy importante en las vidas de las personas (exámenes de admisión o de selección, por ejemplo) o de las instituciones, la transparencia de las situaciones de evaluación constituye una exigencia ineludible para la evaluación y que, para ello, se requiere una alta confiabilidad además de validez predictiva.

La confiabilidad es, por lo tanto, una característica importante, difícil de aplicar adecuadamente y que exige un manejo técnico muy correcto de las técnicas de la evaluación puestas al servicio de los propósitos que ésta tiene asignados en los procesos de enseñanza.

PRACTICIDAD
Además de las características mencionadas -validez y confiabilidad- hay que considerar una tercera, de mucha importancia en los programas de evaluación.
La practicidad de un programa o un instrumento resulta de la conjunción de tres aspectos: su administrabilidad, la facilidad de análisis e interpretación de sus resultados y elaboración de conclusiones y, por último, de la evaluación de la economía de tiempo, esfuerzo y costo de su utilización.

Administrabilidad
La administrabilidad de un programa o un instrumento es un producto de varias características:
1. el tiempo de trabajo de los docentes que insume su diseño y construcción;
2. el tiempo que exige su puesta en práctica;
3. la claridad de la/las consigna/s, es decir, de las directivas que se dan a los estudiantes;
4. los materiales, equipos y lugares especiales necesarios para su administración;
5. la cantidad y preparación de las personas indispensables para la administración, cómputo, análisis e interpretación de los resultados y elaboración de las evaluaciones.

Cuanto menor sea el tiempo necesario para el diseño y la elaboración de las conclusiones y menos especializado el personal necesario para la puesta en práctica y el cómputo, mayor será la administrabilidad del programa o instrumento.

ANÁLISIS E INTERPRETACIÓN DE LOS RESULTADOS
Y ELABORACIÓN DE CONCLUSIONES

Se puede advertir que hay una correlación inversa entre el tiempo que demanda la construcción de un instrumento y el que exige el análisis e interpretación de sus resultados. Es necesario señalar, sin embargo, que el diseño de programas e instrumentos de evaluación siempre requiere mucho tiempo, también cuando se trata de pruebas "subjetivas". EL tiempo de "corrección" de las pruebas o de registro de observaciones suele ser prolongado pero la tarea puede ser facilitada por la construcción de claves o grillas de corrección elaboradas previamente a la administración de la prueba, sea escrita, oral o de evaluación de procesos o productos a través de la observación. Ellas permiten disminuir el tiempo y los problemas que se les plantean a los docentes en el momento de la corrección, les dan mayor seguridad y contribuyen a mejorar la confiabilidad de los resultados de la evaluación. Se deben emplear con precaución para no destruir el espíritu de estas pruebas que es la libertad de presentación y organización que se le brinda al alumno. De otro modo sería preferible utilizar instrumentos de tipo objetivo, esto es, instrumentos que admiten una y sólo una respuesta correcta y no diferentes calidades de respuesta que son más difíciles de analizar.

Economía
Es importante, como hemos dicho antes, que el programa de evaluación sea económico en tiempo, trabajo y costo. Es conveniente examinar previamente estas características para determinar la conveniencia de su empleo.

INTEGRACIÓN DE LOS TRES ASPECTOS
Los tres aspectos relativos a la practicidad del programa o de cada instrumento deben considerarse conjuntamente para lograr una evaluación integral de este rasgo.
Cada aspecto presenta ventajas y desventajas que se compensan o equilibran cuando se analizan los otros dos. Un costo relativamente elevado, por ejemplo, podría ser compensado por un alto grado de administrabilidad, o un tiempo prolongado dedicado a la construcción de un instrumento puede ser equilibrado por un tiempo menor destinado a la corrección e interpretación de los resultados. Del mismo modo, un tiempo extenso de construcción puede compensarse por la facilidad de administración simultánea a un grupo muy numeroso de alumnos.
La practicidad no es, seguramente, la característica más importante de un programa o de un instrumento de evaluación. Pero sí adquiere relevancia cuando de ella depende la frecuencia de la evaluación. Se observa que, por lo general, cuando el programa es práctico o cuando el instrumento es de fácil administración e interpretación se evalúa más frecuentemente y ello contribuye a estructurar mejor los procesos de enseñanza y los procesos de aprendizaje de los alumnos por parte del docente y de los mismos alumnos.

UTILIDAD
Íntimamente asociada a las otras tres características que mencionamos -validez, confiabilidad y practicidad-, la utilidad de una prueba resulta de su capacidad para satisfacer las necesidades específicas relacionadas con los procesos de enseñanza y aprendizaje. Si los resultados de la evaluación no son útiles para la orientación de los alumnos, del docente, de la escuela como institución, de los padres de los alumnos, de los sectores interesados en la calidad de la educación, poco importa que, en un marco restringido, el programa y cada instrumento sean confiables y prácticos. En lo que respecta a la validez, ya hemos dicho que es relativa a los criterios y, tratándose de públicos diferentes, dichos criterios pueden ser heterogéneos. Para que la evaluación sea útil, la validez para alguno o algunos de esos públicos es indispensable. La pregunta esencial en el diseño de un programa de evaluación es, por lo tanto, ¿qué usos se les dará a los resultados obtenidos? Son los implicados en los procesos de evaluación quienes deben dar las respuestas.

sábado, 4 de octubre de 2008

¿Para qué evaluar la calidad de los sistemas educativos?

La respuesta a esta pregunta la podemos obtener del libro de Elena Cano García “Evaluación de la Calidad Educativa”, Editorial La Muralla 1998, del que extraemos algunos párrafos:

JUSTIFICACIÓN DEL INTERES DE ESTE TIPO DE ESTUDIOS
Todos los motivos que han intentado desagregarse a continuación para facilitar su lectura, constituyen, de hecho, una amalgama de razones que se influyen mutuamente y que se hallan entremezcladas, siendo imposible desligarlas, más allá de para el puro análisis y presentación del trabajo. Éstos son:

1. Conseguir más información o superar la falta de datos. Se entiende que la evaluación es un instrumento que contribuye a un mayor conocimiento y diagnóstico de los sistemas educativos. Tiana (1993) considera que la evaluación es un sistema moderno -ya no estadístico ni intuitivo- de información y satisface la necesidad social de información.

2. Tomar decisiones, orientar la política y conducir los procesos de cambio. Pese a que tener más información puede ser un objetivo per se, de hecho su principal función es servir de base a la toma de decisiones. Sin embargo, se corre le peligro de que se utilice para justificar la distribución de fondos.

3. Rendir cuentas y valorar los resultados. Ello está íntimamente relacionado con la creciente autonomía de los centros. El rendimiento de cuentas contribuye a lograr una valoración objetiva de los resultados de la educación. Se trata de una tarea difícil pero que debemos acometer conceptual (¿qué son resultados?) y operativamente (¿cómo medirlos?) .

4. Mejorar el funcionamiento de los centros. Debe permitir mejorar la organización y funcionamiento de los centros educativos: por ello debe descender a niveles microscópicos (no tan sólo macro).

Conseguir más información
Para Bosch y Díaz, la realidad educativa española se caracteriza por una serie de rasgos singulares que la diferencian de sus vecinos europeos: un ritmo de crecimiento excepcionalmente rápido en la provisión de la enseñanza obligatoria para el grupo de edad de 6 a 14 años, efectuado durante un período de tiempo comparativamente breve, lo que ha llevado a la práctica universalización de la educación primaria; un crecimiento aún más rápido de la enseñanza superior durante un lapso igualmente corto, con lo que casi se han superado las diferencias que históricamente se registraban entre la educación superior en España y en el conjunto de la Europa occidental; una notoria presencia de la enseñanza privada (el 50% del total de los centros de educación preescolar, el 30% de los de enseñanza primaria y el 50% de los del nivel secundario son de titularidad privada) aunque financiada con fondos públicos hasta un 80% de sus gastos corrientes; y el problema de que coexisten cuatro idiomas distintos hablados en diferentes partes del país, problema que viene agravado por un fuerte y reciente impulso descentralizador de la educación desde la Administración Central, hacia las nuevas regiones autónomas. En consecuencia, el sistema educativo español presenta todas las características de una expansión apresurada e incontrolada que ha superado su capacidad de autoadministración. Un síntoma de esta confusión administrativa es la falta de datos adecuados para evaluar el sistema. Para solucionarlo, puede argumentarse, se requiere más información y la evaluación macro va en este sentido.

En relación a este objetivo de consecución de información se halla la voluntad de medir la eficacia de los sistemas educativos comparativamente. Como señala López Rupérez en relación a los macroestudios, existe un creciente interés por los estudios de evaluación comparada, por la medida de la eficacia de esas maquinarias tremendamente pesadas y complejas que son los sistemas educativos. La educación comparada no es, ni mucho menos, nueva. Sin embargo, en un contexto de integración mundial, de acercamiento de los países, de desaparición de fronteras y especialmente en nuestro contexto de Unión Europea, con la libre movilidad de personas, parece que toma especial relieve el estudio de los sistemas educativos vecinos con el fin, entre otras cosas, de unificar en la medida de lo posible, las etapas y los títulos, precisamente para facilitar el intercambio estudiantil.

Orientar la política
Parece que en épocas de discusión presupuestaria hay que reflexionar cada vez más sobre qué queremos hacer. En este sentido aboga por el nuevo modelo surgido del «Pilotaje» (De Landsheere) o «Stering» (House) para quienes la evaluación en los estados capitalistas se está configurando en el nuevo modo de desarrollar y legitimar políticas (basando su defensa en los resultados que la evaluación muestra).

«Se ha logrado crear expectativas infundadas de que la evaluación de centros y del sistema escolar pueda ser el medio para incrementar la calidad, pero Patton (1986) muestra cómo la evaluación no es más que un instrumento retórico que sirve para legitimar el funcionamiento actual de los centros, para justificar las reformas o para utilizarse como mecanismo de producción de verdad, en el sentido en que crea realidades».

Sin embargo, como hemos dicho, puede suceder que más que orientar las políticas se pretenda justificar la distribución de fondos.

«Los indicadores de rendimiento han sido utilizados en evaluaciones externas de carácter gubernamental con fines de distribución de fondos en varios países, que, como señalan los expertos, deberían consistir en un elemento de diálogo entre las organizaciones educativas».

Éste es, desde luego, un fin peligroso puesto que la rentabilidad puede entenderse y medirse de muchos modos, obedeciendo a diferentes concepciones y ponderando más la eficacia o la equidad. Por ello utilizar la evaluación macro para legitimar políticas presupuestarias hace, si cabe, albergar mayores recelos a los evaluados.

Rendir cuentas
Ligado a los dos anteriores argumentos podemos hallar un tercer motivo consistente en el rendimiento de cuentas en sí mismo, dado que la educación es un servicio público de cuyo funcionamiento ha de responderse ante todos los ciudadanos.

En relación al rendimiento de cuentas, destacamos la aportación de Laffitte (1994), que relaciona la evaluación y el rendimiento de cuentas, siendo, ambos procesos, aspectos del control institucional y personal. Según esta autora, rendir cuentas concierne a las obligaciones, deberes y responsabilidades formalmente establecidas de los individuos y de la institución. Ello cabe considerarlo como algo necesariamente ligado al incremento de autonomía de los centros.

«La descentralización del Estado y la mayor autonomía de los centros, junto a la puesta en marcha de un currículo teóricamente abierto y el inevitable cambio de valores que está experimentando la sociedad va a provocar una mayor demanda de liderazgo educativo y, paralelamente, un mayor control de la educación».

Una mayor autonomía (pedagógica, financiera, etc.) ha de corresponderse con un mayor control (entendido en sentido positivo) del empleo de esas competencias.

Mejorar el funcionamiento de los centros
«La evaluación de centros se orienta a la toma de decisiones, no es una indagación para conocer sino para actuar».

La evaluación pretende no sólo conocer la bondad o no de un centro o programa sino cómo podemos mejorarlo. Se trata de evaluar para orientar, guiar, favorecer los procesos que mejoren su efectividad. Ya decía Cronbach en los 60 que la evaluación debe usarse para mejorar un programa o actuación educativa. Se trata de pensar en el desarrollo frente a la responsabilización y para ello se diseñan modelos no sólo centrados en los resultados o productos sino también en los procesos. Se pretende no sólo corregir fallos o disfuncionalidades sino también potenciar los aspectos satisfactorios e introducir renovaciones. Es, pues, una evaluación de optimización o, lo que según Scriven es una evaluación formativa.

En este sentido, la evaluación macro ha de redundar finalmente en la mejora de las unidades micro en las que se desarrollan los procesos de enseñanza-aprendizaje. Sin embargo, son varios los autores que se muestran críticos con la evaluación que ha venido desarrollándose. Así, hallamos autores como Gairín, quien parafrasea a L. Blanco señalando que:

«...Las principales dificultades de la evaluación no son técnicas, sino políticas, de voluntad, de sensatez, de sentido común, de sensibilidad pedagógica, de flexibilidad y de creatividad. La mejor evaluación no es la más técnica y precisa, sino la más operativa; es decir, aquella que selecciona y se centra en obtener datos que elabora y divulga para ayudar a tomar y mejorar las decisiones».

Ello sólo resulta posible (como se señaló en la Conferencia Internacional de Evaluación de la Calidad, Madrid,1996) si hay cinco condiciones: si existe una cultura evaluativa correcta y asumida; si todos se sienten partícipes; si hay transparencia procesos/resultados: si los datos primero son debatidos y luego usados para mejorar y, finalmente, si se trata de una evaluación inherente al proceso de trabajo.

Evaluación cualitativa y cuantitativa

Ante la disyuntiva sobre la evaluación, si debe ser cuantitativa o cualitativa, voy a reproducir algunos párrafos del libro “Evaluación Nuevos Significados para una Práctica Compleja” de Alicia Bertoni – Margarita Poggi – Marta Teobaldo, Colección Triángulos Pedagógicos

¿Evaluación cuantitativa o evaluación cualitativa?
Este dilema parece estar más resuelto ahora que algunas décadas atrás. La polarización que se había instalado entre ambos enfoques no parece lícita, dado que la cantidad y la calidad aluden a diferentes dimensiones de lo real.

La primera es tangible, fácil de mensurar. La calidad es difícil de medir, ya que su definición no es unívoca. Como dice Habermas, "la calidad escapa a nuestras palabras y mora en las cosas. Es tan cierto que existe cuanto que es difícil de captar".

La fragmentación y la polarización de los enfoques no nos ayudan cuando el propósito de construir un sistema de evaluación no apunta solamente a ejercer un control sobre la calidad de la educación, sino a desarrollar un proceso evaluativo que nos permita interiorizarnos mejor de las motivaciones, intereses, actitudes, recursos, condiciones y acontecimientos escolares que interactúan para producir y dar forma al conocimiento.

No cabe duda de que conocer el comportamiento de los indicadores cuantitativos del funcionamiento del sistema educativo del país, en un tiempo dado y en su evolución histórica, siempre es necesario.

Los índices de incorporación, matriculación, promoción, repetición y abandonos facilitan importantes análisis y decisiones políticas basados en su conocimiento. Pero no podemos desconocer que las exigencias actuales se centran en la necesidad de contar con indicadores que expresen los niveles de calidad del sistema.

Para satisfacer esta exigencia se requiere producir un tipo de información distinto. Su adecuada captación y su elaboración dependen de la aplicación de otras metodologías y procedimientos para evaluar.

El enfoque cuantitativo no hace referencia a la realidad del currículum enseñado, sino que, por lo general, parte del currículum prescripto y a partir de él estima la conformidad o no de los resultados a la norma instituida.

El enfoque cualitativo, por su propia metodología, puede tomar en consideración el currículum efectivamente enseñado, la especificidad de la gestión institucional con relación a la interpretación que se hace de los saberes aprendidos por el alumno y las variables contextuales más amplias en su carácter de condiciones para la enseñanza y el aprendizaje. En esta interpretación compleja de la acción educativa evaluada, el enfoque cualitativo nos conecta más directamente con la realidad institucional, la curricular y la práctica docente reflejada en las estrategias cognitivas de los alumnos cuando producen sus respuestas en las pruebas que se les toman.

C. Gutiérrez, al hacer referencia a dos paradigmas complementarios del campo de la metodología de la ciencia, afirma:
Uno de los paradigmas correspondería al método heurístico; el otro, al método positivo. Los dos paradigmas, complementarios en el sentido de la disyunción, no en el de la conjunción, serían dos vías alternativas hacia el dominio de la realidad. Los dos enfoques serían importantes y necesarios. Habría que usar los dos, especialmente por su tendencia a contrarrestar los posibles excesos de cada uno: el peligro de inflación verbal o especulación sin garantía, por un lado; el peligro de depresión intelectual, anulación del impulso heurístico, por el otro. Sería bueno que todos tratáramos de cultivar ambos enfoques simultáneamente ya que, como el economista político diría, aunque la inflación es siempre preferible a la depresión, debemos evitar ambas.

Por otra parte, la evaluación cualitativa tiene que promover un fenómeno participativo, de modo que paulatinamente aquélla se gestione por iniciativa "de adentro para afuera" como forma factible de un auténtico mejoramiento de la calidad de la educación en sus múltiples dimensiones de expresión.

La evaluación pasa por su práctica; por ello es necesario un tiempo de "convivencia pedagógica" en la escuela para que los evaluadores externos e internos lleguen a disponer del marco conceptual e instrumental que permita complementar las informaciones que cada uno ha de aportar al sistema global.

Como señalan Cook y Reichardt, para una comprensión completa de una evaluación, ésta tendría que realizar al menos tres tareas: comprobación, valoración del impacto y explicación causal. Se trata de una gama muy amplia de tareas que, para ser eficazmente atendidas, requerirán quizá el empleo de métodos tanto cualitativos como cuantitativos. Aunque no de un modo inevitable, puede suceder a menudo que la comprobación sea realizada con mayor eficacia conforme a un método cualitativo, que la valoración del impacto se realice con mayor precisión mediante métodos cuantitativos y que la explicación causal se obtenga de mejor manera a través del empleo conjunto de métodos cuantitativos y cualitativos.

En consecuencia, la combinación flexible de ambos enfoques -para atender a las múltiples necesidades de información del sistema educativo- contribuye a corregir los sesgos que, inevitablemente, presentan los métodos cuantitativos y cualitativos cuando se los usa en forma separada. Pero debemos precisar que esta última recomendación no es fácil de seguir. Actualmente la cuestión estriba en conocer mejor ambos paradigmas, sin hacer la caricatura de ellos, como sucede cuando se describe la polarización a que conlleva optar por uno u otro.
Diríamos en rigor que, tal vez, estemos en el trance de elaborar una nueva metodología que se apoye en una dialéctica entre dos desarrollos divergentes para establecer, al fin de cuentas, el grado de su complementariedad sin eximirnos de asumir su conflictualidad, tarea segura pero prometedora como asegura Hadji (1992).
Related Posts Plugin for WordPress, Blogger...

Busca en mis blogs

Google+