sábado, 29 de noviembre de 2008

COMPARANDO LO INCOMPARABLE: LA PARÁBOLA DE LAS CARRETERAS

Modos típicos de desagregar la información en los reportes nacionales
Una de las debilidades principales de los reportes de resultados de las evaluaciones nacionales en los países de la región es la falta de contextualización sociocultural de dichos resultados. En prácticamente todos los países se reporta en función de los siguientes niveles de desagregación
• Resultados según las divisiones políticas y/o geográficas del país (por estado, provincia, departamento, región).
• Resultados de escuelas urbanas y rurales.
• Resultados según forma de administración (escuelas públicas o fiscales, escuelas subvencionadas, escuelas particulares o privadas).

Estos niveles de desagregación, que responden a las diferenciaciones más “visibles” de los sistemas educativos en subsistemas, son relevantes en la medida en que permiten ver las diferencias en el logro de los alumnos entre dichos subsistemas y presentan a la luz pública ciertas inequidades en la distribución de los conocimientos.

Sin embargo, el hecho de que sean prácticamente las únicas formas de desagregación de los datos implica una sobresimplificación de la realidad, en la medida en que ocurren dos fenómenos:
• Algunos de estos agregados incluyen en su interior enormes heterogeneidades. Por ejemplo, el agregado “escuelas urbanas” incluye toda la gama de situaciones socioculturales, desde escuelas de sectores medios y altos hasta escuelas en barrios marginales. Lo mismo ocurre con la mayoría de las “jurisdicciones” políticas o regiones geográficas en que se divide un país.
• En otros casos, los agregados seleccionan a su alumnado mayoritariamente de ciertos sectores sociales y no tienen una población representativa del conjunto: típicamente las escuelas rurales, que trabajan con un alumnado proveniente de familias con mínima trayectoria en el sistema educativo, y las escuelas privadas, que mayoritariamente reclutan su alumnado en los sectores sociales medios y altos.

El problema se plantea cuando de estas formas de desagregación de los resultados se derivan juicios o conclusiones acerca de la eficacia diferencial de unos y otros tipos de escuelas o jurisdicciones, y también cuando los datos no van acompañados por algún tipo de análisis que oriente al lector o al decisor en las interpretaciones válidas de la información. En general, según lo demuestra abundante investigación empírica, las diferencias de resultados obedecen principalmente a las diferencias socioculturales entre las poblaciones con las que trabajan los diferentes sectores o instituciones del sistema educativo, antes que a diferencias en su eficacia pedagógica.

Lo anterior no implica afirmar que todas las diferencias de resultados se puedan explicar por diferencias en el contexto social, sino que para hacer afirmaciones válidas respecto a la “eficacia” pedagógica es imprescindible haber controlado el efecto del contexto sociocultural.

La parábola de las carreteras
Para explicar mejor este problema resulta útil recurrir a la siguiente metáfora. En la República Argentina hay una carretera denominada la “ruta del desierto”. Es la Ruta Nacional Nº 20, en la provincia de La Pampa, que cruza la provincia en dirección este-oeste. El paisaje es semidesértico, pedregoso, con arbustos y absolutamente llano. La ruta tiene más de 200 kilómetros en línea recta, sin una curva ni una loma. El mayor peligro en esta ruta es la monotonía del paisaje, que hace que el conductor pueda dormirse en el volante. Por este motivo, a lo largo de la ruta se advierte la necesidad de descansar y se han ubicado cada 60 kilómetros sitios de descanso, pequeños oasis con árboles, sombra y agua.

En Argentina hay otra ruta, la Nº 40, que atraviesa el país en dirección sur-norte siguiendo la precordillera. Recorre desde Tierra del Fuego en el extremo sur del país hasta la Quebrada de Humauaca en el norte, en el límite con Bolivia. La ruta 40 sube y baja, atraviesa valles y montañas, diversidad de paisajes y terrenos.

Suponga el lector que el Ministerio de Obras Públicas ha licitado la construcción de estas dos rutas, ha concedido la construcción a distintas empresas y quiere evaluar la eficiencia de cada empresa, con el fin de utilizar esta información como elemento de decisión en futuras concesiones de obras públicas.

Para ello, la División de Información del Ministerio diseña indicadores de eficacia y eficiencia: la cantidad de kilómetros de carretera por unidad de tiempo –por ejemplo, por día o por semana- que ha avanzado cada empresa; o el costo de cada empresa por kilómetro de carretera construida. Luego recoge la información y entrega los resultados al Ministro.

Supongamos que el Ministro de Obras Públicas toma decisiones a partir de esta información. Probablemente se verá en problemas. Como resulta obvio, en apariencia la empresa A, que construyó la ruta 20, aparecerá como más eficiente que la empresa B, que construyó la ruta 40. Sin embargo, mientras la primera simplemente despejó el terreno, pasó las máquinas niveladoras en línea recta y en horizontal y colocó el material bituminoso, la segunda debió dinamitar partes de montaña, construir terraplenes, hacer puentes para sortear cursos de agua, calcular el trazado de las curvas, construir tramos en subida y en bajada, etc.

Por tanto, en realidad el Ministro no sabe nada sobre cuál de estas empresas es mejor. Por el contrario, la información que posee sirve de poco para ese objetivo. Supóngase que, además, el Ministro tiene información sobre el tipo de tecnología utilizada por cada empresa, por lo cual concluye que la tecnología utilizada por la empresa A es más eficiente que la utilizada por la empresa B. Si todos estos análisis se realizan sin tener en cuenta el terreno en el que cada empresa ha debido trabajar, de nada sirven los indicadores que se construyan.

En educación pasa algo muy similar. La labor educativa no se desarrolla en el vacío ni con un alumnado homogéneo. Los individuos llegan a la institución educativa en condiciones absolutamente diferentes para recibir y aprovechar el trabajo de los educadores. Unos llegan luego de una primera infancia vivida con infinidad de estímulos visuales y afectivos, en el marco de un hogar en el que cotidianamente se habla un lenguaje complejo, en el que se lee habitualmente y se le enseñó a reconocer el alfabeto aún antes de conocerlo en la escuela. Otros llegan luego de una primera infancia vivida en hogares en los que existen escasos estímulos visuales, donde el lenguaje es más simple, las prácticas de leer y escribir sólo ocurren excepcionalmente, los padres apenas completaron la escuela y no tienen una noción acabada del tipo de ayuda a brindar a su hijo en sus labores escolares. Unas escuelas trabajan con alumnos que se alimentan adecuadamente, tienen un espacio propio en su vivienda y salen de vacaciones todos los años. Otras trabajan con alumnos que se alimentan mal, que viven en condiciones de hacinamiento y colecho y que nunca han viajado más allá de 5 kilómetros de su vivienda. Unos estados o provincias trabajan con población altamente alfabetizada y en un contexto de crecimiento económico, en tanto otros lo hacen con poblaciones con tasas importantes de adultos analfabetos, de familias en condición de pobreza extrema.

Los “terrenos” son absolutamente diferentes. Unas trabajan en la llanura y en línea recta y otras deben sortear infinidad de dificultades. Por tanto, cualquier análisis de resultados o indicadores educativos que no tenga en cuenta las características del alumnado, resulta de escaso valor para la toma de decisiones o para extraer algún tipo de conclusión válida que pretenda ir más allá de la mera descripción de que las diferencias existen.

Sin embargo, en el presente, la enorme mayoría de los informes nacionales e internacionales de resultados educativos tratan de la misma manera a quienes construyen una ruta en línea recta que a quienes trabajan en la precordillera. Algo similar ocurre con el modo que normalmente los economistas interpretan la repetición y la extraedad: como ineficiencia del sistema educativo. En realidad indican que el terreno es más complicado, por lo que construir allí lleva más tiempo.

La consideración del contexto sociocultural
Así como la manera válida de construir indicadores comparativos de la eficiencia de las empresas constructoras de carreteras sería medir su tasa de avance sobre terrenos similares, la única manera válida de construir indicadores que sirvan para sustentar afirmaciones o decisiones sobre la efectividad de las instituciones o sistemas educativos es a través de algún tipo de categorización de los “terrenos” en que trabajan, es decir, de las características socioculturales de los hogares de los que provienen sus alumnos.

Un ejemplo que ilustra uno de los caminos posibles para abordar este desafío es la construcción de categorías de “contexto sociocultural de las escuelas”, con la finalidad de comparar los resultados al interior de categorías similares. La constatación de que el ordenamiento de los resultados de las pruebas en los diferentes tipos de escuela siguen el mismo ordenamiento que los indicadores sociales, dio lugar en Uruguay a una clasificación de los establecimientos educativos en cinco categorías según su “contexto sociocultural”: ‘muy favorable’, ‘favorable’, ‘medio’, ‘desfavorable’ y ‘muy desfavorable’. Esta categorización fue construida a partir de dos índices: uno de carácter cultural, elaborado a partir de los niveles educativos de los hogares de los alumnos, y otro de carácter económico, elaborado a partir de los niveles de equipamiento de dichos hogares.

A partir de esta construcción, los resultados se apoyan en la presentación conjunta de resultados de logro e indicadores sociales, o controlando el contexto sociocultural. Es decir, mostrando los resultados por tipo de escuela, región o departamento dentro de una misma categoría de contexto sociocultural. Asimismo, en la devolución de resultados a las escuelas se entrega a cada una de ellas lo obtenido por sus alumnos y lo de escuelas del mismo contexto sociocultural, de modo que no sólo se comparen con la media nacional

Es importante destacar que el “contexto sociocultural” es una propiedad de la escuela o grupo de alumnos, no de los individuos. Lo que explica los resultados no es principalmente el origen social individual de los estudiantes, sino la composición sociocultural del grupo escolar o de la escuela a la que pertenecen. Esta advertencia es de gran importancia, porque en algunos análisis se comparan los resultados entre individuos pertenecientes a un mismo origen social, pero a diferentes subsistemas. Por ejemplo, se compara los resultados de individuos de nivel sociocultural “bajo” que pertenecen a escuelas públicas, por un lado, y a privadas, por otro. Normalmente las diferencias no serán significativas y, si lo son, los resultados serán mejores entre quienes pertenecen a escuelas privadas, pero ello como resultado de que en dichas escuelas los individuos de NSE “bajo” son minoría, mientras que en las primeras son mayoría. En otras palabras, cuando los individuos de origen sociocultural desfavorecido son minoría en un grupo constituido mayoritariamente por individuos de mejor “respaldo” cultural familiar, los primeros se verán favorecidos por sus pares. Hay un efecto del nivel del grupo que mejora los aprendizajes. En cambio, cuando el grupo está mayoritariamente constituido por individuos de origen social desfavorecido, la minoría con mejor nivel educativo familiar tenderá a tener resultados inferiores a los esperables.

Estas constataciones, por otra parte, indican la necesidad de propiciar heterogeneidad social en las escuelas e intentar evitar la segmentación.

Los dilemas que la relación entre aprendizajes y contextos sociales plantea a la difusión de resultados El tratamiento y presentación de los resultados de las evaluaciones nacionales a partir de la categorización de los contextos sociales genera un nuevo problema: se corre el riesgo de acentuar una visión determinista en la sociedad y en los educadores, visión que podría ser ilustrada a través de frases del tipo “esto es lo máximo que se puede lograr en este medio” o “en este contexto no se puede esperar ni exigir más de los niños”. En otras palabras, se corre el riesgo de establecer o fortalecer un sistema de expectativas diferenciadas (“exijamos más en los sectores medios y altos, exijamos menos en los sectores populares, porque lo que pueden alcanzar es diferente”).

Muchas personas vinculadas al sector educativo y a los sistemas de evaluación temen, justificadamente, que enfatizar la presentación de resultados diferentes por contexto social opere como “coartada” o justificación de los resultados insuficientes para los maestros que trabajan en esos contextos.

Pero, por el otro lado, ignorar el contexto puede dar lugar a conclusiones espúreas y, más aún, puede generar una gran frustración e impotencia en las escuelas y docentes que trabajan en los medios más desfavorecidos, en la medida en que aparezca como que toda la responsabilidad por los pésimos resultados es de la escuela. Incluso puede dar lugar a que ciertas escuelas queden injustamente deslegitimadas ante sus comunidades y tener efectos paralizadores.

La evaluación puede ser percibida como injusta, porque responsabiliza al maestro y a la escuela por problemas que, al menos en parte, provienen del contexto. Volviendo a la parábola de las carreteras, es como si la empresa que trabajó en la precordillera quedará ubicada, en un ranking de metros promedio de construcción por día, por debajo de la que trabajó en la llanura. Lo sentiría como fuertemente injusto.

La introducción de la noción de contexto social “alivia” el peso de la responsabilidad, ayuda a percibir la evaluación como equitativa y a comprender que hay factores externos al sistema educativo que inciden en los logros y que la educación no es omnipotente. En definitiva, ayuda a establecer algo que es estrictamente cierto: parte de las desigualdades que se registran en el sistema educativo son reflejo de las desigualdades que existen en la sociedad.

Algunas formas de enfrentar el dilema anterior son:
• Mostrar en forma sistemática, a través de la difusión de resultados, que incluso al interior de los diferentes contextos sociales, hay escuelas que logran mejores resultados que otras. En otras palabras, que si bien el contexto social tiene un peso específico sobre los resultados, no hay determinismos absolutos y existe un espacio propio de la acción pedagógica y escolar que es necesario potenciar. Esta puede ser además una forma de motivar para que al interior del sistema educativo se haga todo lo posible por lograr mayor equidad en la distribución social del conocimiento y por mejorar las capacidades de los niños de origen más pobre.
• Colocar fuertemente el énfasis en los datos longitudinales y no en las comparaciones transversales entre escuelas. El esquema ideal sería tener una medición inicial y otra final en un mismo año lectivo. Por esta vía se puede eliminar en buena medida el efecto del contexto, centrando la medición y el reporte de resultados en lo que los alumnos y grupos avanzan a lo largo de un año respecto a su propio punto de partida. Con buenos instrumentos de medición de prácticas y enfoques de enseñanza, una aproximación de este tipo debería mejorar la capacidad explicativa de los “factores escolares” y, por tanto, la acumulación de conocimiento en este terreno. Obviamente un dispositivo de este tipo es más costoso y más complejo en cuanto al diseño de las pruebas.


http://www.oei.es/
¿Cómo Presentan sus Resultados los Sistemas Nacionales de Evaluación Educativa en América Latina?
Pedro Ravela

Accountability educacional

Rendición de cuentas más responsabilización por los procesos y resultados de la educación de JAVIER CORVALÁN1

Este libro es producto de un proyecto conjunto entre CIDE y PREAL –con el apoyo principal de USAID y de la Fundación Tinker– tendiente a posicionar en América Latina tanto la discusión como ciertas experiencias relevantes en el campo de la Accountability educacional.

Este último es un término de amplio desarrollo en el mundo de habla inglesa pero que, sin embargo, constituye aún una temática de escaso desarrollo y un concepto de difícil e imprecisa traducción en español, a la vez que de imperiosa referencia en actuales reformas educativas de América Latina.

En efecto, la primera traducción que se suele hacer del término se refiere a rendición de cuentas, principalmente en el campo público, lo que parece insuficiente por cuanto capta solo una parcialidad del sentido de la accountability.

En segundo lugar, la accountability se suele traducir como responsabilización, palabra que en una definición estricta no existe en el idioma español pero que recoge otro de los sentidos importantes del término original. Así y limitando estas páginas a la presentación de la accountability educacional en torno a estas dos expresiones –“rendición de cuentas“ y “responsabilización”– podemos tener un acercamiento a la temática en cuestión, entendiendo que la accountability alude a ambos sentidos: en parte es una rendición a los interesados o involucrados por los resultado del proceso educativo, lo que a su vez se espera tenga como consecuencia un aumento de los niveles de responsabilización de cada actor sobre tal proceso.

¿Qué debe entenderse en definitiva por este término y cómo se relacionan ambos sentidos propuestos para la accountability? En primer lugar, la rendición de cuentas refiere al proceso mediante el cual los actores informan y/o exigen información por el uso de los recursos para la consecución de un objetivo que les concierne. Esta rendición de cuentas no siempre y no solo se refiere a lo financiero, sino también al conjunto de recursos (humanos, simbólicos y materiales, entre otros), ordenados de una manera concordante al logro del objetivo en cuestión.

Crecientemente y como producto de las reformas educativas en América Latina se ha establecido que el objetivo del proceso educacional es el aprendizaje a niveles importantes y significativos de contenidos, en reemplazo de un objetivo centrado solo en el acceso a la educación. La rendición de cuentas en la accountability educacional se refiere entonces primeramente a los resultados en términos del aprendizaje y a la utilización que los actores han hecho de los recursos para conseguir este objetivo.

El segundo sentido de la accountability educacional –la responsabilización – es de hecho inseparable y consecuencia del anterior (rendición de cuentas). El hecho de rendir o de exigir el rendimiento de cuentas implica en sí un acto de asumir o demandar responsabilidades.

A su vez, el hecho de ser responsable de un proceso o de un resultado implica –sobre todo si se trata de un proceso público en una sociedad democrática – tener que dar cuenta de los resultados del mismo y del uso de los recursos implicados. Así, uno de los aspectos más interesante de la accountability en el campo educacional y público y particularmente en el educacional, es que confronta a cada uno de los actores implicados en el proceso educativo frente a sus responsabilidades y a su consecuente acto de rendición de cuentas. Al examinar qué se necesita para un buen proceso de accountability educacional se llega a la conclusión que en América Latina se ha avanzado bastante en las últimas décadas aun cuando hay mucho camino por delante en términos de poder contar con una educación realmente accountable.

Como se verá en esta publicación se propone aquí que un sistema de accountability educacional debe tener al menos cuatro elementos: información, estándares, autoridad y consecuencias. Las reformas latinoamericanas de las últimas dos décadas han incorporado algunos de estos aspectos en los diferentes países y aun cuando tales elementos son por lo general insuficientes, existe la impresión de que se avanza y que se debe avanzar aún más hacia el perfeccionamiento de cada uno de los elementos en cuestión. En efecto, en relación al concepto de información no son pocos los países que han comenzado a desarrollar sistemas globales o parciales de medición de la calidad de sus establecimientos educacionales.

En la misma línea la discusión respecto a estándares educacionales se ha incrementado en el continente en los últimos años, así como también la idea de autoridad puede ser asimilada, al menos parcialmente, a los procesos descentralizadores y proclives a generar autonomía en las escuelas, lo que proviene de los cambios educacionales iniciados en los años 80 en América Latina. Finalmente el componente de consecuencias en los procesos de accountability es claramente uno de los puntos en los cuales menos se ha avanzado y debatido en la discusión de política educativa reciente en América Latina.

En síntesis, nos parece válida la tesis respecto a que en la educación latinoamericana actual hay procesos –que en algunos casos están relativamente desarrollados y en otros, son aún incipientes– de accountability educacional. En este sentido, existe una ruta de progreso en la mayor parte de los países en la que es importante insistir y perfeccionar y en no pocos casos crear algunos de los componentes básicos de un sistema de accountability educacional, los que redundan o bien acompañan otros procesos tendientes a una educación de mayor equidad y calidad.

Precisamente es por esto que uno de los objetivos de esta publicación es generar una mayor comprensión de la accountability para, a partir del mismo y de ejemplos de sus aplicaciones, aportar a la discusión sobre la utilidad que pueda tener para orientar parte de los procesos de mejoramiento educativo actualmente en marcha en América Latina.

Recurriendo a una mirada histórica es interesante preguntarse por qué la accountability educacional ha sido sugerida en los últimos años en América Latina como un tema compatible y necesario con los procesos de reforma educativa en la región. La respuesta, a nuestro parecer, dice relación con al menos cuatro aspectos del desarrollo educativo reciente en América Latina:
a) En primer lugar, la educación latinoamericana ha estado sometida en las últimas décadas a crecientes procesos de descentralización y generación de autonomía escolar, lo que significa que tanto los niveles intermedios como locales así como las escuelas mismas y también las familias de los alumnos experimenten grados crecientes de influencia en la toma de decisiones educativas. Para impactar positivamente en la calidad de la educación se requiere que tales decisiones, por una parte, cuenten con la información suficiente pero que sobre todo tengan niveles importantes de responsabilización y de rendición de cuentas por parte de los actores respecto de los procesos y resultados que ellas implican. Ello especialmente si, asociadas a tales decisiones, se disponen cantidades significativas de recursos –privados y públicos– destinados al sector educacional.
b) En segundo lugar, la accountability aparece como un tema importante en el debate educativo en América Latina a partir de la irrupción del tema de indicadores educacionales, tanto al interior de los países como desde una perspectiva comparada. Esto se refleja en las discusiones en torno a las pruebas de rendimiento educativo, sean ellas censales o muestrales, y también en lo relativo a estándares y desempeños educativos. Todos estos indicadores tienen una doble dinámica con el tema de la accountability educacional puesto que por un lado se suponen que ellos, para cumplir su propósito, requieren ser parte de sistemas de accountability educativos propiamente tales y por otro, tales indicadores, son ya indesmentiblemente aspectos fundamentales de cualquier proceso de accountability educacional. Como se mencionó anteriormente y se verá en esta publicación, es cada vez más difícil pensar en un proceso de accountability educacional sin un componente de información sobre los resultados de aprendizaje en las escuelas o del sistema educativo en su conjunto o de parcialidades del mismo. En esta línea, en los últimos años la mayoría de los países de la región han logrado avanzar en el objetivo de tener pruebas estandarizadas y comparables del rendimiento escolar y mientras no las tengan es recomendable que utilicen otro tipo de indicadores, más específicos y locales, que permitan rendir cuenta y asumir responsabilidades por los resultados obtenidos.
c) Asociado a lo anterior, la conversación más general referida a las reformas educativas en América Latina y más específicamente a la calidad de la educación ha generado un terreno propicio para la discusión respecto de la accountability educacional. En lo más específico, todo lo que se ha avanzado y propuesto en las políticas educativas en torno al mejoramiento de escuelas en situación deficitaria requiere de procesos que están muy cercanos a lo que tradicionalmente se reconoce como accountability educacional. En efecto, en tales casos se requiere saber qué tan mal ubicadas en cuanto a su rendimiento se encuentran esas escuelas dentro de un diverso comparativo mayor y cuál es el uso que hacen del conjunto de recursos que poseen, así como de las carencias que es necesario suplir por parte de los sectores público y privado. Todo este conjunto de información y de eventuales acciones sin duda forma parte de procesos y sistemas de accountability educacional incipientes o medianamente desarrollados en América Latina.
d) Por último, la accountability educacional surge también como una perspectiva interesante para las actuales políticas latinoamericanas y en particular para los ministerios y las estructuras gubernamentales centrales. Esto, por cuanto son tales niveles los que no solo deben orientar los procesos de mejoramiento y equidad educacional sino también encargarse de dar cuenta pública de la educación de cada país o estado. De esta manera la accountability educacional es un conjunto de elementos necesarios y ventajosos no solo en los procesos de descentralización educacional, sino también para las instituciones centralizadas y responsables por los resultados finales del sistema.

El principal aprendizaje que nos dejan los textos dispuestos en este libro así como el conjunto de ponencias del seminario que le da origen es que todos los actores involucrados en los actuales procesos de provisión de educación pública pueden y deben rendir y/o exigir algún tipo de cuenta respecto de su actuar en el sistema. En efecto, desde el momento en que la educación es un tema de interés y relevancia pública y dado que en gran parte ella se financia con recursos públicos, los involucrados deben dar cuenta de su desempeño y consecuentemente de la parte de uso de los recursos que en tal desempeño está implicado o de la manera en que colaboran y/o presionan –en tanto actores privados– por el correcto uso de los recursos y aceptable logro de los objetivos educacionales.

La cultura de la rendición de cuentas por cierto no ha sido la tónica del desarrollo latinoamericano desde la segunda mitad del siglo XX. Claramente inspirada por modelos de desarrollo que dieron un rol protagónico y central al Estado por sobre el sector privado, América Latina lleva a cabo una importante masificación de la educación en el mencionado período en el cual los objetivos buscados tuvieron que ver con la ampliación de la cobertura escolar. La lógica fuertemente centralista del momento, sumada a los bajos niveles de participación ciudadana en la mayor parte de los países y a la ausencia de una discusión profunda y conceptualmente fundada en torno a la calidad de la educación provista por los poderes públicos, hizo que el tema de la rendición de cuentas en el ámbito público y particularmente en el campo educacional estuviese ausente hasta fines de siglo.

Esto se vio además reforzado por el efecto no menos importante que en la falta de información tuvieron los estilos autoritarios de gobierno y las democracias restringidas instauradas a partir de los años 60 y 70 en la región. Sin embargo, debe tenerse en cuenta que la accountability educacional, o bien la ausencia de la misma, no ha sido algo exclusivo ni de las democracia ni de las dictaduras. En efecto, durante las últimas décadas en América Latina se han registrados esfuerzos importantes por fortalecer los sistemas de medición de resultado bajo regímenes autoritarios así como también han existido muchos gobiernos democráticos que no han sido afines a fortalecer la rendición de cuentas o bien han obstaculizado el fortalecimiento de la responsabilidad por los resultados educacionales.

Con todo, debe reconocerse que el impacto de un sistema de accountability educacional debería ser mayor en una sociedad gobernada por un sistema democrático. Como es sabido, particularmente a partir de los años 80 y con mucha mayor fuerza a partir de los 90 se da un giro de proporciones en la discusión respecto de la educación latinoamericana. Los ya mencionados esfuerzos descentralizadores y el énfasis en la calidad y la distribución equitativa de los resultados educativos genera un nuevo escenario que permite comenzar a discutir con propiedad el tema de la accountability educacional. A este respecto, un tema recurrente en este nuevo discurso y ordenamiento de la educación latinoamericana es que esta no es solo responsabilidad del gobierno central sino del conjunto de la sociedad. En esta nueva perspectiva resulta de primera importancia definir los niveles de responsabilidad de cada uno de los actores involucrados en el proceso educativo, desde los gobiernos centrales o regionales hasta las escuelas y las familias. Cada actor del proceso educativo tiene algún grado de responsabilización y en consecuencia deben rendir cuenta de algo en la cadena de generación de resultados educativos.

Si bien en esa cadena ha ido quedando claro en las últimas décadas que la rendición de cuentas y la responsabilización que en tal proceso corresponde prioritariamente a los Estados nacionales y sus subunidades, es decir, a los niveles institucionales, no ha ocurrido lo mismo con los componentes relacionados con la sociedad civil concernidos por la educación, particularmente las familias. En efecto, si bien queda medianamente clara la respuesta a la pregunta respecto a aquello que asumen como responsabilidad los niveles gubernamentales en cuanto a la generación del proceso educativo, la misma pregunta no tiene una respuesta tan sencilla al referirse a qué asumen como responsabilidad en el proceso educacional las familias de los alumnos y por ende de qué rinden y/o exigen cuenta en ese proceso. Han sido precisamente las reformas educacionales de los años 90 en América Latina las que han relevado el tema de la participación e involucramiento de las familias en los procesos educativos y por ende su grado de responsabilización parcial de los resultados obtenidos por los alumnos, entendiendo siempre que, en última instancia, corresponde a los poderes públicos la responsabilidad primera de proveer una educación de calidad para todos.

En este punto la organización de los sistemas educacionales juega un rol importante en lo que respecta al papel de las familias tal como se verá en al menos uno de los artículos señalados. Nos referimos en particular a los sistemas educacionales que promueven el modelo de school choice y en general aquellos que sobre el mismo principio se organizan sobre la idea de cuasi mercados educativos. Esta última acepción no se refiere solo al aspecto relacionado con la obtención de lucro por parte de las unidades educativas, sino con una organización competitiva del sistema educativo y de su asignación de recursos, aun cuando el uso de los mismos sea sin fines lucrativos

De esta manera la participación y los niveles de responsabilización o accountability de y hacia las familias en el proceso educacional ha sido una temática creciente en las últimas dos décadas y que en el caso de los sistemas de cuasi mercado aluden principal aun cuando no exclusivamente a ejercer un rol en el control de la calidad del sistema mediante la elección correcta de escuelas para sus hijos. Desde este punto de vista, se busca que las familias exijan cuenta a las escuelas de manera de posibilitar una elección informada de las mismas con las consecuencias individuales y colectivas que ello significa. Sin duda este tema es complejo y la experiencia chilena por ejemplo demuestra hasta el momento que el desarrollo de un modelo competitivo de organización del sistema escolar no está necesariamente asociado a un mejoramiento generalizado del sistema escolar. En la misma línea la responsabilización o accountability de y hacia las familias en el proceso educacional puede existir también en sistemas educacionales que no tengan la estructura de elección de escuelas y en tal caso se expresa en procesos y mecanismos mediante los cuales los padres colaboran y presionan a las escuelas a generar educación de calidad, para lo cual el tema de la información y de los estándares surge también como fundamental.

En definitiva, el aumento de la accountability educacional es una realidad que se impone como indispensable para articular una conversación y conducta responsable por parte de los actores de los sistemas educacionales. El objetivo de esta publicación, tal como lo señalamos en las páginas anteriores, es entonces aportar a la discusión de este tema en el contexto latinoamericano, entendiendo que se ha avanzado en tal dirección pero que hay todavía mucho por debatir y proponer para poder contar en la región con actores educacionales que rindan y exijan cuenta de la educación que promueven y reciben y con ello aumentar el grado de responsabilización por la calidad de la misma

El libro completo puede bajarse en http://www.oei.es/oeivirt/evaleduc.htm

jueves, 27 de noviembre de 2008

Cultura de la evaluación II

La evaluación en Educación genera un severo escozor, un rechazo. En esa actitud observamos a los alumnos, docentes, directivos y hasta autoridades políticas.

Paradójicamente mantiene cierto prestigio, se considera que al evaluar nos encontramos frente al “momento de la verdad”, separado del trabajo de enseñanza y de aprendizaje, o bien fuera de las actividades profesionales.
Pero la evaluación debe ser mucho más que un simple proceso para acreditar, ya sea esto obtener una nota para el alumno, una aprobación para las prácticas docentes o una verificación de las bondades de determinadas políticas educativas.

La realidad nos indica que nosotros evaluamos permanentemente, antes de tomar cualquier decisión, lo hacemos aunque sea informalmente. En Educación nos ocuparemos de las evaluaciones formales, que pretenden un mayor grado de objetividad y son rigurosas en sus formas.
Por lo tanto, si vemos la evaluación como una brújula que nos permite tomar decisiones para mejorar el rumbo y llegar a los destinos propuestos, nos encontraremos con una visión más amplia del sentido de las mismas, o sea hay que “evaluar para mejorar”.

En este caso aceptaremos que la evaluación forma parte de nuestras actividades, y nos ayuda a tomar decisiones para obtener mejorías en nuestra labor, al alumno mejorar sus aprendizajes, al docente sus prácticas, a los directivos sus acciones y a las autoridades gubernamentales sus políticas.

Resulta evidente que sin evaluación para mejorar hay solamente una simulación, se trata de aparentar éxitos, no de demostrar que existen en forma objetiva, y esto se debe a que se la asocia con la necesidad de validar conductas, bajo este criterio, ¿A quién se le va a ocurrir hacer una evaluación para mostrar que algo anda mal? ¿Será entonces que no hay nada para corregir? ¿Está todo bien?

Ciertamente estamos inmersos en un contexto donde no existe una “cultura de la evaluación”, y dominan las simulaciones. Pero a nadie escapa el hecho que sea imprescindible obtener mejoras, sea cual fuere el nivel que se trate, y que para verificar si vamos por el camino correcto o para enderezar rumbos ¡hay que evaluar!
Pero entonces ¿Qué evaluar? Y ¿Quién evalúa? Las respuestas aparecen como sencillas, hay que evaluar todo, y somos todos evaluadores, en la misma medida que busquemos mejorías.

Ahora bien, habituarse a considerar una evaluación como un instrumento para la búsqueda de mejoras no se puede imponer por decreto, solo se logra por medio del diálogo y la reflexión compartida.
Debemos estimular las evaluaciones, especialmente las que se presentan de forma más genuina o sea la autoevaluación, reconociendo nuestras limitaciones como personas, pero también usando nuestra capacidad de mejorar.

Seamos entonces partícipes de esa “cultura de la evaluación”, tratando de utilizar instrumentos objetivos, válidos, para obtener resultados confiables y que podamos compartir y usar en el camino de la búsqueda permanente de la calidad educativa.

miércoles, 26 de noviembre de 2008

Cultura de la evaluación

Cultura de evaluación: una aproximación conceptual
Autores: Milagros Bolseguí, Antonio Fuguet Smith
Localización: Investigación y postgrado, ISSN 1316-0087, Vol. 21, Nº. 1, 2006 , pags. 77-98

Resumen:
o En este artículo se estudia un tema ineludible en los actuales procesos de transformación universitaria: la cultura de evaluación.

Desde hace algunos años las continuas referencias a la necesidad de fomentarla en el sector universitario, aunadas al vacío conceptual en relación con la misma, motivaron el interés de desarrollar esta investigación con el propósito de generar un cuerpo de proposiciones teóricas como modelo que permita la reflexión sobre este tema en los Institutos Pedagógicos, a fin de contribuir con el avance teórico en esta área. Este trabajo se desarrolló desde una perspectiva cualitativa. El análisis de la información se realizó utilizando la teoría fundamentada y el método comparativo continuo, para llegar a teorizar a partir del trabajo con las categorías y sus propiedades. Entre las conclusiones, es importante mencionar que la cultura de evaluación es un concepto en desarrollo que alude a la necesidad de evaluar de manera permanente. La evaluación es un proceso complejo y multidimensional que comprende distintos componentes: visión, valores, comportamientos, rutinas, contexto organizacional y social, experiencias pasadas y presentes, aspectos epistemológicos, teóricos y metodológicos.

Para descargar el texto completo en formato pdf ir a

http://dialnet.unirioja.es/servlet/articulo?codigo=2309843

sábado, 22 de noviembre de 2008

LA INFORMACIÓN SOBRE FACTORES SOCIALES E INSTITUCIONALES ASOCIADOS A LOS RESULTADOS

El siguiente trabajo fue redactado por Pedro Ravela

¿Es necesario incluir cuestionarios de familia y encuestas a maestros en las mediciones de aprendizaje o alcanza con la aplicación de pruebas? ¿Para qué puede resultar útil la información sobre los contextos sociales e institucionales? ¿Es adecuadamente aprovechada la información que en el presente muchos países recogen junto con la aplicación de pruebas? ¿Es posible mejorar la calidad de los instrumentos de recolección de este tipo de información?

En la mayor parte de los países latinoamericanos se aplica, junto con las pruebas de logro, cuestionarios dirigidos a recoger información acerca una enorme gama de variables relacionadas con las características de las familias y hogares en que viven los alumnos, así como acerca de las características de las escuelas a las que asisten y los maestros que los atienden.

Sin embargo, generalmente esta información está siendo muy poco aprovechada y no forma parte de los reportes nacionales. En casos excepcionales, se suele ofrecer información sobre las variables relativas a las familias, es decir, externas a los sistemas educativos, más que sobre las variables escolares sobre las cuales los Ministerios pueden tomar decisiones. Pocos países han desarrollado trabajos sistemáticos de investigación acerca de los factores escolares que explican, generan o están asociados con las diferencias de resultados de aprendizaje entre las escuelas.

La mayor parte de los países suele limitarse a informar los resultados bajo la forma de porcentajes de respuestas correctas para las pruebas en su conjunto o para partes de ellas, por lo general desagregados por jurisdicción político/geográfica (provincia, región, estado, departamento) y tipo de escuela (urbano/rural, público/privado). Ello permite una primera identificación de las disparidades de logro educativo dentro de un país y brindar información a quienes, en distintos niveles, son responsables de la conducción del sistema educativo.

La no utilización de la información “de contexto” plantea al menos dos grandes problemas:
1. la ausencia de información sobre las características socioculturales de las poblaciones a las que enseñan los distintos sectores del sistema educativo puede llevar a conclusiones erróneas respecto a la eficacia educativa de dichos sectores;
2. la ausencia de información sobre factores estrictamente escolares puede llevar a la conclusión, también errónea, de que finalmente los resultados educativos dependen exclusivamente del entorno social y el sistema educativo no tiene nada que hacer al respecto.

a. El problema de la falta de contextualización sociocultural de la información sobre resultados de las pruebas
En relación al primer aspecto, es preciso señalar que la ausencia de caracterización sociocultural de las poblaciones a las que “enseñan” los distintos sectores del sistema educativo impide extraer conclusiones válidas acerca de la eficacia de dicha enseñanza. Normalmente aparecerán como menos eficaces aquellos sectores del sistema educativo que atienden a la población con mayores carencias, al tiempo que aparecerán como “mejores” los sistemas educativos de las provincias o regiones cuya población está más alfabetizada y vive en mejores condiciones. Del mismo modo, normalmente se reportan mejores resultados en la educación privada en relación a la educación pública, pero no se analiza el tipo de selección social que uno y otro sector hacen del alumnado que atienden.

En un país la comparación de resultados entre el conjunto de las escuelas públicas y el conjunto de las privadas muestra diferencias de 25 puntos porcentuales en la proporción de alumnos que logra un nivel satisfactorio en la prueba de Matemática. Sin embargo, el análisis de los datos socioculturales indica que diferencias similares existen entre ambos tipos de escuelas, en variables tales como los niveles de educación alcanzados por los padres y madres de los niños, la existencia de libros en los hogares, el nivel general de equipamiento de los mismos y las condiciones de las viviendas. Cuando las diferencias de logro entre escuelas públicas se analizan controlando las variables socioculturales, es decir, cuando se analizan las diferencias entre escuelas públicas y privadas que atienden al mismo tipo de población, las diferencias en la proporción de alumnos que logran un nivel satisfactorio en el conjunto de la prueba se reducen al entorno de 5 puntos porcentuales y, en algunos sectores sociales, son favorables a las escuelas públicas.

Algo similar a lo ejemplificado en el párrafo anterior ocurre con la presentación de los datos en función de agregaciones político/geográficas. Cuando se presentan los resultados desagregados por provincia, estado, región o departamento, sin ningún tipo de información adicional, la conclusión inmediata para el lector no especializado es que sin duda las escuelas y los maestros deben estar trabajando mejor en aquellas regiones en que los resultados son más “altos”. Sin embargo, normalmente éstas serán las regiones con mayores tasas de alfabetización y con mejores indicadores de desarrollo en general.

Asimismo, los reportes nacionales suelen entregar la información desagregada en función del carácter urbano o rural de la escuela. Sin embargo, es preciso señalar que esta opción desconoce la enorme disparidad y heterogeneidad que normalmente existe al interior del mundo urbano. En dicha categoría quedan incluidas las escuelas pertenecientes a pequeños poblados del interior –probablemente muy similares a las rurales-, las escuelas ubicadas en zonas marginales de la periferia de las grandes ciudades y las escuelas ubicadas en los barrios acomodados y altamente educados de esas mismas ciudades. Es discutible pues, la relevancia de comparar al conjunto de escuelas urbanas en relación a las rurales e ignorar la diversidad de situaciones existentes al interior del mundo urbano. Del mismo modo, es discutible en muchos países tratar a las escuelas rurales como una categoría homogénea ignorando las diferencias culturales y lingüísticas que en algunos casos existen en su interior.

A partir de lo antedicho, parece necesario dedicar tiempo a la reflexión acerca de cómo establecer formas relevantes de caracterización sociocultural de los niveles de desagregación de la información, de modo que la información brindada por el sistema de evaluación permita hacer comparaciones entre establecimientos, departa mentos o provincias que atienden poblaciones con algún grado de similitud.

En este sentido, parece recomendable intentar utilizar la información social que suele recogerse en los operativos de evaluación, u otra información sociocultural disponible a partir de los Censos o Encuestas Nacionales de Hogares, para caracterizar a los niveles de desagregación elegidos. Ello permitiría, junto con la comparación global, ofrecer comparaciones y generar “competencia” al interior de ciertos segmentos del sistema educativo que atiende a sectores de la población en cierto modo similares.

En los casos en que la información se entrega desagregada a nivel de escuela, esto es aun más importante. La “efectividad” de una escuela no puede medirse únicamente en términos absolutos sino en relación al tipo de alumnado con que trabaja, ya que éste que implica restricciones o ventajas en relación a los resultados posibles.

En ese sentido, parece necesario adoptar una metodología de “valor agregado” cuando se desea emitir un juicio sobre la calidad de una escuela o de una jurisdicción del sistema educativo. Se denomina enfoque de “valor agregado” a aquellas evaluaciones en las que se intenta medir la calidad de una escuela o jurisdicción no sólo en función de sus “resultados absolutos”, sino principalmente en función de sus “resultados ajustados” por el tipo de alumnado que la escuela atiende: lo que logra por encima o por debajo de lo anticipable de acuerdo a la población con la que trabaja. En Francia por ejemplo uno de los ind icadores de efectividad de los liceos es la comparación entre la tasa de aprobación de la prueba de Bachillerato y la tasa anticipada de acuerdo a la relación existente a nivel nacional entre origen social y aprobación.

El principal supuesto de este enfoque es que al trabajar con resultados absolutos se confunden los efectos propios de las escuelas o jurisdicciones con los efectos de la selección de alumnos con que cada una de ellas trabaja. Los mejores niveles de logro en ciertas escuelas o jurisdicciones pueden no obedecer a que la enseñanza sea mejor en las mismas, sino simplemente a que enseñan a los mejores estudiantes.

Finalmente, es preciso señalar que en algunos países es necesario aún trabajar mucho en el diseño de instrumentos que recojan información sociocultural de base que sea relevante, dado que sus cuestionarios están dirigidos principalmente a recoger opiniones de las familias sobre el sistema educativo y la escuela, pero no relevan datos “duros” que permitan caracterizar a esas familias. Ello implica la necesidad de mejorar los instrumentos y procedimientos que se emplean para medir los aspectos relativos al contexto social.

b. Los problemas relacionados con la información sobre las características de las escuelas y la enseñanza
En relación al segundo de los problemas seleccionados es preciso señalar que por lo general todos los sistemas nacionales aplican en sus operativos encuestas a maestros y directores en las que se recoge información sobre materiales didácticos empleados, clima escola r, años de experiencia del maestro, etc. Sin embargo, en los Informes Nacionales se reporta muy poco sobre estos aspectos y su relación con los resultados de aprendizaje.

La ausencia de difusión de información respecto a las variables estrictamente escolares que están asociadas con los resultados de las pruebas, implica desaprovechar información sumamente valiosa para la adopción de decisiones de intervención y mejoramiento. Los aspectos estrictamente escolares y pedagógicos son los únicos, en el corto plazo, susceptibles de ser modificados desde la política educativa y desde las decisiones que cotidianamente maestros y directivos toman al interior de las escuelas.

Su ausencia en los reportes nacionales puede contribuir a generar la imagen de que el sistema educativo nada puede hacer ante la fatalidad de las diferencias sociales. Sin embargo, una vez que los niños ingresan a la escuela, lo que allí ocurre cuenta en términos de aprendizaje. De hecho, en distintas partes del mundo y en algunos países de la región se ha mostrado que, al interior de una misma categoría social, existen diferencias en los niveles de logro de las escuelas, que son atribuibles a lo que éstas hacen o dejan de hacer.

Dos dificultades principales parecen plantearse en relación a la información sobre factores escolares. Una primera dificultad parece ser la sobreabundancia de información que al respecto se recoge, que dificulta la selección de una estrategia para su presentación. Se recoge información sobre una gran cantidad de variables, por lo general sin un plan de análisis y difusión previo, que luego hace sumamente difícil decidir cómo organizar la información y cómo vincularla con los datos sobre aprendizaje. Una segunda dificultad, que en cierto modo explica la anterior, radica en el proceso en cierto modo a-sistemático a través del cual se construyen estos instrumentos.

Mientras en el proceso de construcción de pruebas en todos los países se sigue algún tipo de proceso de validación, se establece un referente conceptual, se pilotean las pruebas y se realiza una selección de los reactivos a aplicar, en el caso de los instrumentos complementarios casi nada de ello parece ocurrir. El diseño de este tipo de instrumentos se realiza en parte en base a la intuición, en parte para satisfacer requerimientos de información de distintas unidades de los Ministerios, en parte en base a la acumulación de conocimiento respecto a factores de efectividad y en parte en base a los modelos utilizados por otros países, pero sin que se desarrolle un proceso de pilotaje y análisis de lo que los instrumentos pueden rendir y lo que no.

Por ejemplo, normalmente se formula un conjunto de preguntas relacionadas con el clima institucional o con la existencia de objetivos compartidos en la escuela. Recién una vez recogidos los datos se intenta construir un índice o factor a partir de los mismos La construcción de índices mediante procedimientos estadísticos no debiera sustituir el proceso de construcción de un modelo conceptual que permita definir y otorgar sentido a un conjunto de variables básicas.

En este sentido, parece necesario avanzar en el desarrollo de una metodología para el diseño de los instrumentos de relevamiento de “factores escolares” que incluya:

a. el desarrollo de un marco conceptual explícito respecto al papel de los factores escolares que sistematice y organice la investigación existente sobre escuelas y prácticas de enseñanza eficaces;

b. la identificación más precisa de las variables escolares que es relevante y posible medir en el marco de un operativo nacional de evaluación -teniendo en cuenta, por un lado, aquellos aspectos sobre los cuales es posible la toma de decisiones tanto desde la política educativa como desde el interior de los establecimientos y, por otro lado, las limitaciones propias de los cuestionarios autoadministrados-;

c. el mejoramiento de los modos de formular las preguntas, así como el desarrollo
ex ante de escalas dirigidas a medir aspectos específicos tales como el clima institucional, el empleo del tiempo en el aula, el curriculum implementado, los enfoques didácticos, los tipos de actividades realizadas por los niños, la utilización de los materiales y textos además de su mera existencia, etc.-;

d. el pilotaje y validación previa de los instrumentos.

En particular, parece necesario avanzar en la recolección de información acerca de lo que realmente se enseña en las escuelas. Muchas veces los niveles de logro insatisfactorios en ciertas áreas no reflejan una enseñanza “no efectiva” sino, sencillamente, ausencia de enseñanza de ciertos temas y dominios.

Simultáneamente, sería interesante dedicar cierta energía a la publicación de la información existente en cada país sobre factores escolares, incluso simplemente bajo la forma de tablas descriptivas de la distribución de las diferentes variables. Ello sería de enorme utilidad porque normalmente este tipo de información no existe en los países, contribuiría al conocimiento sobre lo que está ocurriendo al interior de los sistemas educativos, permitiría comenzar a realizar comparaciones entre sistemas educativos y, hacia el futuro, podría constituirse en una forma de preparar el terreno para la construcción regional de indicadores educacionales comparables. Asimismo, permitiría ir acumulando conocimiento que permita afinar el tipo de preguntas que es útil formular, aligerar los cuestionarios o ir pasando en evaluaciones sucesivas a indagar nuevos aspectos.

Finalmente, otra tarea a encarar sería el diseño de mejores formas de reportar los resultados de las pruebas, junto con la información sobre contextos sociales y factores escolares. ¿Cómo ofrecer a los diferentes destinatarios –autoridades, otras unidades ministeriales, maestros, opinión pública- información que permita una lectura más compleja de los datos, sin abrumar a los eventuales lectores?. ¿Cómo diversificar los tipos de informes que se producen?. ¿Es posible avanzar hacia ciertos formatos “tipo” más sofisticados que los existentes hasta el momento -porcentaje de respuestas correctas por jurisdicción político/geográfica y por tipo de escuela-?.

c. Los problemas relacionados con la investigación sistemática acerca de factores escolares asociados con el aprendizaje
Además de introducir mejoras en las formas de reportar los resultados de las evaluaciones nacionales, parece necesario mejorar el aprovechamiento de la información generada por los sistemas nacionales de medición con fines de investigación propiamente dicha sobre el modo en que los diversos factores inciden sobre los aprendizajes. Si bien existe abundante investigación en este terreno en los países desarrollados, el modo en que estos factores afectan el aprendizaje está íntimamente relacionado con los contextos nacionales y, aun al interior de un país, seguramente se producen variaciones en función del tipo de escuela y el tipo de población a la que atiende. Es por ello que tiene sentido realizar esfuerzos para acumular conocimiento a nivel nacional sobre los factores escolares que están asociados con los aprendizajes de los niños.

Sin embargo, un primer problema central en este terreno es que normalmente los países han estado evaluando niveles de logro al final de ciertos grados o niveles de enseñanza, pero no necesariamente aprendizaje en un cierto período de tiempo. El nivel de logro de un estudiante al final de cierto grado escolar depende de múltiples factores ajenos a lo que ocurrió durante ese año en su aula. Tiene relación, por ejemplo, con la historia escolar anterior de los integrantes del grupo y con la acumulación de conocimiento con la que llegaron.

En rigor, una evaluación de aprendizaje cuyo objetivo es investigar acerca de los factores que explican esos aprendizajes, exige contar con mediciones de conocimientos y competencias al inicio del año escolar y al final del mismo. Sólo por esta vía es posible contar con información sobre lo que efectivamente los alumnos de un grupo aprendieron durante el año, lo que potenciaría la posibilidad de establecer relaciones entre lo que ocurrió en la escuela y el aula ese año y el avance de los alumnos en términos de aprendizaje. Nuevamente, éste es un claro ejemplo de cómo el diseño del sistema de evaluación puede servir para ciertos fines más que para otros.

Probablemente la realización de operativos de evaluación al inicio y al final de un mismo año esté fuera del alcance de las posibilidades logísticas y económicas de los países de la región. Sin embargo existen caminos intermedios a explorar. Uno de ellos sería realizar la medición inicial en muestras más pequeñas. Para un trabajo con fines de investigación no es necesario realizar las mediciones en grandes muestras, que por lo general tienen como finalidad permitir la devolución de información a diversos niveles de desagregación. Otro camino posible es, en países que evalúan grados sucesivos –por ejemplo, 5to. y 6to. grados de Primaria- considerar como medida de aprendizaje de los alumnos del grado superior a la diferencia de logro con relación a los alumnos del grado inferior.

Un segundo problema central radica en que la investigación sobre factores asociados implica la utilización de técnicas estadísticas sofisticadas de carácter multivariado y plantea severas exigencias en cuanto a la conformación y calidad de las bases de datos. Normalmente será necesario contar con información completa sobre todas las variables incluidas en el modelo para todos los alumnos, lo que no siempre es posible cuando los relevamientos se efectúan a través de cuestionarios autoadministrados y se trabaja con muestras muy grandes.

Un tercer aspecto o problema que resulta relevante señalar es el relativo a las limitaciones propias de este tipo de estudios, dado que muchas veces existe un exceso de expectativas respecto a la validez del conocimiento construido. A través de la investigación de corte estadístico, aun la más sofisticada, se puede construir ciertos tipos de conocimiento y de información, pero muchas veces, para avanzar en nuestra comprensión de los fenómenos, es necesario desarrollar también otro tipo de estrategias de investigación, de carácter cualitativo o “estudios de casos”, que permitan una mirada distinta sobre aspectos que los instrumentos usualmente utilizados no pueden captar. En estos casos, el hecho de contar con una medición de logros educativos y contextos sociales e institucionales, constituye un formidable “mapa” sobre el cual efectuar la selección de casos relevantes para un estudio en profundidad. Asimismo, la acumulación de conocimiento en el área parece requerir también de investigaciones de corte “cuasi-experimental”, que permitan medir y controlar un conjunto de variables – por ejemplo, las relativas a las prácticas de enseñanza- de manera adecuada y rigurosa, lo que no puede hacerse cuando se trabaja a escala masiva.

Una de las principales limitaciones de los modelos estadísticos multivariados es que la posibilidad de que una variable “ingrese” al modelo depende del grado en que la misma varía en la realidad. Aquellas variables con menor variabilidad difícilmente ingresan al mismo, lo que no implica que no sean relevantes en la producción de los resultados.

Por ejemplo, la formación de los maestros se mide normalmente a través de la cantidad de años de estudio. Ésta puede tener escasa variación al interior de un país. Como normalmente será difícil medir la calidad de esa formación, el investigador utilizará la cantidad de años como medida de la formación. Dado que el comportamiento de la variable es homogéneo, no ingresará al modelo, y la conclusión será que no es un factor relevante para la efectividad de la enseñanza. Algo similar, pero en sentido inverso, puede ocurrir con el material didáctico. Como las dotaciones del mismo presentan una amplia variación –que además normalmente estará vinculada al nivel socioeconómico del alumnado de las escuelas- y son fácilmente medibles, está variable será más proclive a ingresar a los modelos. Por tanto, el investigador recomendará al Ministro invertir en material didáctico y no en formación de maestros.

El ejemplo anterior pretende alertar respecto al uso poco reflexivo de los resultados de los análisis estadísticos y recordar que la sofisticación de los métodos no garantiza por sí misma la validez de las conclusiones.

Asimismo, es necesario preguntarse acerca de qué tipo de decisiones de política educativa es posible tomar a partir de los resultados de un análisis estadístico. Muchas veces parecen existir expectativas excesivas al respecto. Difícilmente podrá o deberá establecerse una relación directa entre los resultados de un trabajo de investigación y la toma de decisiones de política educativa. Para decirlo en forma caricaturizada, normalmente un Ministro no está esperando los resultados del análisis multivariado para decidir si compra libros o dicta una resolución para que los maestros dediquen más tiempo a enseñar quebrados. Es necesario un proceso de acumulación de conocimiento previo a la toma de decisiones, más allá de que ésta está regida además por otro tipo de consideraciones y restricciones.

Lo expresado en los párrafos anteriores no debe ser leído en el sentido de descalificar este tipo de investigación, sino en el de tener modestia respecto a lo que pueden aportar. Sin duda las mediciones de aprendizajes y factores asociados contribuyen a iluminar zonas del escenario educativo, a generar conciencia sobre ciertos problemas, a desmitificar soluciones mágicas, a percibir elementos que están presentes en las escuelas con mejores resultados, en fin, a una acumulación de conocimiento que juega un rol fundamental en el momento de delinear las políticas educativas.

En este sentido la realización de “estudios de casos” relevantes, a través de los cuales se observe en detalle y se describa el modo de enseñar de escuelas y maestros cuyos alumnos alcanzan elevados niveles de logro, parece un camino complementario que es necesario recorrer. Probablemente este tipo de estudios permita construir un conocimiento más fácilmente comunicable a los maestros y a otros usuarios en términos que les sean significativos y útiles y que pueda tener impactos importantes en el mejoramiento de las prácticas de enseñanza. Por otra parte, hay áreas específicas de las prácticas de enseñanza y de la vida escolar cuyo análisis requiere de la observación directa de lo que allí acontece.

Con tal finalidad, las bases de datos generadas por los sistemas nacionales de medición constituyen una fuente de información formidable para identificar instituciones relevantes para la realización de este tipo de estudios.

En virtud de todo lo antedicho, parece pertinente plantearse la necesidad de propiciar el establecimiento de asociaciones y convenios de colaboración entre las Unidades de Medición y centros de investigación especializados, de modo de potenciar el aprovechamiento de las bases de datos existentes mediante la realización de trabajos que las Unidades no logran llevar adelante. En principio parece difícil que las Unidades de Evaluación puedan desarrollar efectivamente todas las tareas: diseño de instrumentos, organización de operativos de evaluación, procesamiento de datos y producción de informes, capacitación a partir de los resultados e investigación sistemática. Al mismo tiempo, no parece razonable subutilizar la información disponible y las posibilidades que brinda a la investigación el hecho de contar con sistemas regulares de medición en funcionamiento.

En este sentido, el establecimiento de asociaciones con institutos de investigación, que aprovechen las bases de datos existentes para la realización de trabajos más sofisticados y que, simultáneamente colaboren en el mejoramiento de los instrumentos de medición y de la calidad de las bases de datos, parece un camino que es necesario empezar a recorrer. Ello requiere, en primer término, voluntad política de parte de los Estados para facilitar el acceso a las bases de datos y, en segundo término, apoyar el desarrollo de las capacidades de investigación en estos temas, sobre los que en la región existe escasa acumulación de experiencia, aún en las instituciones dedicadas a la investigación educativa. En ese sentido, será necesario apoyar la capacitación de recursos humanos y la acumulación de conocimiento y experiencia en materia de investigación educativa no sólo al interior de los Ministerios de Educación sino inclusive al interior de las universidades y centros no estatales.



Este trabajo se desarrolló colaborativamente en un taller realizado en GRADE, en Lima, en agosto de
1999, a iniciativa de la coordinadora del Grupo de Trabajo, Patricia Arregui. El Grupo de Trabajo sobre Estándares y Evaluación de GRADE/PREAL es una de las actividades del Programa de Promoción de la Reforma Educativa en América Latina que lideran el Diálogo Interamericano de Washington, D.C. y CINDE, de Santiago de Chile. Cuenta con apoyo financiero del BID, de USAID, de IDRC, del GEFund y obtiene recursos para actividades puntuales de una diversidad de fuentes

LA INTERPRETACIÓN JUSTIFICADA Y EL USO APROPIADO DE LOS RESULTADOS DE LAS MEDICIONES

La siguiente nota fue redactada por Gilbert Valverde

¿Qué significan los resultados que obtienen los y las estudiantes en nuestras pruebas nacionales de rendimiento? ¿Estamos realmente sacando conclusiones apropiadas, significativas y útiles a partir de los resultados de las evaluaciones? ¿En qué medida podemos justificar la manera en que interpretamos el resultado de una evaluación?
¿Se usan los resultados de las evaluaciones de manera apropiada en la toma de decisiones?

Cuando los sistemas de evaluación conducen sus actividades, su interés es descubrir, describir e interpretar facetas del sistema educativo. Un propósito que comparten todos los sistemas de evaluación en América Latina es el de comprender qué capacidades académicas adquieren los niños y las niñas como resultado de su asistencia y participación en las escuelas y colegios del país. En el lenguaje curricular y evaluativo, a esas capacidades adquiridas como resultado de la escolarización comúnmente se las denomina logro.

Los y las estudiantes en un sistema educativo participan en un gran número de actividades durante el año escolar, y es común que el éxito con el que enfrentan cada situación de aprendizaje varíe de una ocasión a otra. Es posible que la estrategia óptima para comprender cómo se da (o no da) el logro sea registrar el tipo de éxito que el o la estudiante experimenta al enfrentar cada una de las situaciones que aprendizaje en los que participa al año – lo que, en alguna medida, es lo que docentes comúnmente intentan hacer como parte de su labor de evaluación en el aula.

Por su parte, las autoridades políticas y la sociedad civil tienen interés por tener información acerca del sistema educativo. Este interés obedece a distintas razones, entre las que se pueden citar una preocupación por la calidad de la educación (en muchos países observadores de la educación han sugerido recientemente que los y las estudiantes en América Latina logran poco en la escuela en comparación con los estudiantes de otros países, o con respecto a grupos de estudiantes en generaciones anteriores en su propio país, o en relación con los propósitos académicos que el sistema mismo se ha fijado para sí mismo). También hay quienes están preocupados por la equidad en la educación y necesitan descubrir si el sistema educativo favorece en forma desigual a distintos grupos económicos, culturales o lingüísticos y, por cierto, también están aquéllos que desean información útil para juzgar la eficacia de distintos tipos de inversiones o intervenciones que se proponen hacer en el ámbito nacional en la educación. Resulta casi evidente que la estrategia “óptima” mencionada anteriormente no se ajustaría a sus requerimientos, ya que sería imposible realizar un seguimiento a todos los y las estudiantes de un país -o a un número representativo de ellos - de esa manera.

Por esa razón, los países desarrollan otras estrategias para recolectar información acerca de sus sistemas educacionales (y a menudo, de diversos subsistemas). Hasta la fecha, la estrategia que se sigue en todos los sistemas de evaluación en América Latina es la de plantear una situación relativamente novedosa a los y las estudiantes, que dura uno o dos períodos lectivos. En esta nueva situación y durante ese lapso de tiempo, el sistema de evaluación pretende que los y las estudiantes demuestren que han adquirido un número significativo de las capacidades esperadas. En todos los países de la región, el tipo de situación que plantea el sistema de evaluación a los estudiantes es una prueba escrita, es decir, se hacen preguntas que los y las estudiantes deben de responder en forma escrita.

Las preguntas que se incluyen en las pruebas se encuentran allí porque sus autores consideran que ellas representan bien el tipo de situación que los y las estudiantes deben poder enfrentar con éxito. Es decir, se formulan preguntas que, a criterio de los autores de la prueba, exigen que los estudiantes utilicen lo que aprenden en la escuela para contestarlas correctamente. Por consiguiente, se postula que estas preguntas representan adecuadamente las capacidades adquiridas durante la escolarización. Es así como las pruebas – mediante sus preguntas – pretenden arrojar una representación fiel de las capacidades de los y las estudiantes que se generan en su paso por el sistema educativo. Ahora bien, ¿cuán fieles son estas representaciones?

Interpretar correctamente y usar apropiadamente la información que nos dan las pruebas significa que debemos preocuparnos por entender el tipo de representación del logro que permiten las mismas. Las representaciones que más típicamente arrojan las pruebas en América Latina, son números llamados promedios o notas, cuyo significado debe ser bien entendido por las personas encargadas de interpretar estos números. En otras palabras, debemos asegurarnos de entender correctamente qué tipo de información nos dan estos números acerca de las capacidades de estudiantes.

Plantearnos interrogantes sobre una forma apropiada y justificable de interpretar y usar los resultados de nuestras pruebas y encuestas es preocuparnos por lo que se llama en medición la validez.

La validez no es una propiedad intrínseca de las pruebas o las encuestas, sino una propiedad de las interpretaciones y los usos que se propone dar a los datos que se obtienen de ellas. Es así que actualmente se define la validez como el grado en que la evidencia empírica y la teoría dan sustento a las interpretaciones de los resultados de una medición. Asimismo, la validez se refiere al ámbito del legítimo uso de esas interpretaciones y también al grado en que el uso de la prueba no produce un impacto negativo no deseado sobre el sistema educativo. En otras palabras, la validez se refiere a la calidad de las conclusiones que tomamos a partir de las mediciones y a las consecuencias que las mediciones generan en los procesos que se proponen medir

Algunos ejemplos
Veamos algunas situaciones que se dan en América Latina y que sirven para ejemplificar algunos tipos de preocupación por la validez de las evaluaciones que se realizan en la actualidad:

1. El Ministerio de Educación se encuentra implementando un nuevo currículum nacional de Matemáticas, cuyo enfoque principal es que los estudiantes aprendan cómo resolver problemas novedosos de la vida real utilizando elementos de razonamiento matemático. Sin embargo, para descubrir qué han logrado los y las estudiantes, se administra una prueba escrita cuya mayoría de preguntas o reactivos exigen a los estudiantes que recuerden términos y principios matemáticos, o sólo requieren que ellos apliquen procedimientos rutinarios para resolver problemas o ejercicios muy parecidos a los que aparecen en sus libros de texto. En este caso, el Ministerio de Educación claramente no cuenta con un instrumento apropiado para descubrir si los estudiantes han logrado dominar las capacidades que persigue el nuevo currículum nacional. Sería injustificado concluir que los y las estudiantes que obtienen un alto promedio en esta prueba poseen la capacidad de resolver problemas novedosos de la vida real, porque las preguntas no exigen que los estudiantes recurran a este tipo de habilidades para resolverlos.

2. Se escribe una prueba para descubrir si los estudiantes de educación primaria o básica de 7 años de edad están adquiriendo conocimientos acerca de ciencias naturales. En las aulas se enseñan estos contenidos sin texto escolar, usando elementos del entorno natural de la escuela. La prueba contiene muchas preguntas cuya comprensión exigiría que los niños y las niñas posean gran habilidad para comprender textos escritos y un vocabulario altamente desarrollado. En una prueba de esta naturaleza el significado de los promedios es sumamente difícil de descubrir.¿Acaso un bajo promedio indica la no-adquisición de los conocimientos que se pretendía medir, o más bien mide la habilidad lectora de los niños? En el caso de niños y niñas pequeños, ¿en qué medida son las supuestas pruebas de ciencias (o de matemáticas, ciencias sociales, etc.) en realidad pruebas de lectura?

3. Se administra una prueba de logros a todos los estudiantes de octavo grado en un país. El Ministerio de Educación utiliza los resultados obtenidos por los estudiantes en cada escuela para calcular el promedio de logro para cada establecimiento. Comparando los promedios de los establecimientos según éstos sean privados o públicos se descubre que los promedios de las escuelas privadas son más altos que los de las públicas. Se concluye que las escuelas privadas son más eficaces que las públicas, aun cuando ocurre que éstas no cuentan con textos que aborden uno de los temas más importantes de la prueba. Aquí, sin duda, es muy problemática la interpretación que se propone para los resultados, ya que un recurso esencial para el aprendizaje de un área de contenido o competencia específico (libro de texto que cubra temas medidos en la prueba) no se encuentra repartido equitativamente en los establecimientos. ¿Acaso se justifica la interpretación de un bajo promedio como indicador de falta de eficacia del establecimiento? ¿No será más justificado interpretarlo como indicador de una falta de equidad en la distribución de los recursos?

4. En un país se utiliza una prueba a final de la educación secundaria o media para avalar un diploma que se otorga al egreso de ese nivel. Dado este fin, se interpreta que pasar esta prueba indica que un estudiante ha logrado dominar todos los objetivos del currículum propuestos para cada año en ese nivel. En la prueba se miden algunos aspectos del currículum con una variedad de preguntas, otros con muy pocas. Se otorga el diploma correspondiente a todos los y las estudiantes que aprueban. Preocupa en este caso si la conclusión de que un estudiante domina los objetivos del nivel se puede defender si no se mide con igual rigor los distintos componentes del currículum.

5. En un país no existe un currículum nacional, sino que cada provincia tiene su propio currículum. La Secretaría de Educación administra una prueba en todas las provincias. Para garantizar que la prueba es justa para todas las provincias, se decide poner sólo preguntas sobre aquellos temas que se enseñan en todas ellas – esto significa que se evalúa un subconjunto de las cosas que en cada provincia se pretende enseñar-. Comparando los promedios de cada provincia, se encuentra que en algunas se obtienen resultados muy superiores que en las demás. Se concluye que es mayor la eficacia de los establecimientos en aquellas provincias. Sin embargo, ocurre que en las provincias de alto rendimiento, se pretende enseñar muy pocos temas que no están en la prueba nacional. En las provincias de más bajo rendimiento, los temas que se evalúan en la prueba nacional representan sólo una pequeña parte de los temas que se proponen enseñar, y no se les dedica mucho tiempo lectivo ni espacio en los libros de texto. ¿Es pertinente hacer una comparación entre los resultados de las provincias cuando en algunas de ellas se está enseñando una mayor proporción de los temas evaluados que en otras? ¿Acaso los promedios diferentes obtenidos de esta manera indican diferencias en eficacia educativa? ¿No será más bien que estos distintos promedios indican diferencias en la pertinencia de la prueba para cada una de las provincias?

6. Se diseña una prueba de lenguaje que entre sus preguntas contiene una sola en la cual los y las estudiantes escriben un t exto propio. Al revisar este texto, se califican aspectos de ortografía, gramática y otras características de la escritura. El Ministerio de Educación desea distribuir material de apoyo pedagógico para docentes de lenguaje, pero para usar mejor su presupuesto, pretende descubrir los aspectos más débiles de los logros de los estudiantes y para ello se fija en los resultados de la prueba. Se observa en la prueba que la mayor parte de los estudiantes tuvieron mal rendimiento en la pregunta donde se pedía que escribieran su propio texto. En consecuencia, se escriben módulos de apoyo pedagógico y se proporciona capacitación a los docentes para ayudarlos a enseñar mejor gramática y expresión escrita. ¿Acaso la falta de éxito en contestar una sola pregunta es suficiente para concluir que los estudiantes no dominan esas capacidades? Si el Ministerio cuenta con recursos limitados para esfuerzos de refuerzo pedagógico y trata de utilizar los resultados de la evaluación para sacar provecho máximo de su inversión en ella, ¿ha utilizado en forma apropiada los resultados de la evaluación? Por otro lado, si los docentes mediante los módulos y capacitaciones adquieren la convicción de que deben dedicar mucho más esfuerzo a enseñar gramática y expresión escrita, ¿ha sido apropiada la información para ocasionar ese cambio en las prioridades de los docentes?

Las situaciones anteriores ejemplifican los problemas que existen en torno a las interpretaciones justificadas y al uso apropiado de la información que arrojan las mediciones. Muchos factores pueden afectar el significado que los ministerios u otros usuarios pretenden asignar a los resultados de las mediciones. A menudo se distorsionan los significados reales, lo que afecta su validez y, en consecuencia, su pertinencia como insumo para la toma de decisiones. Dado que éste es un riesgo ineludible en la medición, es importante sustentar con evidencia pertinente el tipo de conclusiones haciendo explícitos de antemano los tipos de uso para los cuales los resultados podrán ser empleados legítimamente, así como los tipos de fines para los cuales los resultados
NO podrán utilizarse de manera justificada.

El proceso de acumulación de evidencias que dan sustento a las interpretaciones que se proponen para una medición se deno mina validación. La interpretación justa y el uso apropiado de los resultados de las mediciones dependen en gran medida de la solidez del esfuerzo del equipo que diseña las mediciones por asegurar la validación de las mismas.

Opciones para la validación de mediciones en educación
El proceso de validación consiste en acumular evidencia que da sustento o justifica las interpretaciones que se pretende derivar de las pruebas y encuestas. Existe una gran cantidad de opciones en cuando al tipo de evidencia que se puede acumular y reportar. Cada tipo de evidencia ilumina o da apoyo a distintas facetas de la validez, pero no representa un tipo distinto de validez. La validez es un concepto unitario que obliga a los diseñadores y usuarios a evaluar de manera integral toda la evidencia disponible sobre cuán bien están justificadas las interpretaciones de los datos y las maneras de utilizar la información recogida durante la aplicación de la medición.

En el caso de las pruebas de logro, sean éstas referidas a normas o referidas a criterios, se pretende derivar conclusiones que van más allá de las preguntas que componen las pruebas. Es decir, en ambos casos se reconoce que las preguntas que contiene la prueba representan solamente una pequeña muestra de todas las preguntas posibles que se podrían formular para conocer si los y las estudiantes poseen ciertas capacidades. De los análisis de cualquiera de los dos tipos de pruebas mencionadas se concluye que si los estudiantes contestan con éxito 80 por ciento de las preguntas formuladas en la prueba, serían también capaces de contestar con éxito 80 por ciento de todas las preguntas posibles que se podrían formular para medir esa capacidad.

Una forma obvia de proceder para sustentar esta conclusión es mediante una definición clara de lo que se quiere medir. Una vez que se cuenta con esa definición, es posible comparar cada pregunta que se propone para la prueba y juzgar su concordancia con la definición. Si las preguntas de la prueba se han escrito de acuerdo a una definición precisa de lo que se pretende medir, las inferencias que se realicen con respecto al desempeño de los y las estudiantes en esas preguntas serán más válidas que en el caso contrario. Desde este punto de vista, la validación es un proceso inherente al procedimiento que se sigue para diseñar pruebas referidas a criterios (ver el capítulo al respecto en este mismo volumen), puesto que la definición del dominio (en términos de campo de conocimientos o habilidades) y el esfuerzo por asegurar la concordancia de las preguntas con el dominio definido son dos de sus preocupaciones centrales. Cuando se desarrolla y aplica este tipo de pruebas, la documentación de las definiciones de los dominios, los juicios acerca de la concordancia de las preguntas con los dominios y los pasos seguidos para asegurar que los dominios representen con justicia el currículum o los estándares, sirven a dos propósitos: guían el desarrollo de la prueba y documentan la evidencia de la validación de la medición propuesta.

Frecuentemente se propone también que las pruebas sean interpretadas con relación a un criterio externo. Esto es típico, por ejemplo, de las pruebas de admisión a la educación superior. En ese tipo de pruebas, se establece (con mayor o menor grado de fundamento) que un promedio determinado predice una exitosa carrera universitaria. En el caso de algunos países, se pretende establecer que un diploma de educación secundaria – avalado por una prueba de bachillerato – certifica que el diplomado posee ciertas capacidades básicas como posible empleado, de modo tal que se supone que el éxito en la prueba predice una exitosa carrera como trabajador.

Aun en los casos en que no existe un criterio externo propuesto explícitamente para la prueba, la utilización de referentes externos puede reforzar la validación de las pruebas. Por ejemplo, cuando se compara dos formas de medir la misma competencia y ambas formas arrojan resultados semejantes, esto puede dar evidencia para la validación.

En América Latina, es poco frecuente que se proporcione documentación acerca de las razones que conducen a las distintas decisiones que se toman en el proceso de construcción de las pruebas. Tampoco es frecuente ofrecer información acerca de los propósitos que se persiguen con respecto a la naturaleza y uso de los resultados, acerca de los grupos entre los cuales fueron validados los instrumentos y sobre las condiciones específicas de la medición. Para la validación de los resultados que generan las pruebas, es de suma importancia que los servicios nacionales de evaluación educativa publiquen informes técnicos que contesten las siguientes preguntas con claridad:

¿Acerca de cuáles capacidades o destrezas se derivarán conclusiones?
En esos informes se debe incluir no sólo una definición explícita de las capacidades que interesan sino también de aquéllas que pretendemos evitar que debiliten la validez de la medición de las primeras. Por ejemplo, debe explicarse cómo se ha procurado que la habilidad para leer no obstaculice la oportunidad que tienen niños de corta edad de demostrar lo que saben de ciencias naturales en la prueba de esa materia.

¿Cómo se aseguró concordancia entre las preguntas y las capacidades o destrezas que se propuso medir?
Es necesario documentar los procedimientos del caso y describir en detalle el resultado de su uso. Por ejemplo: ¿cómo se utilizaron las definiciones a la hora de escribir preguntas o cómo procedieron los jueces para asegurar la concordancia entre las preguntas y los dominios a medir?, ¿de qué manera se recogieron y analizaron sus juicios?, etc.

¿Qué tipos de preguntas permiten comprobar que se dominan las capacidades?
Por ejemplo, si se tiene el objetivo de comprobar si los estudiantes pueden resolver problemas novedosos de la vida real en matemáticas o producir textos propios legibles, coherentes y persuasivos, ¿se puede usar preguntas en las cuales los estudiantes escogen la opción correcta entre cuatro o cinco posibilidades?; ¿acaso la habilidad de reconocer la respuesta correcta entre distintas opciones es idéntica a la generación de una respuesta propia?; ¿se necesitan más bien preguntas que les pidan demostrar los pasos que siguen para resolver problemas o escribir textos?; ¿por qué?. Quizás algunas destrezas o capacidades requieren para ser medidas del uso de más de un tipo de preguntas, en cuyo caso habrá que documentar cuáles tipos, cuántos de cada tipo y justificar el peso que se le va a asignar a cada tipo a la hora de calcular promedios, etc.

¿Cómo se evidencia que lo que predice la prueba ocurre en realidad?
En este sentido, cuando el propósito de una prueba es el de predecir el éxito académico o el éxito en la vida laboral, se debe acumular y reportar evidencias acerca de la relación entre puntajes o promedios obtenidos por los estudiantes en las pruebas con lo que ocurre de hecho durante su carrera académica o laboral.

¿En qué medida son compatibles los resultados obtenidos con un instrumento y los obtenidos con otro?
A menudo existen distintos instrumentos que pretenden medir cosas semejantes. Por ejemplo, pueden existir provincias que desean medir el logro de sus estudiantes con el propósito de reportarlo a cada estudiante y familia. Si existiera simultáneamente una prueba nacional que se usa con el fin de evaluar logros promedio en el ámbito nacional en las mismas áreas, se puede comparar los resultados de los mismos estudiantes en las dos pruebas para acumular evidencia acerca de la convergencia de los resultados. Por otro lado, existen algunas pruebas internacionales comparativas que miden aspectos que también se pretende medir en pruebas de alguna nación o provincia. En estos casos, la participación en estas pruebas internacionales puede servir para propósitos técnicos de validación de las mediciones nacionales. Por otro lado, otra estrategia de validación es contrastar los resultados de una prueba con los resultados de una observación directa a estudiantes o el análisis de sus tareas o proyectos realizados en clase.

¿Cómo se aseguró que las posibilidades que tienen los estudiantes de demostrar lo que saben no está mediada por factores ajenos al control de ellos?
Es importante describir cómo se asegura que todos los estudiantes estén en igualdad de condiciones para demostrar lo que saben. Es necesario, por ejemplo, tener evidencia de que las preguntas son interpretadas de la misma forma en distintas partes del país o entre distintos grupos lingüísticos, culturales y socioeconómicos. Si lo que se quiere hacer con la prueba es inferir qué es lo que aprenden o no los y las estudiantes, es muy importante que una contestación errónea represente de verdad la ausencia de un conocimiento y no que se ha interpretado incorrectamente la pregunta, debido a diferencias culturales o regionales en el uso del idioma, por ejemplo. Por otro lado, si se pretende utilizar los resultados de las pruebas para evaluar programas de estudio, opciones pedagógicas o currículum, también es importante describir cómo se hará para discriminar entre las ocasiones en que los estudiantes no pueden contestar preguntas que versan sobre cosas que les fueron enseñadas en clase, de aquellas ocasiones en que no pueden contestar preguntas sobre cosas que no les fueron enseñadas en clase. Esto siempre es importante, puesto que existen serios problemas éticos cuando a los estudiantes se les responsabiliza por contenidos que no han tenido la oportunidad de aprender, o cuando a los docentes se les responsabiliza por el logro de sus estudiantes, no habiéndoseles proporcionado materiales o capacitación para enseñar esos contenidos.

¿Cómo se aseguró una relación óptima entre los contenidos que se pretende enseñar en el grado evaluado y los contenidos evaluados?
Es importante documentar la relación entre el currículum o los estándares y el contenido de las pruebas. ¿Cómo se aseguró congruencia entre ambos? ¿Hubo participación o consulta de las unidades responsables de elaborar el currículum o planes de estudio durante el proceso de construcción de la prueba? ¿Cómo se procedió?

Estas son solamente algunas de las evidencias de validez que los sistemas de medición en América Latina deben considerar en sus estrategias de validación, evidencias que en la actualidad muy raramente se reportan. Es perentorio proporcionar estas evidencias y otras que sustenten el contenido y el uso de las pruebas.

Algunas consideraciones finales
Como se estableció anteriormente en la definición formal, la validez es cuestión
de grado. No existen mediciones perfectamente válidas – mediciones que reproducen fielmente todas aquellas facetas de la realidad educacional que pretenden medir-. Lo que existen son mediciones que son más o menos válidas, dependiendo de las conclusiones que se pretende tomar a partir de ellas o del uso que se pretende hacer de la información que arrojan. En este sentido, es importante recordar que las responsabilidades con respecto a la validación de las mediciones corresponden tanto a los diseñadores de las mediciones como a sus usuarios.

Quienes diseñan mediciones tienen la responsabilidad de reportar con claridad para qué sirven y para qué no sirven. Deben reportar toda la información pertinente para que los usuarios tengan elementos de juicio para evaluar su validez. Por otro lado, los usuarios tienen la responsabilidad de usar los resultados de acuerdo a los criterios de validez que tienen – o, si proponen un uso nuevo para las mediciones, les corresponde la tarea de validarlas para ese nuevo uso.

Debe señalarse también que en América Latina se pretende a menudo que una misma evaluación sirva para más de un propósito. Frecuentemente se espera que una misma prueba, por ejemplo, permita distinguir entre estudiantes que logran o no logran los objetivos académicos de un nivel y que, al mismo tiempo, sirva para juzgar la eficacia de distintas escuelas y la eficacia de diversos programas en las cuales participan dichas escuelas. La validación es específica de acuerdo al uso, es decir, validar un propósito de una prueba no equivale a validarla para otro. También es cierto que la validez es específica a las poblaciones. Es decir, una prueba validada para su uso en un país o en una provincia determinada, no puede ser considerada como validada para el uso con otras poblaciones. Si se desea utilizar el instrumento de medición en una nueva población, compete a quien lo desea utilizar acometer la tarea de su validación para el nuevo contexto. También es necesario tomar en cuenta que el tiempo cambia las características de los fenómenos y que, por lo tanto, la validación es una tarea continua
y una forma de asegurar que nuevos factores que puedan aparecer con el transcurrir del tiempo, no atenúen la validez de las mediciones.

La validación es un aspecto central e ineludible del proceso de asegurar que esas mediciones hagan aquello para lo cual fueron diseñadas. Dado que su objetivo es asegurar la congruencia de la medición con la realidad educacional que se supone se está midiendo, se trata de una actividad científica. También se trata de una actividad técnica de desarrollo, porque la tarea de acumular evidencia de validez a menudo trae como consecuencia el rediseño o el afinamiento de los instrumentos o de sus sustentos teóricos.

Es necesario reconocer que en América Latina puede no ser posible diseñar evaluaciones específicas para cada propósito para el cual se neces ita contar con información para tomar decisiones. Esto genera un dilema importante que deben confrontar los países. Pongamos un ejemplo. Si no existiera actualmente una prueba que se haya validado específicamente para ser usada para distinguir entre la eficacia de centros educativos que utilizan un programa de estudios y la de centros que utilizan otro, y es necesario decidir cuál de los programas debe ser difundido y promovido por el Ministerio - ¿significa acaso que no debemos utilizar las pruebas existentes para ese propósito? No hay respuesta simple. Para decidir sobre este asunto será necesario determinar en qué medida es mejor la decisión que tomaríamos utilizando los resultados de la prueba, en comparación con la decisión que tomaríamos sin usarla. Si el posible mayor valor de una decisión tomada sobre la base de la prueba se juzga suficiente, sería sin duda un insumo que se debe usar. Pero es necesario tener presente que esto no significa que la hemos validado para este propósito. El valor de los resultados de las pruebas como insumos para la toma de decisiones tan solo puede optimizarse cuando se asume la responsabilidad de validarlos para ese propósito. Tomar una decisión basada en una inferencia inválida equivale a tomar una decisión sin fundamento.

Este trabajo se desarrolló colaborativamente en un taller realizado en GRADE, en Lima, en agosto de
1999, a iniciativa de la coordinadora del Grupo de Trabajo, Patricia Arregui. El Grupo de Trabajo sobre Estándares y Evaluación de GRADE/PREAL es una de las actividades del Programa de Promoción de la Reforma Educativa en América Latina que lideran el Diálogo Interamericano de Washington, D.C. y CINDE, de Santiago de Chile. Cuenta con apoyo financiero del BID, de USAID, de IDRC, del GEFund y obtiene recursos para actividades puntuales de una diversidad de fuentes
Related Posts Plugin for WordPress, Blogger...

Busca en mis blogs