Evaluación Escolar: LA INTERPRETACIÓN JUSTIFICADA Y EL USO APROPIADO DE LOS RESULTADOS DE LAS MEDICIONES

La siguiente nota fue redactada por Gilbert Valverde

¿Qué significan los resultados que obtienen los y las

estudiantes en nuestras pruebas nacionales de rendimiento? ¿Estamos realmente sacando conclusiones apropiadas, significativas y útiles a partir de los resultados de las evaluaciones? ¿En qué medida podemos justificar la manera en que interpretamos el resultado de una evaluación?
¿Se usan los resultados de las evaluaciones de manera apropiada en la toma de decisiones?

Cuando los sistemas de evaluación conducen sus actividades, su interés es descubrir, describir e interpretar facetas del sistema educativo. Un propósito que comparten todos los sistemas de evaluación en América Latina es el de comprender qué capacidades académicas adquieren los niños y las niñas como resultado de su asistencia y participación en las escuelas y colegios del país. En el lenguaje curricular y evaluativo, a esas capacidades adquiridas como resultado de la escolarización comúnmente se las denomina logro.

Los y las estudiantes en un sistema educativo participan en un gran número de actividades durante el año escolar, y es común que el éxito con el que enfrentan cada situación de aprendizaje varíe de una ocasión a otra. Es posible que la estrategia óptima para comprender cómo se da (o no da) el logro sea registrar el tipo de éxito que el o la estudiante experimenta al enfrentar cada una de las situaciones que aprendizaje en los que participa al año – lo que, en alguna medida, es lo que docentes comúnmente intentan hacer como parte de su labor de evaluación en el aula.

Por su parte, las autoridades políticas y la sociedad civil tienen interés por tener información acerca del sistema educativo. Este interés obedece a distintas razones, entre las que se pueden citar una preocupación por la calidad de la educación (en muchos países observadores de la educación han sugerido recientemente que los y las estudiantes en América Latina logran poco en la escuela en comparación con los estudiantes de otros países, o con respecto a grupos de estudiantes en generaciones anteriores en su propio país, o en relación con los propósitos académicos que el sistema mismo se ha fijado para sí mismo). También hay quienes están preocupados por la equidad en la educación y necesitan descubrir si el sistema educativo favorece en forma desigual a distintos grupos económicos, culturales o lingüísticos y, por cierto, también están aquéllos que desean información útil para juzgar la eficacia de distintos tipos de inversiones o intervenciones que se proponen hacer en el ámbito nacional en la educación. Resulta casi evidente que la estrategia “óptima” mencionada anteriormente no se ajustaría a sus requerimientos, ya que sería imposible realizar un seguimiento a todos los y las estudiantes de un país -o a un número representativo de ellos - de esa manera.

Por esa razón, los países desarrollan otras estrategias para recolectar información acerca de sus sistemas educacionales (y a menudo, de diversos subsistemas). Hasta la fecha, la estrategia que se sigue en todos los sistemas de evaluación en América Latina es la de plantear una situación relativamente novedosa a los y las estudiantes, que dura uno o dos períodos lectivos. En esta nueva situación y durante ese lapso de tiempo, el sistema de evaluación pretende que los y las estudiantes demuestren que han adquirido un número significativo de las capacidades esperadas. En todos los países de la región, el tipo de situación que plantea el sistema de evaluación a los estudiantes es una prueba escrita, es decir, se hacen preguntas que los y las estudiantes deben de responder en forma escrita.

Las preguntas que se incluyen en las pruebas se encuentran allí porque sus autores consideran que ellas representan bien el tipo de situación que los y las estudiantes deben poder enfrentar con éxito. Es decir, se formulan preguntas que, a criterio de los autores de la prueba, exigen que los estudiantes utilicen lo que aprenden en la escuela para contestarlas correctamente. Por consiguiente, se postula que estas preguntas representan adecuadamente las capacidades adquiridas durante la escolarización. Es así como las pruebas – mediante sus preguntas – pretenden arrojar una representación fiel de las capacidades de los y las estudiantes que se generan en su paso por el sistema educativo. Ahora bien, ¿cuán fieles son estas representaciones?

Interpretar correctamente y usar apropiadamente la información que nos dan las pruebas significa que debemos preocuparnos por entender el tipo de representación del logro que permiten las mismas. Las representaciones que más típicamente arrojan las pruebas en América Latina, son números llamados promedios o notas, cuyo significado debe ser bien entendido por las personas encargadas de interpretar estos números. En otras palabras, debemos asegurarnos de entender correctamente qué tipo de información nos dan estos números acerca de las capacidades de estudiantes.

Plantearnos interrogantes sobre una forma apropiada y justificable de interpretar y usar los resultados de nuestras pruebas y encuestas es preocuparnos por lo que se llama en medición la validez.

La validez no es una propiedad intrínseca de las pruebas o las encuestas, sino una propiedad de las interpretaciones y los usos que se propone dar a los datos que se obtienen de ellas. Es así que actualmente se define la validez como el grado en que la evidencia empírica y la teoría dan sustento a las interpretaciones de los resultados de una medición. Asimismo, la validez se refiere al ámbito del legítimo uso de esas interpretaciones y también al grado en que el uso de la prueba no produce un impacto negativo no deseado sobre el sistema educativo. En otras palabras, la validez se refiere a la calidad de las conclusiones que tomamos a partir de las mediciones y a las consecuencias que las mediciones generan en los procesos que se proponen medir

Algunos ejemplos
Veamos algunas situaciones que se dan en América Latina y que sirven para ejemplificar algunos tipos de preocupación por la validez de las evaluaciones que se realizan en la actualidad:

1. El Ministerio de Educación se encuentra implementando un nuevo currículum nacional de Matemáticas, cuyo enfoque principal es que los estudiantes aprendan cómo resolver problemas novedosos de la vida real utilizando elementos de razonamiento matemático. Sin embargo, para descubrir qué han logrado los y las estudiantes, se administra una prueba escrita cuya mayoría de preguntas o reactivos exigen a los estudiantes que recuerden términos y principios matemáticos, o sólo requieren que ellos apliquen procedimientos rutinarios para resolver problemas o ejercicios muy parecidos a los que aparecen en sus libros de texto. En este caso, el Ministerio de Educación claramente no cuenta con un instrumento apropiado para descubrir si los estudiantes han logrado dominar las capacidades que persigue el nuevo currículum nacional. Sería injustificado concluir que los y las estudiantes que obtienen un alto promedio en esta prueba poseen la capacidad de resolver problemas novedosos de la vida real, porque las preguntas no exigen que los estudiantes recurran a este tipo de habilidades para resolverlos.

2. Se escribe una prueba para descubrir si los estudiantes de educación primaria o básica de 7 años de edad están adquiriendo conocimientos acerca de ciencias naturales. En las aulas se enseñan estos contenidos sin texto escolar, usando elementos del entorno natural de la escuela. La prueba contiene muchas preguntas cuya comprensión exigiría que los niños y las niñas posean gran habilidad para comprender textos escritos y un vocabulario altamente desarrollado. En una prueba de esta naturaleza el significado de los promedios es sumamente difícil de descubrir.¿Acaso un bajo promedio indica la no-adquisición de los conocimientos que se pretendía medir, o más bien mide la habilidad lectora de los niños? En el caso de niños y niñas pequeños, ¿en qué medida son las supuestas pruebas de ciencias (o de matemáticas, ciencias sociales, etc.) en realidad pruebas de lectura?

3. Se administra una prueba de logros a todos los estudiantes de octavo grado en un país. El Ministerio de Educación utiliza los resultados obtenidos por los estudiantes en cada escuela para calcular el promedio de logro para cada establecimiento. Comparando los promedios de los establecimientos según éstos sean privados o públicos se descubre que los promedios de las escuelas privadas son más altos que los de las públicas. Se concluye que las escuelas privadas son más eficaces que las públicas, aun cuando ocurre que éstas no cuentan con textos que aborden uno de los temas más importantes de la prueba. Aquí, sin duda, es muy problemática la interpretación que se propone para los resultados, ya que un recurso esencial para el aprendizaje de un área de contenido o competencia específico (libro de texto que cubra temas medidos en la prueba) no se encuentra repartido equitativamente en los establecimientos. ¿Acaso se justifica la interpretación de un bajo promedio como indicador de falta de eficacia del establecimiento? ¿No será más justificado interpretarlo como indicador de una falta de equidad en la distribución de los recursos?

4. En un país se utiliza una prueba a final de la educación secundaria o media para avalar un diploma que se otorga al egreso de ese nivel. Dado este fin, se interpreta que pasar esta prueba indica que un estudiante ha logrado dominar todos los objetivos del currículum propuestos para cada año en ese nivel. En la prueba se miden algunos aspectos del currículum con una variedad de preguntas, otros con muy pocas. Se otorga el diploma correspondiente a todos los y las estudiantes que aprueban. Preocupa en este caso si la conclusión de que un estudiante domina los objetivos del nivel se puede defender si no se mide con igual rigor los distintos componentes del currículum.

5. En un país no existe un currículum nacional, sino que cada provincia tiene su propio currículum. La Secretaría de Educación administra una prueba en todas las provincias. Para garantizar que la prueba es justa para todas las provincias, se decide poner sólo preguntas sobre aquellos temas que se enseñan en todas ellas – esto significa que se evalúa un subconjunto de las cosas que en cada provincia se pretende enseñar-. Comparando los promedios de cada provincia, se encuentra que en algunas se obtienen resultados muy superiores que en las demás. Se concluye que es mayor la eficacia de los establecimientos en aquellas provincias. Sin embargo, ocurre que en las provincias de alto rendimiento, se pretende enseñar muy pocos temas que no están en la prueba nacional. En las provincias de más bajo rendimiento, los temas que se evalúan en la prueba nacional representan sólo una pequeña parte de los temas que se proponen enseñar, y no se les dedica mucho tiempo lectivo ni espacio en los libros de texto. ¿Es pertinente hacer una comparación entre los resultados de las provincias cuando en algunas de ellas se está enseñando una mayor proporción de los temas evaluados que en otras? ¿Acaso los promedios diferentes obtenidos de esta manera indican diferencias en eficacia educativa? ¿No será más bien que estos distintos promedios indican diferencias en la pertinencia de la prueba para cada una de las provincias?

6. Se diseña una prueba de lenguaje que entre sus preguntas contiene una sola en la cual los y las estudiantes escriben un t exto propio. Al revisar este texto, se califican aspectos de ortografía, gramática y otras características de la escritura. El Ministerio de Educación desea distribuir material de apoyo pedagógico para docentes de lenguaje, pero para usar mejor su presupuesto, pretende descubrir los aspectos más débiles de los logros de los estudiantes y para ello se fija en los resultados de la prueba. Se observa en la prueba que la mayor parte de los estudiantes tuvieron mal rendimiento en la pregunta donde se pedía que escribieran su propio texto. En consecuencia, se escriben módulos de apoyo pedagógico y se proporciona capacitación a los docentes para ayudarlos a enseñar mejor gramática y expresión escrita. ¿Acaso la falta de éxito en contestar una sola pregunta es suficiente para concluir que los estudiantes no dominan esas capacidades? Si el Ministerio cuenta con recursos limitados para esfuerzos de refuerzo pedagógico y trata de utilizar los resultados de la evaluación para sacar provecho máximo de su inversión en ella, ¿ha utilizado en forma apropiada los resultados de la evaluación? Por otro lado, si los docentes mediante los módulos y capacitaciones adquieren la convicción de que deben dedicar mucho más esfuerzo a enseñar gramática y expresión escrita, ¿ha sido apropiada la información para ocasionar ese cambio en las prioridades de los docentes?

Las situaciones anteriores ejemplifican los problemas que existen en torno a las interpretaciones justificadas y al uso apropiado de la información que arrojan las mediciones. Muchos factores pueden afectar el significado que los ministerios u otros usuarios pretenden asignar a los resultados de las mediciones. A menudo se distorsionan los significados reales, lo que afecta su validez y, en consecuencia, su pertinencia como insumo para la toma de decisiones. Dado que éste es un riesgo ineludible en la medición, es importante sustentar con evidencia pertinente el tipo de conclusiones haciendo explícitos de antemano los tipos de uso para los cuales los resultados podrán ser empleados legítimamente, así como los tipos de fines para los cuales los resultados
NO podrán utilizarse de manera justificada.

El proceso de acumulación de evidencias que dan sustento a las interpretaciones que se proponen para una medición se deno mina validación. La interpretación justa y el uso apropiado de los resultados de las mediciones dependen en gran medida de la solidez del esfuerzo del equipo que diseña las mediciones por asegurar la validación de las mismas.

Opciones para la validación de mediciones en educación
El proceso de validación consiste en acumular evidencia que da sustento o justifica las interpretaciones que se pretende derivar de las pruebas y encuestas. Existe una gran cantidad de opciones en cuando al tipo de evidencia que se puede acumular y reportar. Cada tipo de evidencia ilumina o da apoyo a distintas facetas de la validez, pero no representa un tipo distinto de validez. La validez es un concepto unitario que obliga a los diseñadores y usuarios a evaluar de manera integral toda la evidencia disponible sobre cuán bien están justificadas las interpretaciones de los datos y las maneras de utilizar la información recogida durante la aplicación de la medición.

En el caso de las pruebas de logro, sean éstas referidas a normas o referidas a criterios, se pretende derivar conclusiones que van más allá de las preguntas que componen las pruebas. Es decir, en ambos casos se reconoce que las preguntas que contiene la prueba representan solamente una pequeña muestra de todas las preguntas posibles que se podrían formular para conocer si los y las estudiantes poseen ciertas capacidades. De los análisis de cualquiera de los dos tipos de pruebas mencionadas se concluye que si los estudiantes contestan con éxito 80 por ciento de las preguntas formuladas en la prueba, serían también capaces de contestar con éxito 80 por ciento de todas las preguntas posibles que se podrían formular para medir esa capacidad.

Una forma obvia de proceder para sustentar esta conclusión es mediante una definición clara de lo que se quiere medir. Una vez que se cuenta con esa definición, es posible comparar cada pregunta que se propone para la prueba y juzgar su concordancia con la definición. Si las preguntas de la prueba se han escrito de acuerdo a una definición precisa de lo que se pretende medir, las inferencias que se realicen con respecto al desempeño de los y las estudiantes en esas preguntas serán más válidas que en el caso contrario. Desde este punto de vista, la validación es un proceso inherente al procedimiento que se sigue para diseñar pruebas referidas a criterios (ver el capítulo al respecto en este mismo volumen), puesto que la definición del dominio (en términos de campo de conocimientos o habilidades) y el esfuerzo por asegurar la concordancia de las preguntas con el dominio definido son dos de sus preocupaciones centrales. Cuando se desarrolla y aplica este tipo de pruebas, la documentación de las definiciones de los dominios, los juicios acerca de la concordancia de las preguntas con los dominios y los pasos seguidos para asegurar que los dominios representen con justicia el currículum o los estándares, sirven a dos propósitos: guían el desarrollo de la prueba y documentan la evidencia de la validación de la medición propuesta.

Frecuentemente se propone también que las pruebas sean interpretadas con relación a un criterio externo. Esto es típico, por ejemplo, de las pruebas de admisión a la educación superior. En ese tipo de pruebas, se establece (con mayor o menor grado de fundamento) que un promedio determinado predice una exitosa carrera universitaria. En el caso de algunos países, se pretende establecer que un diploma de educación secundaria – avalado por una prueba de bachillerato – certifica que el diplomado posee ciertas capacidades básicas como posible empleado, de modo tal que se supone que el éxito en la prueba predice una exitosa carrera como trabajador.

Aun en los casos en que no existe un criterio externo propuesto explícitamente para la prueba, la utilización de referentes externos puede reforzar la validación de las pruebas. Por ejemplo, cuando se compara dos formas de medir la misma competencia y ambas formas arrojan resultados semejantes, esto puede dar evidencia para la validación.

En América Latina, es poco frecuente que se proporcione documentación acerca de las razones que conducen a las distintas decisiones que se toman en el proceso de construcción de las pruebas. Tampoco es frecuente ofrecer información acerca de los propósitos que se persiguen con respecto a la naturaleza y uso de los resultados, acerca de los grupos entre los cuales fueron validados los instrumentos y sobre las condiciones específicas de la medición. Para la validación de los resultados que generan las pruebas, es de suma importancia que los servicios nacionales de evaluación educativa publiquen informes técnicos que contesten las siguientes preguntas con claridad:

¿Acerca de cuáles capacidades o destrezas se derivarán conclusiones?
En esos informes se debe incluir no sólo una definición explícita de las capacidades que interesan sino también de aquéllas que pretendemos evitar que debiliten la validez de la medición de las primeras. Por ejemplo, debe explicarse cómo se ha procurado que la habilidad para leer no obstaculice la oportunidad que tienen niños de corta edad de demostrar lo que saben de ciencias naturales en la prueba de esa materia.

¿Cómo se aseguró concordancia entre las preguntas y las capacidades o destrezas que se propuso medir?
Es necesario documentar los procedimientos del caso y describir en detalle el resultado de su uso. Por ejemplo: ¿cómo se utilizaron las definiciones a la hora de escribir preguntas o cómo procedieron los jueces para asegurar la concordancia entre las preguntas y los dominios a medir?, ¿de qué manera se recogieron y analizaron sus juicios?, etc.

¿Qué tipos de preguntas permiten comprobar que se dominan las capacidades?
Por ejemplo, si se tiene el objetivo de comprobar si los estudiantes pueden resolver problemas novedosos de la vida real en matemáticas o producir textos propios legibles, coherentes y persuasivos, ¿se puede usar preguntas en las cuales los estudiantes escogen la opción correcta entre cuatro o cinco posibilidades?; ¿acaso la habilidad de reconocer la respuesta correcta entre distintas opciones es idéntica a la generación de una respuesta propia?; ¿se necesitan más bien preguntas que les pidan demostrar los pasos que siguen para resolver problemas o escribir textos?; ¿por qué?. Quizás algunas destrezas o capacidades requieren para ser medidas del uso de más de un tipo de preguntas, en cuyo caso habrá que documentar cuáles tipos, cuántos de cada tipo y justificar el peso que se le va a asignar a cada tipo a la hora de calcular promedios, etc.

¿Cómo se evidencia que lo que predice la prueba ocurre en realidad?
En este sentido, cuando el propósito de una prueba es el de predecir el éxito académico o el éxito en la vida laboral, se debe acumular y reportar evidencias acerca de la relación entre puntajes o promedios obtenidos por los estudiantes en las pruebas con lo que ocurre de hecho durante su carrera académica o laboral.

¿En qué medida son compatibles los resultados obtenidos con un instrumento y los obtenidos con otro?
A menudo existen distintos instrumentos que pretenden medir cosas semejantes. Por ejemplo, pueden existir provincias que desean medir el logro de sus estudiantes con el propósito de reportarlo a cada estudiante y familia. Si existiera simultáneamente una prueba nacional que se usa con el fin de evaluar logros promedio en el ámbito nacional en las mismas áreas, se puede comparar los resultados de los mismos estudiantes en las dos pruebas para acumular evidencia acerca de la convergencia de los resultados. Por otro lado, existen algunas pruebas internacionales comparativas que miden aspectos que también se pretende medir en pruebas de alguna nación o provincia. En estos casos, la participación en estas pruebas internacionales puede servir para propósitos técnicos de validación de las mediciones nacionales. Por otro lado, otra estrategia de validación es contrastar los resultados de una prueba con los resultados de una observación directa a estudiantes o el análisis de sus tareas o proyectos realizados en clase.

¿Cómo se aseguró que las posibilidades que tienen los estudiantes de demostrar lo que saben no está mediada por factores ajenos al control de ellos?
Es importante describir cómo se asegura que todos los estudiantes estén en igualdad de condiciones para demostrar lo que saben. Es necesario, por ejemplo, tener evidencia de que las preguntas son interpretadas de la misma forma en distintas partes del país o entre distintos grupos lingüísticos, culturales y socioeconómicos. Si lo que se quiere hacer con la prueba es inferir qué es lo que aprenden o no los y las estudiantes, es muy importante que una contestación errónea represente de verdad la ausencia de un conocimiento y no que se ha interpretado incorrectamente la pregunta, debido a diferencias culturales o regionales en el uso del idioma, por ejemplo. Por otro lado, si se pretende utilizar los resultados de las pruebas para evaluar programas de estudio, opciones pedagógicas o currículum, también es importante describir cómo se hará para discriminar entre las ocasiones en que los estudiantes no pueden contestar preguntas que versan sobre cosas que les fueron enseñadas en clase, de aquellas ocasiones en que no pueden contestar preguntas sobre cosas que no les fueron enseñadas en clase. Esto siempre es importante, puesto que existen serios problemas éticos cuando a los estudiantes se les responsabiliza por contenidos que no han tenido la oportunidad de aprender, o cuando a los docentes se les responsabiliza por el logro de sus estudiantes, no habiéndoseles proporcionado materiales o capacitación para enseñar esos contenidos.

¿Cómo se aseguró una relación óptima entre los contenidos que se pretende enseñar en el grado evaluado y los contenidos evaluados?
Es importante documentar la relación entre el currículum o los estándares y el contenido de las pruebas. ¿Cómo se aseguró congruencia entre ambos? ¿Hubo participación o consulta de las unidades responsables de elaborar el currículum o planes de estudio durante el proceso de construcción de la prueba? ¿Cómo se procedió?

Estas son solamente algunas de las evidencias de validez que los sistemas de medición en América Latina deben considerar en sus estrategias de validación, evidencias que en la actualidad muy raramente se reportan. Es perentorio proporcionar estas evidencias y otras que sustenten el contenido y el uso de las pruebas.

Algunas consideraciones finales
Como se estableció anteriormente en la definición formal, la validez es cuestión
de grado. No existen mediciones perfectamente válidas – mediciones que reproducen fielmente todas aquellas facetas de la realidad educacional que pretenden medir-. Lo que existen son mediciones que son más o menos válidas, dependiendo de las conclusiones que se pretende tomar a partir de ellas o del uso que se pretende hacer de la información que arrojan. En este sentido, es importante recordar que las responsabilidades con respecto a la validación de las mediciones corresponden tanto a los diseñadores de las mediciones como a sus usuarios.

Quienes diseñan mediciones tienen la responsabilidad de reportar con claridad para qué sirven y para qué no sirven. Deben reportar toda la información pertinente para que los usuarios tengan elementos de juicio para evaluar su validez. Por otro lado, los usuarios tienen la responsabilidad de usar los resultados de acuerdo a los criterios de validez que tienen – o, si proponen un uso nuevo para las mediciones, les corresponde la tarea de validarlas para ese nuevo uso.

Debe señalarse también que en América Latina se pretende a menudo que una misma evaluación sirva para más de un propósito. Frecuentemente se espera que una misma prueba, por ejemplo, permita distinguir entre estudiantes que logran o no logran los objetivos académicos de un nivel y que, al mismo tiempo, sirva para juzgar la eficacia de distintas escuelas y la eficacia de diversos programas en las cuales participan dichas escuelas. La validación es específica de acuerdo al uso, es decir, validar un propósito de una prueba no equivale a validarla para otro. También es cierto que la validez es específica a las poblaciones. Es decir, una prueba validada para su uso en un país o en una provincia determinada, no puede ser considerada como validada para el uso con otras poblaciones. Si se desea utilizar el instrumento de medición en una nueva población, compete a quien lo desea utilizar acometer la tarea de su validación para el nuevo contexto. También es necesario tomar en cuenta que el tiempo cambia las características de los fenómenos y que, por lo tanto, la validación es una tarea continua
y una forma de asegurar que nuevos factores que puedan aparecer con el transcurrir del tiempo, no atenúen la validez de las mediciones.

La validación es un aspecto central e ineludible del proceso de asegurar que esas mediciones hagan aquello para lo cual fueron diseñadas. Dado que su objetivo es asegurar la congruencia de la medición con la realidad educacional que se supone se está midiendo, se trata de una actividad científica. También se trata de una actividad técnica de desarrollo, porque la tarea de acumular evidencia de validez a menudo trae como consecuencia el rediseño o el afinamiento de los instrumentos o de sus sustentos teóricos.

Es necesario reconocer que en América Latina puede no ser posible diseñar evaluaciones específicas para cada propósito para el cual se neces ita contar con información para tomar decisiones. Esto genera un dilema importante que deben confrontar los países. Pongamos un ejemplo. Si no existiera actualmente una prueba que se haya validado específicamente para ser usada para distinguir entre la eficacia de centros educativos que utilizan un programa de estudios y la de centros que utilizan otro, y es necesario decidir cuál de los programas debe ser difundido y promovido por el Ministerio - ¿significa acaso que no debemos utilizar las pruebas existentes para ese propósito? No hay respuesta simple. Para decidir sobre este asunto será necesario determinar en qué medida es mejor la decisión que tomaríamos utilizando los resultados de la prueba, en comparación con la decisión que tomaríamos sin usarla. Si el posible mayor valor de una decisión tomada sobre la base de la prueba se juzga suficiente, sería sin duda un insumo que se debe usar. Pero es necesario tener presente que esto no significa que la hemos validado para este propósito. El valor de los resultados de las pruebas como insumos para la toma de decisiones tan solo puede optimizarse cuando se asume la responsabilidad de validarlos para ese propósito. Tomar una decisión basada en una inferencia inválida equivale a tomar una decisión sin fundamento.

Este trabajo se desarrolló colaborativamente en un taller realizado en GRADE, en Lima, en agosto de
1999, a iniciativa de la coordinadora del Grupo de Trabajo, Patricia Arregui. El Grupo de Trabajo sobre Estándares y Evaluación de GRADE/PREAL es una de las actividades del Programa de Promoción de la Reforma Educativa en América Latina que lideran el Diálogo Interamericano de Washington, D.C. y CINDE, de Santiago de Chile. Cuenta con apoyo financiero del BID, de USAID, de IDRC, del GEFund y obtiene recursos para actividades puntuales de una diversidad de fuentes

sábado, 22 de noviembre de 2008

LA INTERPRETACIÓN JUSTIFICADA Y EL USO APROPIADO DE LOS RESULTADOS DE LAS MEDICIONES

No hay comentarios:

Busca en mis blogs