Evaluación Escolar: CONSTRUCCIÓN DE UN TEST DE EVALUACIÓN

Sostenemos que la evaluación es parte del proceso educativo, no su culminación ¿No sería valioso tener una forma de evaluar, que no sea costosa en tiempo? ¿Las nuevas tecnologías podrían ayudarnos? Tener información rápida sobre la marcha de las actividades es de gran valor, para efectuar las correcciones en forma rápida.

Evaluación mediante test

Este apartado presenta las fases de construcción de un test de evaluación. La primera etapa es la concepción del test, a partir de la que, dependiendo del grado de sofisticación que se desee, podrán o no efectuarse las etapas de construcción del test de manera electrónica y construcción y calibración del banco de ítems. En todo caso, el desarrollo de la prueba de evaluación culmina en la etapa de administración del test, si bien cuando se ha calibrado un banco de ítems conviene realizar periódicamente labores de mantenimiento en las que la calibración on-line puede ser de gran utilidad.

1 Primera fase: Concepción del test

El primer paso de la administración de un test consiste en crear las preguntas que se pretende incluir, tarea para la que no es necesario en principio ningún ordenador. La construcción de ítems de calidad puede resultar más complicada de lo que parec e, de ahí que sea aconsejable seguir algunas sugerencias, como por ejemplo, no incluir en el enunciado palabras como “siempre”, “ninguno” o “generalmente”, no repetir palabras en cada posible respuesta cuando pueden escribirse una sola vez en el enunciado; evitar negaciones dobles y opciones como “ninguna de las anteriores” o “todas las anteriores”; y utilizar tres o cuatro distractores (alternativas de respuesta incorrecta) relevantes y atractivos, con la misma longitud que la respuesta buena (Muñiz, 1997). Aunque seguir estas sugerencias no garantiza el éxito, al menos facilita la identificación de ítems potencialmente problemáticos.

Una vez construidos los ítems del test es posible utilizar los métodos tradicionales de administración del mismo, en concreto, repartir a los alumnos un cuadernillo con las preguntas y una hoja donde inscribir las respuestas a cada una de ellas. En una situación como ésta, en la que puede hacerse caso omiso de las secciones siguientes, la posterior recogida y análisis de datos puede ser una tarea costosa y pesada, al menos si se compara con las facilidades que ofrecen los tests administrados en soporte informático. El siguiente apartado versará acerca de la creación de una versión informática de los ítems desarrollados en esta fase, independientemente de si se les va a dar un uso único en un test o si se pretende almacenarlos en un banco de ítems para aprovecharlos en diferentes pruebas de evaluación.

2 Segunda fase: Construcción del banco de ítems o del test

Para poder administrar mediante un ordenador el test diseñado, lo primero que hay que hacer es dar a los ítems un formato adecuado para ser utilizados por el soporte informático. En determinadas situaciones (como cuando los ítems desarrollados no van a reutilizarse) será suficiente con crear el test a administrar mediante un procesador de texto; pero si los objetivos son más ambiciosos (como cuando se quiere tomar la TRI como bas e para la construcción de tests adaptativos) es necesario implementar un banco de ítems para ser utilizado en la generación de tests. Existen en el mercado múltiples y variadas herramientas que facilitan esta labor, generando automáticamente la base de dat os que almacenará el banco de ítems. Aunque algunas de ellas se dedican además a otras tareas complementarias, cabe destacar las aplicaciones Malted (malted.cnice.mecd.es), HotPotatoes 6.0 (www.aula21.net) y My Teacher 2.0, que facilitan la creación de contenidos didácticos y tests de evaluación; así como Test Constructor 2.5, Tester 2.0, TestIt 3.0 Build 110, Random Test Generator PRO 8.0, Academic Test Tool 3.0, QuizMaster 1.0, Examenes 1.2, TestGIP, Aritest Profesores 2.1, y tPilot 1.4, que permiten almacenar ejercicios con el fin de generar tests de evaluación. Todos estos programas se pueden descargar desde la web.

El formato de representación de los ítems puede ser un factor crítico en algunos contextos, de ahí que antes de implementar el banco de ítems sea conveniente decidir cómo se va a simbolizar. Hasta hace poco, cada sistema utilizaba sus propios formatos para representar ítems y tests, tal y como ocurre con los programas recién enumerados. Sin embargo, en la actualidad existe una tendencia a usar estándares para la representación de ítems, como Question & Test Interoperability (QTI) desarrollado por la iniciativa IMS (www.imsglobal.org). Algunas herramientas como ADISTI (López -Cuadrado, Armendariz y Pérez, 2003) y Canvas Learning (www.imsprojects.org), intuitivas y fáciles de usar, almacenan automáticamente los ítems en una base de datos siguiendo este estándar. Otras herramientas de autor, como Macromedia Authorware

7 y Macromedia Dreamweaver MX con módulo de educación (www.macromedia.com), Tour Virtual de QS Author 1.6 (www.qsmedia.com), o Toolbook 8.6 (www.sumtotalsystems.com), facilitan la informatización de los ítems, permitiendo crear y administrar un curso entero siguiendo algún otro estándar educativo como SCORM (www.adlnet.org) o el propues to por el AICC (www.aicc.org).

3 Tercera fase: Calibración del banco de ítems

Cuando se desea utilizar como marco teórico la TRI, es necesario conocer los valores de los parámetros que definen la curva característica de cada ítem. Aunque la TRI define cuatro parámetros, en la práctica sólo se utilizan los modelos de uno (dificultad), dos (dificultad y discriminación) y tres parámetros (dificultad, discriminación y pseudoacierto).

La calibración consiste en establecer en una métrica común los parámetros de cada ítem del banco. Sólo cuando los ítems se encuentren en la misma escala se podrá asegurar que cualquier subconjunto de ellos proporcionará estimaciones de habilidad invariantes e independientes de la composición del test utilizado. Realizar la calibración de un banco de ítems, si bien no es excesivamente complicado, conlleva tareas largas y costosas, debidas a la gran cantidad de trabajo de campo que se requiere. Una práctica utilizada con cierta frecuencia, aunque al margen de las instrucciones que proporciona la psicometría, es hacer una estimación de la dificultad de cada uno de los ítems (en particular, al utilizar el modelo de un único parámetro) en base a las contribuciones de expertos en la materia que se pretende evaluar. Aunque consultar a profesor es o pedagogos doctos en la materia que se pretende evaluar y pedirles que valoren los parámetros de los ítems puede ser un buen comienzo, no es recomendable conformarse sólo con esto, dado que por tratarse de una estimación subjetiva, no siempre resulta fácil determinar acertadamente los valores de los parámetros, y la precisión y validez de los tests posteriormente compilados podría quedar en entredicho. Lo más habitual y recomendable de cara a generar tests adaptativos fiables es calibrar el banco de ítems mediante algún procedimiento estadístico. Por ello, la calibración se ejecuta por lo general en cuatro pasos (Renom y Doval, 1999): primero se administran los ítems a una gran muestra de sujetos, generalmente utilizando algún tipo de diseño de anclaje; tras analizar las respuestas recopiladas, se estiman estadísticamente los parámetros de los ítems y las habilidades de los sujetos; después se unifican las escalas de los diferentes subtests de anclaje para que todo el banco de ítems (y los tests generados a partir de él) utilicen la misma métrica; y por último, se efectúan estudios de ajuste de los datos al modelo de la TRI con el fin de identificar y retirar ítems defectuosos. Los siguientes cuatro epígrafes describirán cada una de estas fases.

Diseño de anclaje y administración de los ítems

Los modelos matemáticos de la TRI se fundamentan en variables (parámetros) latentes, difícilmente observables pero que se pueden estimar. Y en esto consiste precisamente la calibración de un banco de ítems. Se trata de administrar las preguntas a una muestra de sujetos, cuyas habilidades son en principio desconocidas, para obtener estimaciones de los parámetros de cada ítem a partir de las respuestas recopiladas. Para poder asegurar que estos parámetros sólo dependen del ítem y no, por ejemplo, de los sujetos a los que se ha administrado, la muestra utilizada ha de ser lo suficientemente grande y heterogénea como para que las estimaciones obtenidas sean insesgadas. Así, el primer paso en el proceso de calibración consiste en administrar cada ítem a una muestra de varios cientos de personas. Llevar a cabo una administración de semejantes características obligará probablemente a repartir los ítems entre diversos subtests. Existen varias alternativas para unificar las previsiblemente diferentes métricas obtenidas en los distintos subtests en una escala que sea común a todo el banco de ítems, pudiendo haber algunas cuestiones que contesten todos los sujetos y/ o algunos sujetos a los que se les administre todo el banco de ítems(Kolen y Brennan, 1995). El objetivo en cualquier caso es disponer de una referencia común a todas las pruebas que sirva de anclaje en la posterior fase de equiparación de las diferentes métricas. La opción más utilizada es la de los ítems de anclaje, que son conjuntos de ítems que dos o más subtes ts tienen en común. Los parámetros de estos ítems comunes se estiman junto con los del resto de ítems que componen cada subtest, para después comparar los resultados obtenidos en cada caso, lo que facilitará la equiparación de las estimaciones de los parámetros de los ítems no comunes.

Análisis previos y estimación de parámetros

Registrados los resultados de la administración de los ítems, es recomendable realizar análisis previos a la estimación de parámetros con el fin de detectar y depurar anomalías. Renom y Doval (1999) enumeran tres frentes de acción a la hora de analizar las matrices de respuesta: filtrado de la obtención y captura de datos a fin de evitar tratar protocolos anómalos de los examinados, análisis convencionales de cada subtest para detectar ítems incompatibles con los modelos de la TRI, y verificación de las pautas de respuesta de los examinados. Antes de proceder con la estimación de parámetros, también se suele realizar otro estudio, el del supuesto de unidimensionalidad del banco de ítems. Si bien este análisis pertenece a la etapa posterior de verificación del ajuste al modelo de la TRI, su práctica suele adelantarse porque no requiere conocer de antemano los valores de los parámetros. Como resultado de los estudios previos a la estimación de parámetros, puede ocurrir que alguno de los ítems del banco sea retirado del mismo (por ejemplo, por no satisfacer el principio de unidimensionalidad).

Una vez revisadas y depuradas las matrices de respuesta obtenidas tras la aplicación de los subtests se está en condiciones de proceder a la estimación de parámetros en base a alguno de los modelos de la TRI. Cuando se trata de ítems de respuesta múltiple dicotómicos (esto es, en los que sólo se distingue acierto y error), la experiencia y la intuición indican que el modelo de tres parámetros es el más adecuado, algo en lo que coinciden la mayoría de los autores(Santisteban y Alvarado, 2001).

Estimar la habilidad del examinado cuando se dispone de los parámetros de los ítems puede realizarse de manera sencilla mediante la técnica de máxima verosimilitud condicionada (tal y como ocurre en los TAI, de los que se hablará más adelante). Lo mismo ocurre en la situación inversa, esto es, cuando se desea obtener la curva característica de un ítem conocidas las habilidades de los sujetos a quienes se les ha administrado (Baker, 1992). Sin embargo, en el contexto de la calibración del banco de ítems tanto la habilidad de los sujetos a quienes se les ha administrado los subtests como los parámetros de los ítems son variables desconocidas. Por ello, pese a que sólo interesan las estimaciones de los parámetros de los ítems, es necesaria una estimación simultánea mediante algún método alternativo. La estimación máximo verosímil conjunta (Birnbaum, 1968), que se suele implementar mediante un tratamiento multivariado del procedimiento de Newton -Raphson, asigna un valor inicial (por ejemplo, aleatorio) a los parámetros de los ítems y, asumiendo que son los verdaderos, estima las habilidades de los sujetos, generalmente mediante el procedimiento de máxima verosimilitud condicionada. Tomando estos valores de habilidad recién calculados como reales, se procede a recalcular los parámetros de los ítems (mediante el procedimiento de estimación máximo verosímil, condicionado en este caso a los valores de habilidad). Estas nuevas estimaciones de los parámetros se usarán a su vez para volver a estimar las habilidades de los sujetos, habilidades que permitirán obtener valores más precisos de los parámetros de los ítems. Las dos etapas del proceso se repetirán hasta obtener convergencia en los parámetros de los ítems y las habilidades de los examinados. La estimación conjunta de habilidades y parámetros plantea dos inconvenientes: por una parte, exige la eliminación de las puntuaciones extremas (todo aciertos o todo fallos), tanto para ítems como para sujetos, y por otra, el número de parámetros y habilidades a estimar aumenta a medida que crece el tamaño de la muestra. El método de estimación máximo verosímil marginal(Bock y Aitkin, 1981) evita estos problemas, as umiendo que la muestra de sujetos se ha seleccionado aleatoriamente de una población en la que la habilidad está distribuida en base a una función de densidad g(è), que desde un punto de vista bayesiano correspondería a la distribución previa de probabilidades, en lugar de usar un valor è para cada examinado. A diferencia de la estimación máximo verosímil conjunta, el procedimiento de máxima verosimilitud marginal proporciona consistencia a la estimación de los parámetros, y es independiente del tamaño de la muestra. Pese a ser probablemente la técnica más utilizada, el método de máxima verosimilitud marginal no está exento de problemas, por lo que se han definido algunas variantes y generalizaciones del mismo, habiéndose propuesto incluso alternativas puramente bayesianas (Hambleton y Swaminathan, 1985). Aunque se han presentado las diferentes técnicas de estimación conjunta de parámetros y habilidades, uno puede despreocuparse a la hora de calibrar un banco de ítems, pues existen paquetes de software que las implementan, calculando en pocos segundos estimaciones de los parámetros invariantes y robustas que se ajusten a su curva característica según el modelo TRI correspondiente. Destacan LOGIST (Wingersky, 1983), que implementa la estimaciones máximo verosímil conjunta e incondicional, y se ha convertido en el estándar de facto con el que se comparan los demás procedimientos de estimación de parámetros; y BILOG (Mislevy y Bock, 1990), que se perfila como uno de los mejores programas al implementar la reformul ación del método de máxima verosimilitud marginal de Bock y Aitkin (1981).

Equiparación de puntuaciones

Administrar todo el banco de ítems a cada sujeto de la muestra tiene la ventaja de que se elimina una de las fuentes más importantes de error en la equiparación de puntuaciones, a saber, la relativa al muestreo de los examinados. No obstante, plantea diversos problemas, dado que aplicar un elevadísimo número de ítems a una misma persona no siempre es factible, amenaza la seguridad del banco de ítems y puede deparar resultados negativos debidos a la fatiga o a la desmotivación. Por su parte, distribuir los ítems en varios subtests tiene la ventaja de que no se administra todo el banco a cada examinado, pero, después de haber estimado los parámetros de los ítems administrados en los subtests, resulta necesario equiparar sus escalas de medida con el fin de que todo el banco utilice una métrica común. Sólo así, una vez se dispone del banco calibrado, o lo que es lo mismo, cuando los parámetros de todos los ítems están expresados en la misma métrica, será posible verificar la bondad de ajuste, hecho lo cual se podrá obtener la curva característica y la función de información de cualquier ítem o test generado a partir del banco.

La equiparación de puntuaciones es un proceso estadístico que permite ajustar las puntuaciones de diferentes tests, cuyas dificultades probablemente serán desiguales, con el fin de poder compararlas en una escala de habilidad con origen y unidad comunes. Técnicamente, cuando se ha utilizado un diseño de anclaje para la administración de los ítems, se dirá que éstos están calibrados una vez se haya efectuado la equiparación de sus parámetros (mientras tanto, estarán simplemente estimados) mediante un reescalado lineal de los parámetros de cada subtest a una métrica común. Se han propuesto diferentes métodos para obtener los valores de la pendiente y ordenada en el origen que definen el escalado para cada subtest. Entre las técnicas de equiparación cimentadas en la TRI que permiten expresar las puntuaciones de varios subtests que comparten un diseño de anclaje de ítems, destacan los métodos basados en los momentos (media-sigma, media -media), los métodos basados en la curva característica del test (Haebara, Stocking - Lord, ÷2 mínimo) y el método de la calibración concurrente. La mayor parte del software de estimación de parámetros existente implementa alguno de estos métodos, por lo que uno tampoco debería preocuparse por cuál es el funcionamiento de cada uno de estos procedimientos.

Estudios de ajuste al modelo

Los modelos de la TRI fundamentan su flexibilidad en la realización de suposiciones muy restrictivas que no siempre se ajustan a la realidad. Por este motivo es tan importante este paso, consistente en verificar si las estimaciones recién obtenidas se ajustan al modelo elegido y si se cumplen las restricciones que impone el mismo. La más importante es la comprobación de unidimensionalidad, que consiste en verificar que los ítems sólo sirven para medir una única habilidad. Como ya se ha adelantado, este supuesto puede estudiarse antes de la estimación de parámetros, quedando para después otro tipo de estudios como los de bondad de ajuste de los parámetros de los ítems, los de invarianza de los parámetros, o los de simulación del comportamiento del modelo. Como resultado de esta etapa puede ocurrir que algunos ítems sean retirados del banco por no respetar los supuestos de la TRI.

4 Cuarta fase: Administración del test

Una vez se tiene construido el banco de ítems o el test y, en su caso, calibrados sus ítems, se plantea el momento de administrar el o los tests a los sujetos a evaluar. Para este cometido es posible utilizar un método que recoja los resultados a través de un sistema de información, o una aplicación informática que únicamente presente los ítems creados en la segunda fase de la construcción del test. Son muchos los sistemas que automatizan la administración de tests, llegando a presentar características muy diferentes unos de otros. Así, algunos programas como TestGIP, Exam Software 2.3, Aritest Profesores 2.1 y tPilot 1.4, sirven para evaluar al alumno suministrándole un test cuyos ítems tienen almacenados; otras aplicaciones, por su parte, sirven además para mostrar algún tipo de unidad didáctica o lección previa en torno a la cual se desarrollará la evaluación. La ventaja de estos sistemas es su sencillez en la administración, ya que están pensados para que profesores que no están muy familiarizados con la tecnología puedan utilizarlos con facilidad. Sirvan como ejemplo los programas Malted, HotPotatoes 6.0 y My Teacher 2.0, de los que se ha hablado antes. Un tercer tipo de programas informáticos son los que, además de lo anterior, siguen estándares como SCORM o AICC e incorporan nuevas funcionalidades educativas como la de evaluar y gu ardar los resultados para un posterior análisis; tal es el caso de sistemas como ELSA (Armendariz, López -Cuadrado, Tapias, Villamañe, Sanz -Lumbier y Sanz -Santamaría, 2003), o las anteriormente mentadas Toolbok 8.6, Tour Virtual de QS Author 1.6 y Macromedia Dreamweaver más el módulo de educación de Macromedia.

Independientemente de qué categoría de software se use, una vez concluido un test de evaluación se dispone de una estimación de la habilidad del examinado. En el marco de la TRI se trata de un valor numérico (è) en la escala de medida del banco de ítems, algo que puede no resultar informativo para el sujeto, de ahí que suela inferirse algún otro tipo de puntuación más significativa. Por ejemplo, este valor puede transformarse a la escala [0,10] o a la métrica de la curva característica del test utilizado, baremarse mediante el uso de centiles o porcentajes acumulados, o incluso representarse gráficamente sobre el continuo de habilidades.

5 Quinta fase: Calibración on -line

En el contexto de los tests adaptativos fundamentados en la TRI, de los que se hablará en la siguiente sección, cuando haya pasado algún tiempo desde que se calibrara el banco de ítems, lo más recomendable es disponer de nuevos ítems para añadir, con el fin de sustituir a otros que conviene retirar por haber quedado obsoletos, estar defectuosos o haberse utilizado muy a menudo (Wainer y Mislevy, 1990). El principal problema es que es necesario calibrar estos nuevos ítems en la misma métrica que utiliza el banco. Para realizar esta equiparación existen diversos métodos, uno de los cuales consiste en desarrollar un nuevo proceso de calibración, según se acaba de ver en apartados anteriores. Aunque esta vía puede ser la más adecuada cuando se dispone de muchos ítems nuevos, lo más habitual es que la inclusión sea progresiva y se dé con pequeños conjuntos de ítems, por lo que en este punto será mejor aprovechar que se dispone del banco de ítems calibrado para facilitar el trabajo de cara a estimar los parámetros de los nuevos ítems (López -Cuadrado, Pérez et al., 2002). Así, lo más habitual es administrar a una población numerosa, generalmente la misma a la que se pretende evaluar a partir del banco calibrado, un test compuesto por los ítems nuevos y algunos (de anclaje) pertenecientes al banco. De este modo, el subconjunto de ítems de anclaje permite establecer una conexión entre la métrica de la nueva calibración y la del banco. La denominada calibración on-line simplifica aún más el proceso, y en lugar de generar tests específicos, lo que hace es aplicar al comienzo de cada test adaptativo uno o dos ítems, que no influyen en la estimación final de habilidad del sujeto. El objetivo será construir una matriz de datos con la que después realizar la calibración aplicando un sistema de anclaje-equiparación, algo que, a diferencia de lo que ocurre en la calibración inicial del banco de ítems, en este caso resulta muy sencillo porque se dispone de las estimaciones de habilidad de los alumnos (obtenidas por los tests aplicados).

En resumen, en un diseño de calibración on-line los nuevos ítems pueden administrarse linealmente junto con los ítems operacionales, para posteriormente ser calibrados y equiparados según la escala del banco actual. Casi todos los programas de evaluación basados en la TRI incluyen la calibración e inclusión de nuevos ítems cada cierto tiempo, principalmente por motivos de seguridad. De hecho, la principal ventaja de la calibración on-line se refiere al ahorro temporal y de recursos, pues permite mantener la seguridad de las pruebas sin necesidad de realizar continuos procesos de calibración tan complejos como el descrito en la sección anterior.

Extraído de

EVALUACIÓN MEDIANTE TESTS: ¿POR QUÉ NO USAR EL ORDENADOR?

Javier López-Cuadrado, Tomás A. Pérez y Ana Jesús Armendariz

Departamento de Lenguajes y Sistemas Informáticos, Universidad del País Vasco, España

Revista Iberoamericana de Educación (ISSN: 1681-5653)

Publicaciones recomendadas

Cultura del esfuerzo.

Metaevaluación en las escuelas

El discurso neoliberal