lunes, 9 de abril de 2012

CONSTRUCCIÓN DE UN TEST DE EVALUACIÓN

Sostenemos que la evaluación es parte del proceso educativo, no su culminación ¿No sería valioso tener una forma de evaluar, que no sea costosa en tiempo? ¿Las nuevas tecnologías podrían ayudarnos? Tener información rápida sobre la marcha de las actividades es de gran valor, para efectuar las correcciones en forma rápida.








Evaluación mediante test
Este apartado presenta las fases de construcción de un test de evaluación. La primera etapa es la concepción  del test, a partir de la que, dependiendo del grado de sofisticación que se desee, podrán o no efectuarse las etapas de construcción del test de manera electrónica y construcción y calibración del banco de ítems. En todo caso, el desarrollo de la prueba de evaluación culmina en la etapa de administración del test, si bien cuando se ha calibrado un banco de ítems conviene realizar periódicamente labores de mantenimiento en las que la calibración on-line puede ser de gran utilidad.

1        Primera fase: Concepción del test
El primer paso de la administración  de un test consiste en crear las preguntas  que se pretende incluir, tarea para la que no es necesario en principio ningún ordenador. La construcción de ítems de calidad puede resultar más complicada de lo que parec e, de ahí que sea aconsejable seguir algunas sugerencias, como por ejemplo,  no incluir en el enunciado  palabras  como “siempre”,  “ninguno”  o “generalmente”,  no repetir palabras en cada posible respuesta cuando pueden escribirse una sola vez en el enunciado; evitar negaciones  dobles y opciones  como “ninguna de las anteriores”  o “todas las anteriores”;  y utilizar tres o cuatro distractores (alternativas de respuesta incorrecta) relevantes y atractivos, con la misma longitud que la respuesta buena  (Muñiz, 1997). Aunque seguir estas sugerencias no garantiza el éxito, al menos facilita la identificación de ítems potencialmente problemáticos.

Una vez construidos los ítems del test es posible utilizar los métodos tradicionales de administración del mismo, en concreto, repartir a los alumnos un cuadernillo con las preguntas y una hoja donde inscribir las respuestas a cada una de ellas. En una situación como ésta, en la que puede hacerse caso omiso de las secciones  siguientes,  la posterior recogida y análisis de datos puede ser una tarea costosa y pesada, al menos si se compara  con las facilidades  que ofrecen los tests administrados  en soporte informático.  El siguiente  apartado versará acerca de la creación de una versión informática de los ítems desarrollados en esta fase, independientemente de si se les va a dar un uso único en un test o si se pretende almacenarlos en un banco de ítems para aprovecharlos en diferentes pruebas de evaluación.

2        Segunda fase: Construcción del banco de ítems o del test
Para poder administrar mediante un ordenador el test diseñado, lo primero que hay que hacer es dar  a  los  ítems  un  formato  adecuado  para  ser  utilizados  por  el  soporte  informático.  En determinadas situaciones (como cuando los ítems desarrollados no van a reutilizarse) será suficiente con crear el test a administrar mediante un procesador de texto; pero si los objetivos son más ambiciosos (como cuando se quiere tomar la TRI como bas e para la construcción  de tests adaptativos)  es necesario  implementar  un banco de ítems para ser utilizado en la generación de tests. Existen en el mercado múltiples y variadas herramientas  que  facilitan  esta  labor,  generando  automáticamente  la base  de dat os que almacenará  el banco  de  ítems.  Aunque  algunas  de  ellas  se  dedican  además  a  otras  tareas  complementarias,  cabe destacar las aplicaciones Malted (malted.cnice.mecd.es),  HotPotatoes 6.0 (www.aula21.net)  y My Teacher 2.0, que facilitan la creación de contenidos didácticos y tests de evaluación; así como Test Constructor 2.5, Tester 2.0, TestIt 3.0 Build 110, Random Test Generator PRO 8.0, Academic Test Tool 3.0, QuizMaster 1.0, Examenes 1.2, TestGIP, Aritest Profesores 2.1, y tPilot 1.4, que permiten almacenar ejercicios con el fin de generar tests de evaluación. Todos estos programas se pueden descargar desde la web.

El formato de representación de los ítems puede ser un factor crítico en algunos contextos, de ahí que antes de implementar el banco de ítems sea conveniente decidir cómo se va a simbolizar. Hasta hace poco, cada sistema utilizaba sus propios formatos para representar ítems y tests, tal y como ocurre con los programas recién enumerados. Sin embargo, en la actualidad existe una tendencia a usar estándares para la representación de ítems, como  Question & Test Interoperability (QTI) desarrollado por la iniciativa IMS (www.imsglobal.org).  Algunas herramientas como ADISTI (López -Cuadrado, Armendariz y Pérez, 2003) y Canvas Learning (www.imsprojects.org),  intuitivas y fáciles de usar, almacenan automáticamente los ítems en una base de datos siguiendo este estándar. Otras herramientas de autor, como Macromedia Authorware
7 y Macromedia Dreamweaver  MX con módulo de educación (www.macromedia.com),  Tour Virtual de QS Author 1.6 (www.qsmedia.com),  o Toolbook 8.6 (www.sumtotalsystems.com),  facilitan la informatización de los ítems, permitiendo  crear y administrar  un curso entero siguiendo  algún otro estándar educativo  como SCORM (www.adlnet.org) o el propues to por el AICC (www.aicc.org).

3        Tercera fase: Calibración del banco de ítems
Cuando  se  desea  utilizar  como  marco  teórico  la  TRI,  es  necesario  conocer  los  valores  de  los parámetros que definen la curva característica de cada ítem. Aunque la TRI define cuatro parámetros, en la práctica sólo se utilizan los modelos de uno (dificultad), dos (dificultad y discriminación) y tres parámetros (dificultad, discriminación y pseudoacierto).

La calibración consiste en establecer en una métrica común los parámetros de cada ítem del banco. Sólo cuando los ítems se encuentren en la misma escala se podrá asegurar que cualquier subconjunto de ellos  proporcionará  estimaciones  de  habilidad  invariantes  e  independientes  de  la  composición  del  test utilizado. Realizar la calibración de un banco de ítems, si bien no es excesivamente  complicado, conlleva tareas largas y costosas,  debidas a la gran cantidad de trabajo de campo que se requiere. Una práctica utilizada con cierta frecuencia, aunque al margen de las instrucciones que proporciona la psicometría, es hacer una estimación de la dificultad de cada uno de los ítems (en particular, al utilizar el modelo de un único parámetro) en base a las contribuciones de expertos en la materia que se pretende evaluar. Aunque consultar a profesor es o pedagogos doctos en la materia que se pretende evaluar y pedirles que valoren los parámetros  de los ítems puede ser un buen comienzo,  no es recomendable  conformarse  sólo con esto, dado que por tratarse de una estimación subjetiva, no siempre resulta fácil determinar acertadamente los valores de los parámetros, y la precisión y validez de los tests posteriormente compilados podría quedar en entredicho. Lo más habitual y recomendable de cara a generar tests adaptativos fiables es calibrar el banco de ítems mediante  algún procedimiento  estadístico.  Por ello, la calibración  se ejecuta  por lo general  en cuatro pasos (Renom y Doval, 1999): primero se administran los ítems a una gran muestra de sujetos, generalmente  utilizando  algún  tipo  de  diseño  de  anclaje;  tras  analizar  las  respuestas  recopiladas,  se estiman estadísticamente los parámetros de los ítems y las habilidades de los sujetos; después se unifican las escalas de los diferentes subtests de anclaje para que todo el banco de ítems (y los tests generados a partir de él) utilicen la misma métrica; y por último, se efectúan estudios de ajuste de los datos al modelo de la TRI con el fin de identificar y retirar ítems defectuosos. Los siguientes cuatro epígrafes describirán cada una de estas fases.

Diseño de anclaje y administración de los ítems
Los modelos matemáticos de la TRI se fundamentan en variables (parámetros) latentes, difícilmente observables pero que se pueden estimar. Y en esto consiste precisamente la calibración de un banco de ítems. Se trata de administrar las preguntas a una muestra de  sujetos, cuyas habilidades son en principio desconocidas,  para  obtener  estimaciones  de  los  parámetros  de  cada  ítem  a  partir  de  las  respuestas recopiladas. Para poder asegurar que estos parámetros sólo dependen del ítem y no, por ejemplo, de los sujetos  a  los  que  se  ha  administrado,   la  muestra  utilizada  ha  de  ser  lo  suficientemente   grande  y heterogénea como para que las estimaciones obtenidas sean insesgadas. Así, el primer paso en el proceso de calibración  consiste en administrar  cada ítem a una muestra de  varios cientos de personas. Llevar a cabo una administración  de semejantes  características  obligará probablemente  a repartir los ítems entre diversos subtests. Existen varias alternativas para unificar las previsiblemente diferentes métricas obtenidas en los distintos subtests en una escala que sea común a todo el banco de ítems, pudiendo haber algunas cuestiones que contesten todos los sujetos y/ o algunos sujetos a los que se les administre todo el banco de ítems(Kolen y Brennan, 1995). El objetivo en cualquier caso es disponer de una referencia común a todas las pruebas que sirva de anclaje en la posterior fase de equiparación de las diferentes métricas. La opción más utilizada es la de los ítems de anclaje, que son conjuntos de ítems que dos o más subtes ts tienen en común. Los parámetros de estos ítems comunes se estiman junto con los del resto de ítems que componen cada  subtest,  para  después  comparar  los  resultados  obtenidos  en  cada  caso,  lo  que  facilitará  la equiparación de las estimaciones de los parámetros de los ítems no comunes.

Análisis previos y estimación de parámetros
Registrados  los  resultados  de  la  administración  de  los  ítems,  es  recomendable  realizar  análisis previos a la estimación de parámetros con el fin de detectar y depurar anomalías. Renom y Doval  (1999) enumeran tres frentes de acción a la hora de analizar las matrices de respuesta: filtrado de la obtención y captura de datos a fin de evitar tratar protocolos anómalos de los examinados, análisis convencionales de cada subtest para detectar ítems incompatibles con los modelos de la TRI, y verificación de las pautas de respuesta de los examinados. Antes de proceder con la estimación de parámetros, también se suele realizar otro estudio, el del supuesto de unidimensionalidad del banco de ítems. Si bien este análisis pertenece a la etapa posterior  de verificación  del ajuste  al modelo  de la TRI, su práctica  suele adelantarse  porque  no requiere conocer de antemano los valores de los parámetros. Como resultado de los estudios previos a la estimación  de parámetros,  puede ocurrir que alguno de los ítems del banco sea retirado del mismo (por ejemplo, por no satisfacer el principio de unidimensionalidad).

Una  vez  revisadas  y  depuradas  las  matrices  de  respuesta  obtenidas  tras  la  aplicación  de  los subtests  se  está  en  condiciones  de  proceder  a  la  estimación  de  parámetros  en  base  a  alguno  de  los modelos de la TRI. Cuando se trata de ítems de respuesta múltiple dicotómicos (esto es, en los que sólo se distingue acierto y error), la experiencia y la intuición indican que el modelo de tres parámetros es el más adecuado, algo en lo que coinciden la mayoría de los autores(Santisteban y Alvarado, 2001).

Estimar  la  habilidad  del  examinado  cuando  se  dispone  de  los  parámetros  de  los  ítems  puede realizarse de manera sencilla mediante la técnica de máxima verosimilitud condicionada (tal y como ocurre en los TAI, de los que se hablará más adelante). Lo mismo ocurre en la situación inversa, esto es, cuando se desea obtener la curva característica de un ítem conocidas las habilidades de los sujetos a quienes se les ha administrado (Baker, 1992). Sin embargo, en el contexto de la calibración del banco de ítems tanto la habilidad de los sujetos a quienes se les ha administrado los subtests como los parámetros de los ítems son variables  desconocidas.  Por ello, pese  a que sólo interesan  las estimaciones  de los parámetros  de los ítems, es necesaria una estimación simultánea mediante algún método alternativo. La estimación  máximo verosímil conjunta (Birnbaum,  1968), que se suele implementar mediante un tratamiento multivariado del procedimiento  de Newton -Raphson, asigna un valor inicial (por ejemplo, aleatorio) a los parámetros de los ítems y, asumiendo que son los verdaderos, estima las habilidades de los sujetos, generalmente mediante el  procedimiento   de  máxima  verosimilitud   condicionada.   Tomando  estos  valores  de  habilidad  recién calculados como reales, se procede a recalcular los parámetros de los ítems (mediante el procedimiento de estimación  máximo  verosímil,  condicionado  en  este  caso  a  los  valores  de  habilidad).  Estas  nuevas estimaciones  de los parámetros se usarán a su vez para volver a estimar las habilidades de los sujetos, habilidades que permitirán obtener valores más precisos de los parámetros de los ítems. Las dos etapas del proceso se repetirán hasta obtener convergencia en los parámetros de los ítems y las habilidades de los examinados.  La  estimación  conjunta  de  habilidades  y  parámetros  plantea  dos  inconvenientes:  por  una parte, exige la eliminación de las puntuaciones extremas (todo aciertos o todo fallos), tanto para ítems como para sujetos, y por otra, el número de parámetros y habilidades a estimar aumenta a medida que crece el tamaño de la muestra. El método de estimación máximo verosímil marginal(Bock y Aitkin, 1981) evita estos problemas, as umiendo que la muestra de sujetos se ha seleccionado aleatoriamente de una población en la que la habilidad  está distribuida  en base  a una función  de densidad  g(è), que desde un punto de vista bayesiano correspondería a la distribución previa de probabilidades, en lugar de usar un valor è para cada examinado.   A  diferencia  de  la  estimación   máximo  verosímil  conjunta,  el  procedimiento   de  máxima verosimilitud marginal proporciona consistencia a la estimación de los parámetros, y es independiente del tamaño  de  la  muestra.  Pese  a  ser  probablemente   la  técnica  más  utilizada,  el  método  de  máxima verosimilitud  marginal  no  está  exento  de  problemas,  por  lo  que  se  han  definido  algunas  variantes  y generalizaciones  del mismo, habiéndose propuesto incluso alternativas puramente bayesianas (Hambleton y  Swaminathan,  1985).  Aunque  se  han  presentado  las  diferentes  técnicas  de  estimación  conjunta  de parámetros y habilidades, uno puede despreocuparse a la hora de calibrar un banco de ítems, pues existen paquetes de software que las implementan, calculando en pocos segundos estimaciones de los parámetros invariantes  y  robustas  que  se  ajusten  a  su  curva  característica  según  el  modelo  TRI  correspondiente. Destacan  LOGIST  (Wingersky,  1983),  que  implementa  la  estimaciones  máximo  verosímil  conjunta  e incondicional, y se ha convertido en el estándar de facto con el que se comparan los demás procedimientos de estimación  de parámetros;  y BILOG (Mislevy  y Bock, 1990), que se perfila como uno de los mejores programas al implementar la reformul ación del método de máxima verosimilitud marginal de Bock y Aitkin (1981).

Equiparación de puntuaciones
Administrar todo el banco de ítems a cada sujeto de la muestra tiene la ventaja de que se elimina una de las fuentes más importantes  de error en la equiparación  de puntuaciones,  a saber, la relativa al muestreo de los examinados. No obstante, plantea diversos problemas, dado que aplicar un elevadísimo número de ítems a una misma persona no siempre es factible, amenaza la seguridad del banco de ítems y puede deparar  resultados  negativos  debidos  a la fatiga o a la desmotivación.  Por su parte, distribuir  los ítems en varios subtests tiene la ventaja de que no se administra todo el banco a cada examinado, pero, después de haber estimado los parámetros de los ítems administrados en los subtests, resulta necesario equiparar sus escalas de medida con el fin de que todo el banco utilice una métrica común. Sólo así, una vez se dispone del banco calibrado, o lo que es lo mismo, cuando los parámetros de todos los ítems están expresados en la misma métrica, será posible verificar la bondad de ajuste, hecho lo cual se podrá obtener la curva característica y la función de información de cualquier ítem o test generado a partir del banco.

La equiparación de puntuaciones es un proceso estadístico que permite ajustar las puntuaciones de diferentes tests, cuyas dificultades probablemente serán desiguales, con el fin de poder compararlas en una escala de habilidad  con origen y unidad  comunes.  Técnicamente,  cuando  se ha utilizado un diseño de anclaje para la administración de los ítems, se dirá que éstos están calibrados una vez se haya efectuado la equiparación de sus parámetros (mientras tanto, estarán simplemente estimados) mediante un reescalado lineal de los parámetros de cada subtest a una métrica común. Se han propuesto diferentes métodos para obtener los valores de la pendiente  y ordenada  en el origen que definen el escalado  para cada subtest. Entre las técnicas de equiparación cimentadas en la TRI que permiten expresar las puntuaciones de varios subtests que comparten un diseño de anclaje de ítems, destacan los métodos basados en los momentos (media-sigma, media -media), los métodos basados en la curva característica del test (Haebara, Stocking - Lord, ÷2 mínimo) y el método de la calibración concurrente. La mayor parte del software de estimación de parámetros existente implementa alguno de estos métodos, por lo que uno tampoco debería preocuparse por cuál es el funcionamiento de cada uno de estos procedimientos.

Estudios de ajuste al modelo
Los modelos de la TRI fundamentan su flexibilidad en la realización de suposiciones muy restrictivas que  no  siempre  se  ajustan  a  la  realidad.  Por  este  motivo  es  tan  importante  este  paso,  consistente  en verificar si las estimaciones recién obtenidas se ajustan al modelo elegido y si se cumplen las restricciones que  impone  el  mismo.  La  más  importante  es  la  comprobación  de  unidimensionalidad,  que  consiste  en verificar que los ítems sólo sirven para medir una única habilidad. Como ya se ha adelantado, este supuesto puede estudiarse antes de la estimación de parámetros, quedando para después otro tipo de estudios como los de bondad de ajuste de los parámetros  de los ítems, los de invarianza  de los parámetros,  o los de simulación del comportamiento  del modelo. Como resultado de esta etapa puede ocurrir que algunos ítems sean retirados del banco por no respetar los supuestos de la TRI.

4        Cuarta fase: Administración del test
Una vez se tiene construido  el banco de ítems o el test y, en su caso, calibrados sus ítems, se plantea el momento  de administrar  el o los tests a los sujetos a evaluar. Para este cometido  es posible utilizar  un  método  que  recoja  los  resultados  a  través  de  un  sistema  de  información,  o  una  aplicación informática que únicamente presente los ítems creados en la segunda fase de la construcción del test. Son muchos los sistemas que automatizan la administración de tests, llegando a presentar características muy diferentes unos de otros. Así, algunos programas como TestGIP, Exam Software 2.3, Aritest Profesores 2.1 y tPilot 1.4, sirven para evaluar al alumno suministrándole un test cuyos ítems tienen almacenados; otras aplicaciones, por su parte, sirven además para mostrar algún tipo de unidad didáctica o lección previa en torno  a  la  cual  se  desarrollará  la  evaluación.  La  ventaja  de  estos  sistemas  es  su  sencillez  en  la administración,  ya  que  están  pensados  para  que  profesores  que  no  están  muy  familiarizados  con  la tecnología puedan utilizarlos con facilidad. Sirvan como ejemplo los programas Malted, HotPotatoes 6.0 y My Teacher 2.0, de los que se ha hablado antes. Un tercer tipo de programas  informáticos  son los que, además  de  lo  anterior,  siguen  estándares  como  SCORM  o  AICC  e  incorporan  nuevas  funcionalidades educativas como la de evaluar y gu ardar los resultados para un posterior análisis; tal es el caso de sistemas como ELSA (Armendariz, López -Cuadrado, Tapias, Villamañe, Sanz -Lumbier y Sanz -Santamaría, 2003), o las anteriormente mentadas Toolbok 8.6, Tour Virtual de QS Author 1.6 y Macromedia Dreamweaver más el módulo de educación de Macromedia.

Independientemente de qué categoría de software se use, una vez concluido un test de evaluación se dispone de una estimación de la habilidad del examinado. En el marco de la TRI se trata de un valor numérico  (è) en la escala de medida del banco de ítems, algo que puede no resultar informativo para el sujeto, de ahí que suela inferirse algún otro tipo de puntuación  más significativa.  Por ejemplo, este valor puede transformarse a la escala [0,10] o a la métrica de la curva característica del test utilizado, baremarse mediante  el  uso  de  centiles  o  porcentajes  acumulados,  o  incluso  representarse  gráficamente  sobre  el continuo de habilidades.

5        Quinta fase: Calibración on -line
En el contexto  de los tests adaptativos  fundamentados  en la TRI, de los que se hablará en la siguiente sección, cuando haya pasado algún tiempo desde que se calibrara el banco de ítems, lo más recomendable es disponer de nuevos ítems para añadir, con el fin de sustituir a otros que conviene retirar por haber quedado  obsoletos,  estar defectuosos  o haberse  utilizado  muy a menudo  (Wainer  y Mislevy, 1990). El principal problema es que es necesario calibrar estos nuevos ítems en la misma métrica que utiliza el  banco.  Para  realizar  esta  equiparación  existen  diversos  métodos,  uno  de  los  cuales  consiste  en desarrollar un nuevo proceso de calibración, según se acaba de ver en apartados anteriores. Aunque esta vía puede ser la más adecuada  cuando se dispone de muchos ítems nuevos, lo más habitual es que la inclusión sea progresiva y se dé con pequeños conjuntos de ítems, por lo que en este punto será mejor aprovechar  que se dispone  del banco  de ítems  calibrado  para facilitar  el trabajo  de cara a estimar  los parámetros de los nuevos ítems (López -Cuadrado, Pérez et al., 2002). Así, lo más habitual es administrar a una población numerosa, generalmente la misma a la que se pretende evaluar a partir del banco calibrado, un test compuesto por los ítems nuevos y algunos (de anclaje) pertenecientes al banco. De este modo, el subconjunto de ítems de anclaje permite establecer una conexión entre la métrica de la nueva calibración y la del banco. La denominada  calibración on-line simplifica aún más el proceso, y en lugar de generar tests específicos, lo que hace es aplicar al comienzo de cada test adaptativo uno o dos ítems, que no influyen en la estimación final de habilidad del sujeto. El objetivo será construir una matriz de datos con la que después realizar la calibración aplicando un sistema de anclaje-equiparación,  algo que, a diferencia de lo que ocurre en la calibración inicial del banco de ítems, en este caso resulta muy sencillo porque se dispone de las estimaciones de habilidad de los alumnos (obtenidas por los tests aplicados).

En resumen, en un diseño de calibración on-line los nuevos ítems pueden administrarse linealmente junto con los ítems operacionales,  para posteriormente  ser calibrados  y equiparados  según la escala del banco actual. Casi todos los programas de evaluación basados en la TRI incluyen la calibración e inclusión de nuevos ítems cada cierto tiempo, principalmente por motivos de seguridad. De hecho, la principal ventaja de la calibración on-line se refiere al ahorro temporal y de recursos, pues permite mantener la seguridad de las pruebas sin necesidad de realizar continuos procesos de calibración tan complejos como el descrito en la sección anterior.


Extraído de
EVALUACIÓN MEDIANTE TESTS: ¿POR QUÉ NO USAR EL ORDENADOR?
Javier López-Cuadrado, Tomás A. Pérez y Ana Jesús Armendariz
Departamento de Lenguajes y Sistemas Informáticos, Universidad del País Vasco, España
Revista Iberoamericana de Educación (ISSN: 1681-5653)


Publicaciones recomendadas

No hay comentarios:

Related Posts Plugin for WordPress, Blogger...

Busca en mis blogs