miércoles, 25 de abril de 2012

Pautas éticas en la evaluación y códigos para maestros

La evaluación condensa en si misma todos los dilemas de la Educación. Podemos enfocarla desde diversos planos, en este artículo se trata la ética, tema que merece ser discutivo, cuando de Evaluación Educativa se trata.



En cada profesión se elabora una ética específica que es revisada y puesta al día periódicamente. En nuestro momento histórico las distintas éticas profesionales han de respetar y apoyar el marco ético de la ética cívica, verdadero soporte moral de la convivencia en sociedades pluralistas, y desde ahí han de aportar sus propios valores correspondientes a la profesión de que se trate (Martínez, 2006). El pensar cuidadosamente acerca de cómo las personas han de tratar a otros se incluye en declaraciones de ética que guían la práctica profesional tanto en medicina, como en leyes o enseñanza. En educación, por ejemplo, la National Educational Association (1975) describió la ética del maestro en el aula. Strike y Bull (1981) analizaron problemas de justicia y legalidad en la evaluación del maestro y presentaron los «Derechos de Bill». Strike (1990) discutió la ética de evaluación educativa e incluyó problemas de igualdad de respeto, proceso conveniente, privacidad, humanismo, igualdad, beneficios del cliente, libertad académica y respeto por la autonomía como valores necesarios para el tratamiento ético. Sparks describió y defendió un código de ética personal en desarrollo y afirmó que «un código de ética articula y afirma los valores más altos, creencias, y propósitos de una profesión».

El Joint Committee on Standards for Educational Evaluation (1988) requirió pautas para la evaluación del personal de acuerdo con los códigos éticos. El propósito de un código o declaraciones de ética es dar una dirección sucinta, clara a la conducta del maestro. Las Normas de Evaluación del Personal (Joint Committee) incluyen «las Normas de conveniencia» que «…requiere que las evaluaciones sean legalmente conducidas, con ética y con debida consideración por el bienestar del evaluado…».
Estas normas incluyen una orientación de servicio, previsiones de conflicto de intereses, acceso a los datos e informes, y las interacciones cuidadosas con los evaluados. 

Aunque las siguientes normas se refieren a la coevaluación entre profesores, la mayoría de ellas bien pueden aplicarse para la evaluación de los alumnos (Peterson, Kelly y Caskey, 2002).
Actividades éticas en la evaluación, significa lo que los profesores HACEN:
·                  Conocen las obligaciones, esfuerzos, intereses y necesidades de aprendizaje, actividades en el aula y otras expectativas del profesor.
·                  Manejan la información, los datos y procedimientos de forma confidencial, a menos que requieran ser públicos.
·                  Usan información, datos y descripciones de las actividades sólo para los propósitos requeridos.
·                  Controlan cuidadosamente notas y reportes personales y destruyen información personal específica después de haberse utilizado.
·                  Proporcionan atención independientemente de consideraciones de raza, color, creencia, genero, preferencia sexual, nacionalidad, estado civil, creencias políticas y religiosas.
·                  Analizan, revelan y resuelven conflictos de intereses.
·                  Cumplen con las pautas y la función de evaluador, acordadas.
·                  Participan en la evaluación de su propia evaluación.
Siguiendo con Peterson, Kelly y Caskey, ellos plantean que la actividad ética en la evaluación, significa que los profesores limitan su comportamiento, NO USANDO las actividades de la evaluación para:
Impulsar intereses propios, estatus social o político; grupos particulares de profesores a costa de otros; ciertos estilos, estrategias, o materiales en la instrucción; ciertas clases de organizaciones en el aula o en la escuela; su propia evaluación debido al acceso privilegiado; relacionarse con los evaluados directamente o relacionarse con otros involucrados en las evaluaciones docentes.

Perjudicar o tratar desfavorablemente a otros participantes del sistema educativo (estudiantes, administradores, padres, otros profesores) como resultado de la actividad evaluadora.

Limitar los juicios de la calidad de los profesores a su propio estilo, logro, e historia; preferir los valores comunes acordados por el sistema.

Incluir la información o las perspectivas de experiencias personales o las comunicaciones con otros que pudieran influir indebidamente en los juicios o las actividades de la evaluación.

Realizar deliberadamente declaraciones falsas o malévolas.

Aceptar gratificaciones, regalos o favores que puedan perjudicar o influir aparentemente en los juicios o actividades de evaluación.

Actividades éticas en la evaluación, significa que los profesores PUEDEN:
Usar ideas de otros profesores, aprender actividades y de sus propias prácticas.

Ser compensados por su participación en actividades de evaluación.

Sin embargo, la literatura recomienda no ceñirse sólo a un código ético sino a múltiples códigos, tomando en cuenta que las circunstancias varían. Confrontamos códigos entre sí no para que podamos racionalizar todo lo que hacemos, sino para que seamos capaces de reconocer diferentes manifestaciones de valor ético y podamos deliberar mejor sobre las implicaciones de cada una de ellas. Como en toda buena deliberación, se necesitan las aportaciones de diferentes puntos de vista. Pero, al final, el descubrimiento y la resolución del conflicto ético provienen principalmente de nuestro propio fuero interno (Stake).

Aunque existe una literatura especializada en evaluación que contiene códigos, normas y principios, no deberíamos recurrir exclusivamente a los enunciados formales, ya que siempre habrá situaciones en las que su traslado a la realidad resulte difícil o insuficiente. La diversidad y la particularidad de las cuestiones prácticas aseguran una limitada utilidad a los códigos éticos. En Estados Unidos, el National Council of Teachers of Mathematics (Consejo Nacional de Profesores de Matemáticas) (1989) dio un buen ejemplo de cómo tratar los  estándares más como visiones o proyectos que como niveles de corte. Los estándares forman parte de una visión panorámica de la ética, pero siempre es necesaria la interpretación personal y situacional (Stake).

En este artículo hemos revisado como desde la perspectiva técnica se busca obsesivamente evaluar con bases científicas para garantizar el rigor de los métodos racionalmente planificados que permiten la discriminación por vía matemática; pero también hemos señalado como preocupaciones sustantivas desde perspectivas éticas, el surgimiento de preguntas que expresan el interés por conocer al servicio de quién está la evaluación, qué fines persigue, y qué usos se va a hacer de la información y de los resultados de la evaluación.

En el currículum oficial, generalmente, se deja bien asentado y claro al profesorado qué, cuándo y cómo evaluar, se trata de preguntas técnicas que indagan sobre cuestiones comunes de alcance burocrático y administrativo. Pero las cuestiones de fondo comúnmente suelen estar ausentes o se soslayan. Las dimensiones éticas de la evaluación, intrínsecas al razonamiento práctico, se relacionan directamente con preguntas de otro orden, entre las cuales se encuentran: ¿Por qué evaluar? ¿Para qué evaluar? ¿Quiénes son los destinatarios y quiénes son los que se benefician de las prácticas de evaluación? ¿Qué uso hacemos los profesores de la evaluación? ¿Qué uso hacen los alumnos de la evaluación? ¿Para qué les sirve? ¿Qué funciones desempeña realmente? ¿Quién utiliza los resultados de la evaluación, más allá de la inmediatez del aula? ¿Asegura el sistema de evaluación vigente la calidad del aprendizaje y la calidad de la enseñanza? ¿Asegura también la evaluación justa y objetiva de los alumnos?


Extraído de
Consideraciones éticas en la evaluación educativa
Revista
REICE 2011 Volumen 9 Número 2
Autor
Tiburcio Moreno Olivos
Doctor en Pedagogía por la Universidad de Murcia (España). Profesor Investigador de Tiempo Completo Titular C. Universidad Autónoma del Estado de Hidalgo. Instituto de Ciencias Sociales y Humanidades. Académica de Ciencias de la Educación. Coordinador de la línea de investigación: Currículum, Innovación Pedagógica y Formación. Miembro del Sistema Nacional de Investigadores Nivel 1 y del COMIE. Entre sus publicaciones más recientes se encuentran el libro. «La Evaluación de los Alumnos en la Universidad: Un estudio etnográfico». (2010).Universidad Autónoma del Estado de Hidalgo.


 

martes, 17 de abril de 2012

Lo feo de las Evaluaciones en Educación

Las siguientes son reflexiones sobre “lo feo en las Evaluaciones Educativas”. Las evaluaciones cobran importancia en este entorno, pero ¿Están acordes con la diversidad? ¿Se utilizan los resultados adecuadamente? ¿Qué efectos producen? ¿Estamos preparados para implementarla?



Homogeneidad que niega la diversidad
La historia de la educación en nuestro país está plagada de ejemplos de prácticas escolares estandarizadas que cierran la puerta a la diversidad, la cual, pese a todo, lucha por sobrevivir y ocupar su lugar en la escuela. La diversidad siempre al margen, marginada. Sin embargo, hay que reconocer que las últimas reformas educativas introducen, al menos en el discurso, la necesidad de atender la diversidad y de hacer adaptaciones curriculares que consideren las necesidades e intereses de los alumnos que pertenecen a esta categoría. Aunque una gran mayoría del profesorado no entienda qué es esto de hacer adaptaciones curriculares, ni tenga la sensibilidad para aceptar y reconocer la diversidad en el aula como un valor agregado y no como un pesado lastre que le demanda más trabajo. 

La evaluación es un claro ejemplo de esta política que homogeniza realidades tan disímbolas. Las pruebas nacionales estandarizadas que se aplican actualmente, por su propia naturaleza y diseño, no pueden reconocer la diversidad de las poblaciones escolares a las que se les suministran, aunque la información que brindan y las decisiones que se toman a partir de estos datos, sí que están afectando de manera significativa la actuación de los centros escolares, y la vida presente y futura de los sujetos evaluados.

Usos segados de los resultados de la evaluación… cuando se usan
Una práctica común es que los resultados de la evaluación del aprendizaje no se empleen para un fin determinado, con lo cual parece que la evaluación sólo se hace para cumplir con una exigencia administrativa, y una vez realizada ésta, la información se guarda en el cajón sin que pase nada. Un ejemplo de ello son las evaluaciones diagnósticas que se realizan en algunas instituciones de educación superior al inicio de cada ciclo escolar.

El ritual se sigue indefectiblemente en cada curso escolar, sin que la información que la evaluación aporta tenga un uso que permita introducir cambios tendientes a la mejora de la educación. Así, la evaluación se desgasta y pierde ante los ojos de los evaluados cualquier posibilidad de ser considerada como un mecanismo para el cambio positivo. Y no sólo eso, en este escenario la evaluación es vista como un ejercicio inane que consume tiempo y energía, con lo cual su credibilidad –si es que alguna vez la llegó a tener– es puesta en duda. Habría que ser más cautos cuando se dan a conocer los resultados y, sobre todo, ser muy vigilantes del uso que distintos agentes hacen de los resultados de las evaluaciones.

También es frecuente el empleo de los resultados de la evaluación para justificar ciertas políticas o programas que responden a los intereses particulares de un individuo o grupo, el cual tiene el poder para patrocinar una evaluación que sirva a sus propósitos, cualesquiera que éstos sean.

Evaluación que fomenta la cultura de la simulación
La evaluación se ha empleado para guardar las apariencias y decir que todo marcha bien, sobre todo en tiempos aciagos en los que se sabe precisamente que las cosas no andan bien. A nivel micro lo que se pretende es ocultar las debilidades, vacíos o carencias para salir bien librado del juicio evaluador. Este tipo de conductas se promueven sobre todo en sistemas educativos en los que pesa una tradición de la evaluación como un medio de fiscalización o de control para repartir recompensas y sanciones.

Situados en el contexto del aula, vemos cómo los alumnos ante una situación de evaluación emplean estrategias diversas para aparentar que han aprendido los contenidos que marca el programa educativo, aunque para ello tengan que hacer trampa o mentir, lo más importante es salir airosos de la evaluación. Las excusas injustificadas suelen ser frecuentes el día del examen, cualquier pretexto que pueda persuadir al maestro y le garantice al alumno un buen resultado. El fin justifica los medios, no importa si los medios empleados son éticos o lícitos.

Pero lo anterior no sólo ocurre con los alumnos, también los docentes han desarrollado sus estrategias simuladoras, por ejemplo, sabemos de maestros que piden a sus alumnos con bajo rendimiento que no asistan a clases el día que se va a aplicar a su grupo el examen de conocimientos, cuyos resultados se tomarán en cuenta como parte de la evaluación docente, sólo para evitar una mala evaluación. Nuevamente, el fin es lo más importante a costa de lo que sea.

Evaluación conducida por personal improvisado
La evaluación en México ha estado permeada por una visión empirista que descansa en el principio: “Todos sabemos de evaluación, porque alguna vez hemos sido evaluados”. De acuerdo con Nevo, para ser un evaluador competente y fiable se necesita la combinación de una amplia gama de cualidades y características, entre las cuales destacan:
a) competencia técnica en el área de la medida y la investigación,
b) conocimiento del contexto social y de la naturaleza del objeto de la evaluación,
c) destreza en relaciones humanas,
d) integridad personal y objetividad, y
e) características relacionadas con la autoridad y la responsabilidad. Según este mismo autor existen varios tipos de evaluadores:
Evaluador interno: generalmente es contratado por los responsables del proyecto y les informa directamente. 
Evaluador externo: no está contratado directamente por los responsables del proyecto y goza de mayor independencia. 
Evaluador profesional: tiene una amplia formación en evaluación y su principal responsabilidad consiste en dirigir evaluaciones.
Evaluador práctico: no suele estar especializado en evaluación y su implicación en la misma representa sólo una parte de su trabajo.



Lo que ocurre en nuestro medio es que una buena parte de los docentes de educación superior no suele tener formación o carece de experiencia en el vasto y complejo campo de la evaluación del aprendizaje, lo que genera que en la práctica se ignore el gran cúmulo de conocimiento existente y se cometan muchos errores por omisión o desconocimiento. En estas coordenadas, se afirma que:
la asignación de múltiples finalidades en las tareas de evaluación y la falta de tradición de las concepciones evaluadoras en el país se manifiesta también en una carencia de personal especializado en esta disciplina. A ello hay que agregar que en los planes de estudio de licenciatura y posgrado del área educativa existe una tendencia a restar importancia a una asignatura de evaluación, o bien, una seria deficiencia en los contenidos que se trabajan (Díaz Barriga).

Además del conocimiento teórico-metodológico, es menester que la persona que representa o encarna la figura del evaluador posea autoridad ética y moral, de modo que sus juicios evaluadores sean acogidos con confianza y gocen de credibilidad entre la comunidad educativa (House y Howe). De no ser así, se corre el riesgo de que, desde el inicio, todo el proceso evaluador esté desacreditado. Desafortunadamente, en este terreno las cosas parecen apuntar en otra dirección: “Tanto en la formación de los docentes como en la concepción de las metodologías y los medios de enseñanza, la evaluación y la regulación de los procesos de aprendizaje a menudo siguen siendo los parientes pobres” (Perrenoud).


Autor
Tiburcio Moreno Olivos
Doctor en Pedagogía por la Universidad de Murcia (España). Profesor Investigador de Tiempo Completo Titular C. Universidad Autónoma del Estado de Hidalgo. Instituto de Ciencias Sociales y Humanidades. Académica de Ciencias de la Educación. Coordinador de la línea de investigación: Currículum, Innovación Pedagógica y Formación. Miembro del Sistema Nacional de Investigadores Nivel 1 y del COMIE. Entre sus publicaciones más recientes se encuentran el libro. «La Evaluación de los Alumnos en la Universidad: Un estudio etnográfico». (2010).Universidad Autónoma del Estado de Hidalgo.

lunes, 9 de abril de 2012

CONSTRUCCIÓN DE UN TEST DE EVALUACIÓN

Sostenemos que la evaluación es parte del proceso educativo, no su culminación ¿No sería valioso tener una forma de evaluar, que no sea costosa en tiempo? ¿Las nuevas tecnologías podrían ayudarnos? Tener información rápida sobre la marcha de las actividades es de gran valor, para efectuar las correcciones en forma rápida.








Evaluación mediante test
Este apartado presenta las fases de construcción de un test de evaluación. La primera etapa es la concepción  del test, a partir de la que, dependiendo del grado de sofisticación que se desee, podrán o no efectuarse las etapas de construcción del test de manera electrónica y construcción y calibración del banco de ítems. En todo caso, el desarrollo de la prueba de evaluación culmina en la etapa de administración del test, si bien cuando se ha calibrado un banco de ítems conviene realizar periódicamente labores de mantenimiento en las que la calibración on-line puede ser de gran utilidad.

1        Primera fase: Concepción del test
El primer paso de la administración  de un test consiste en crear las preguntas  que se pretende incluir, tarea para la que no es necesario en principio ningún ordenador. La construcción de ítems de calidad puede resultar más complicada de lo que parec e, de ahí que sea aconsejable seguir algunas sugerencias, como por ejemplo,  no incluir en el enunciado  palabras  como “siempre”,  “ninguno”  o “generalmente”,  no repetir palabras en cada posible respuesta cuando pueden escribirse una sola vez en el enunciado; evitar negaciones  dobles y opciones  como “ninguna de las anteriores”  o “todas las anteriores”;  y utilizar tres o cuatro distractores (alternativas de respuesta incorrecta) relevantes y atractivos, con la misma longitud que la respuesta buena  (Muñiz, 1997). Aunque seguir estas sugerencias no garantiza el éxito, al menos facilita la identificación de ítems potencialmente problemáticos.

Una vez construidos los ítems del test es posible utilizar los métodos tradicionales de administración del mismo, en concreto, repartir a los alumnos un cuadernillo con las preguntas y una hoja donde inscribir las respuestas a cada una de ellas. En una situación como ésta, en la que puede hacerse caso omiso de las secciones  siguientes,  la posterior recogida y análisis de datos puede ser una tarea costosa y pesada, al menos si se compara  con las facilidades  que ofrecen los tests administrados  en soporte informático.  El siguiente  apartado versará acerca de la creación de una versión informática de los ítems desarrollados en esta fase, independientemente de si se les va a dar un uso único en un test o si se pretende almacenarlos en un banco de ítems para aprovecharlos en diferentes pruebas de evaluación.

2        Segunda fase: Construcción del banco de ítems o del test
Para poder administrar mediante un ordenador el test diseñado, lo primero que hay que hacer es dar  a  los  ítems  un  formato  adecuado  para  ser  utilizados  por  el  soporte  informático.  En determinadas situaciones (como cuando los ítems desarrollados no van a reutilizarse) será suficiente con crear el test a administrar mediante un procesador de texto; pero si los objetivos son más ambiciosos (como cuando se quiere tomar la TRI como bas e para la construcción  de tests adaptativos)  es necesario  implementar  un banco de ítems para ser utilizado en la generación de tests. Existen en el mercado múltiples y variadas herramientas  que  facilitan  esta  labor,  generando  automáticamente  la base  de dat os que almacenará  el banco  de  ítems.  Aunque  algunas  de  ellas  se  dedican  además  a  otras  tareas  complementarias,  cabe destacar las aplicaciones Malted (malted.cnice.mecd.es),  HotPotatoes 6.0 (www.aula21.net)  y My Teacher 2.0, que facilitan la creación de contenidos didácticos y tests de evaluación; así como Test Constructor 2.5, Tester 2.0, TestIt 3.0 Build 110, Random Test Generator PRO 8.0, Academic Test Tool 3.0, QuizMaster 1.0, Examenes 1.2, TestGIP, Aritest Profesores 2.1, y tPilot 1.4, que permiten almacenar ejercicios con el fin de generar tests de evaluación. Todos estos programas se pueden descargar desde la web.

El formato de representación de los ítems puede ser un factor crítico en algunos contextos, de ahí que antes de implementar el banco de ítems sea conveniente decidir cómo se va a simbolizar. Hasta hace poco, cada sistema utilizaba sus propios formatos para representar ítems y tests, tal y como ocurre con los programas recién enumerados. Sin embargo, en la actualidad existe una tendencia a usar estándares para la representación de ítems, como  Question & Test Interoperability (QTI) desarrollado por la iniciativa IMS (www.imsglobal.org).  Algunas herramientas como ADISTI (López -Cuadrado, Armendariz y Pérez, 2003) y Canvas Learning (www.imsprojects.org),  intuitivas y fáciles de usar, almacenan automáticamente los ítems en una base de datos siguiendo este estándar. Otras herramientas de autor, como Macromedia Authorware
7 y Macromedia Dreamweaver  MX con módulo de educación (www.macromedia.com),  Tour Virtual de QS Author 1.6 (www.qsmedia.com),  o Toolbook 8.6 (www.sumtotalsystems.com),  facilitan la informatización de los ítems, permitiendo  crear y administrar  un curso entero siguiendo  algún otro estándar educativo  como SCORM (www.adlnet.org) o el propues to por el AICC (www.aicc.org).

3        Tercera fase: Calibración del banco de ítems
Cuando  se  desea  utilizar  como  marco  teórico  la  TRI,  es  necesario  conocer  los  valores  de  los parámetros que definen la curva característica de cada ítem. Aunque la TRI define cuatro parámetros, en la práctica sólo se utilizan los modelos de uno (dificultad), dos (dificultad y discriminación) y tres parámetros (dificultad, discriminación y pseudoacierto).

La calibración consiste en establecer en una métrica común los parámetros de cada ítem del banco. Sólo cuando los ítems se encuentren en la misma escala se podrá asegurar que cualquier subconjunto de ellos  proporcionará  estimaciones  de  habilidad  invariantes  e  independientes  de  la  composición  del  test utilizado. Realizar la calibración de un banco de ítems, si bien no es excesivamente  complicado, conlleva tareas largas y costosas,  debidas a la gran cantidad de trabajo de campo que se requiere. Una práctica utilizada con cierta frecuencia, aunque al margen de las instrucciones que proporciona la psicometría, es hacer una estimación de la dificultad de cada uno de los ítems (en particular, al utilizar el modelo de un único parámetro) en base a las contribuciones de expertos en la materia que se pretende evaluar. Aunque consultar a profesor es o pedagogos doctos en la materia que se pretende evaluar y pedirles que valoren los parámetros  de los ítems puede ser un buen comienzo,  no es recomendable  conformarse  sólo con esto, dado que por tratarse de una estimación subjetiva, no siempre resulta fácil determinar acertadamente los valores de los parámetros, y la precisión y validez de los tests posteriormente compilados podría quedar en entredicho. Lo más habitual y recomendable de cara a generar tests adaptativos fiables es calibrar el banco de ítems mediante  algún procedimiento  estadístico.  Por ello, la calibración  se ejecuta  por lo general  en cuatro pasos (Renom y Doval, 1999): primero se administran los ítems a una gran muestra de sujetos, generalmente  utilizando  algún  tipo  de  diseño  de  anclaje;  tras  analizar  las  respuestas  recopiladas,  se estiman estadísticamente los parámetros de los ítems y las habilidades de los sujetos; después se unifican las escalas de los diferentes subtests de anclaje para que todo el banco de ítems (y los tests generados a partir de él) utilicen la misma métrica; y por último, se efectúan estudios de ajuste de los datos al modelo de la TRI con el fin de identificar y retirar ítems defectuosos. Los siguientes cuatro epígrafes describirán cada una de estas fases.

Diseño de anclaje y administración de los ítems
Los modelos matemáticos de la TRI se fundamentan en variables (parámetros) latentes, difícilmente observables pero que se pueden estimar. Y en esto consiste precisamente la calibración de un banco de ítems. Se trata de administrar las preguntas a una muestra de  sujetos, cuyas habilidades son en principio desconocidas,  para  obtener  estimaciones  de  los  parámetros  de  cada  ítem  a  partir  de  las  respuestas recopiladas. Para poder asegurar que estos parámetros sólo dependen del ítem y no, por ejemplo, de los sujetos  a  los  que  se  ha  administrado,   la  muestra  utilizada  ha  de  ser  lo  suficientemente   grande  y heterogénea como para que las estimaciones obtenidas sean insesgadas. Así, el primer paso en el proceso de calibración  consiste en administrar  cada ítem a una muestra de  varios cientos de personas. Llevar a cabo una administración  de semejantes  características  obligará probablemente  a repartir los ítems entre diversos subtests. Existen varias alternativas para unificar las previsiblemente diferentes métricas obtenidas en los distintos subtests en una escala que sea común a todo el banco de ítems, pudiendo haber algunas cuestiones que contesten todos los sujetos y/ o algunos sujetos a los que se les administre todo el banco de ítems(Kolen y Brennan, 1995). El objetivo en cualquier caso es disponer de una referencia común a todas las pruebas que sirva de anclaje en la posterior fase de equiparación de las diferentes métricas. La opción más utilizada es la de los ítems de anclaje, que son conjuntos de ítems que dos o más subtes ts tienen en común. Los parámetros de estos ítems comunes se estiman junto con los del resto de ítems que componen cada  subtest,  para  después  comparar  los  resultados  obtenidos  en  cada  caso,  lo  que  facilitará  la equiparación de las estimaciones de los parámetros de los ítems no comunes.

Análisis previos y estimación de parámetros
Registrados  los  resultados  de  la  administración  de  los  ítems,  es  recomendable  realizar  análisis previos a la estimación de parámetros con el fin de detectar y depurar anomalías. Renom y Doval  (1999) enumeran tres frentes de acción a la hora de analizar las matrices de respuesta: filtrado de la obtención y captura de datos a fin de evitar tratar protocolos anómalos de los examinados, análisis convencionales de cada subtest para detectar ítems incompatibles con los modelos de la TRI, y verificación de las pautas de respuesta de los examinados. Antes de proceder con la estimación de parámetros, también se suele realizar otro estudio, el del supuesto de unidimensionalidad del banco de ítems. Si bien este análisis pertenece a la etapa posterior  de verificación  del ajuste  al modelo  de la TRI, su práctica  suele adelantarse  porque  no requiere conocer de antemano los valores de los parámetros. Como resultado de los estudios previos a la estimación  de parámetros,  puede ocurrir que alguno de los ítems del banco sea retirado del mismo (por ejemplo, por no satisfacer el principio de unidimensionalidad).

Una  vez  revisadas  y  depuradas  las  matrices  de  respuesta  obtenidas  tras  la  aplicación  de  los subtests  se  está  en  condiciones  de  proceder  a  la  estimación  de  parámetros  en  base  a  alguno  de  los modelos de la TRI. Cuando se trata de ítems de respuesta múltiple dicotómicos (esto es, en los que sólo se distingue acierto y error), la experiencia y la intuición indican que el modelo de tres parámetros es el más adecuado, algo en lo que coinciden la mayoría de los autores(Santisteban y Alvarado, 2001).

Estimar  la  habilidad  del  examinado  cuando  se  dispone  de  los  parámetros  de  los  ítems  puede realizarse de manera sencilla mediante la técnica de máxima verosimilitud condicionada (tal y como ocurre en los TAI, de los que se hablará más adelante). Lo mismo ocurre en la situación inversa, esto es, cuando se desea obtener la curva característica de un ítem conocidas las habilidades de los sujetos a quienes se les ha administrado (Baker, 1992). Sin embargo, en el contexto de la calibración del banco de ítems tanto la habilidad de los sujetos a quienes se les ha administrado los subtests como los parámetros de los ítems son variables  desconocidas.  Por ello, pese  a que sólo interesan  las estimaciones  de los parámetros  de los ítems, es necesaria una estimación simultánea mediante algún método alternativo. La estimación  máximo verosímil conjunta (Birnbaum,  1968), que se suele implementar mediante un tratamiento multivariado del procedimiento  de Newton -Raphson, asigna un valor inicial (por ejemplo, aleatorio) a los parámetros de los ítems y, asumiendo que son los verdaderos, estima las habilidades de los sujetos, generalmente mediante el  procedimiento   de  máxima  verosimilitud   condicionada.   Tomando  estos  valores  de  habilidad  recién calculados como reales, se procede a recalcular los parámetros de los ítems (mediante el procedimiento de estimación  máximo  verosímil,  condicionado  en  este  caso  a  los  valores  de  habilidad).  Estas  nuevas estimaciones  de los parámetros se usarán a su vez para volver a estimar las habilidades de los sujetos, habilidades que permitirán obtener valores más precisos de los parámetros de los ítems. Las dos etapas del proceso se repetirán hasta obtener convergencia en los parámetros de los ítems y las habilidades de los examinados.  La  estimación  conjunta  de  habilidades  y  parámetros  plantea  dos  inconvenientes:  por  una parte, exige la eliminación de las puntuaciones extremas (todo aciertos o todo fallos), tanto para ítems como para sujetos, y por otra, el número de parámetros y habilidades a estimar aumenta a medida que crece el tamaño de la muestra. El método de estimación máximo verosímil marginal(Bock y Aitkin, 1981) evita estos problemas, as umiendo que la muestra de sujetos se ha seleccionado aleatoriamente de una población en la que la habilidad  está distribuida  en base  a una función  de densidad  g(è), que desde un punto de vista bayesiano correspondería a la distribución previa de probabilidades, en lugar de usar un valor è para cada examinado.   A  diferencia  de  la  estimación   máximo  verosímil  conjunta,  el  procedimiento   de  máxima verosimilitud marginal proporciona consistencia a la estimación de los parámetros, y es independiente del tamaño  de  la  muestra.  Pese  a  ser  probablemente   la  técnica  más  utilizada,  el  método  de  máxima verosimilitud  marginal  no  está  exento  de  problemas,  por  lo  que  se  han  definido  algunas  variantes  y generalizaciones  del mismo, habiéndose propuesto incluso alternativas puramente bayesianas (Hambleton y  Swaminathan,  1985).  Aunque  se  han  presentado  las  diferentes  técnicas  de  estimación  conjunta  de parámetros y habilidades, uno puede despreocuparse a la hora de calibrar un banco de ítems, pues existen paquetes de software que las implementan, calculando en pocos segundos estimaciones de los parámetros invariantes  y  robustas  que  se  ajusten  a  su  curva  característica  según  el  modelo  TRI  correspondiente. Destacan  LOGIST  (Wingersky,  1983),  que  implementa  la  estimaciones  máximo  verosímil  conjunta  e incondicional, y se ha convertido en el estándar de facto con el que se comparan los demás procedimientos de estimación  de parámetros;  y BILOG (Mislevy  y Bock, 1990), que se perfila como uno de los mejores programas al implementar la reformul ación del método de máxima verosimilitud marginal de Bock y Aitkin (1981).

Equiparación de puntuaciones
Administrar todo el banco de ítems a cada sujeto de la muestra tiene la ventaja de que se elimina una de las fuentes más importantes  de error en la equiparación  de puntuaciones,  a saber, la relativa al muestreo de los examinados. No obstante, plantea diversos problemas, dado que aplicar un elevadísimo número de ítems a una misma persona no siempre es factible, amenaza la seguridad del banco de ítems y puede deparar  resultados  negativos  debidos  a la fatiga o a la desmotivación.  Por su parte, distribuir  los ítems en varios subtests tiene la ventaja de que no se administra todo el banco a cada examinado, pero, después de haber estimado los parámetros de los ítems administrados en los subtests, resulta necesario equiparar sus escalas de medida con el fin de que todo el banco utilice una métrica común. Sólo así, una vez se dispone del banco calibrado, o lo que es lo mismo, cuando los parámetros de todos los ítems están expresados en la misma métrica, será posible verificar la bondad de ajuste, hecho lo cual se podrá obtener la curva característica y la función de información de cualquier ítem o test generado a partir del banco.

La equiparación de puntuaciones es un proceso estadístico que permite ajustar las puntuaciones de diferentes tests, cuyas dificultades probablemente serán desiguales, con el fin de poder compararlas en una escala de habilidad  con origen y unidad  comunes.  Técnicamente,  cuando  se ha utilizado un diseño de anclaje para la administración de los ítems, se dirá que éstos están calibrados una vez se haya efectuado la equiparación de sus parámetros (mientras tanto, estarán simplemente estimados) mediante un reescalado lineal de los parámetros de cada subtest a una métrica común. Se han propuesto diferentes métodos para obtener los valores de la pendiente  y ordenada  en el origen que definen el escalado  para cada subtest. Entre las técnicas de equiparación cimentadas en la TRI que permiten expresar las puntuaciones de varios subtests que comparten un diseño de anclaje de ítems, destacan los métodos basados en los momentos (media-sigma, media -media), los métodos basados en la curva característica del test (Haebara, Stocking - Lord, ÷2 mínimo) y el método de la calibración concurrente. La mayor parte del software de estimación de parámetros existente implementa alguno de estos métodos, por lo que uno tampoco debería preocuparse por cuál es el funcionamiento de cada uno de estos procedimientos.

Estudios de ajuste al modelo
Los modelos de la TRI fundamentan su flexibilidad en la realización de suposiciones muy restrictivas que  no  siempre  se  ajustan  a  la  realidad.  Por  este  motivo  es  tan  importante  este  paso,  consistente  en verificar si las estimaciones recién obtenidas se ajustan al modelo elegido y si se cumplen las restricciones que  impone  el  mismo.  La  más  importante  es  la  comprobación  de  unidimensionalidad,  que  consiste  en verificar que los ítems sólo sirven para medir una única habilidad. Como ya se ha adelantado, este supuesto puede estudiarse antes de la estimación de parámetros, quedando para después otro tipo de estudios como los de bondad de ajuste de los parámetros  de los ítems, los de invarianza  de los parámetros,  o los de simulación del comportamiento  del modelo. Como resultado de esta etapa puede ocurrir que algunos ítems sean retirados del banco por no respetar los supuestos de la TRI.

4        Cuarta fase: Administración del test
Una vez se tiene construido  el banco de ítems o el test y, en su caso, calibrados sus ítems, se plantea el momento  de administrar  el o los tests a los sujetos a evaluar. Para este cometido  es posible utilizar  un  método  que  recoja  los  resultados  a  través  de  un  sistema  de  información,  o  una  aplicación informática que únicamente presente los ítems creados en la segunda fase de la construcción del test. Son muchos los sistemas que automatizan la administración de tests, llegando a presentar características muy diferentes unos de otros. Así, algunos programas como TestGIP, Exam Software 2.3, Aritest Profesores 2.1 y tPilot 1.4, sirven para evaluar al alumno suministrándole un test cuyos ítems tienen almacenados; otras aplicaciones, por su parte, sirven además para mostrar algún tipo de unidad didáctica o lección previa en torno  a  la  cual  se  desarrollará  la  evaluación.  La  ventaja  de  estos  sistemas  es  su  sencillez  en  la administración,  ya  que  están  pensados  para  que  profesores  que  no  están  muy  familiarizados  con  la tecnología puedan utilizarlos con facilidad. Sirvan como ejemplo los programas Malted, HotPotatoes 6.0 y My Teacher 2.0, de los que se ha hablado antes. Un tercer tipo de programas  informáticos  son los que, además  de  lo  anterior,  siguen  estándares  como  SCORM  o  AICC  e  incorporan  nuevas  funcionalidades educativas como la de evaluar y gu ardar los resultados para un posterior análisis; tal es el caso de sistemas como ELSA (Armendariz, López -Cuadrado, Tapias, Villamañe, Sanz -Lumbier y Sanz -Santamaría, 2003), o las anteriormente mentadas Toolbok 8.6, Tour Virtual de QS Author 1.6 y Macromedia Dreamweaver más el módulo de educación de Macromedia.

Independientemente de qué categoría de software se use, una vez concluido un test de evaluación se dispone de una estimación de la habilidad del examinado. En el marco de la TRI se trata de un valor numérico  (è) en la escala de medida del banco de ítems, algo que puede no resultar informativo para el sujeto, de ahí que suela inferirse algún otro tipo de puntuación  más significativa.  Por ejemplo, este valor puede transformarse a la escala [0,10] o a la métrica de la curva característica del test utilizado, baremarse mediante  el  uso  de  centiles  o  porcentajes  acumulados,  o  incluso  representarse  gráficamente  sobre  el continuo de habilidades.

5        Quinta fase: Calibración on -line
En el contexto  de los tests adaptativos  fundamentados  en la TRI, de los que se hablará en la siguiente sección, cuando haya pasado algún tiempo desde que se calibrara el banco de ítems, lo más recomendable es disponer de nuevos ítems para añadir, con el fin de sustituir a otros que conviene retirar por haber quedado  obsoletos,  estar defectuosos  o haberse  utilizado  muy a menudo  (Wainer  y Mislevy, 1990). El principal problema es que es necesario calibrar estos nuevos ítems en la misma métrica que utiliza el  banco.  Para  realizar  esta  equiparación  existen  diversos  métodos,  uno  de  los  cuales  consiste  en desarrollar un nuevo proceso de calibración, según se acaba de ver en apartados anteriores. Aunque esta vía puede ser la más adecuada  cuando se dispone de muchos ítems nuevos, lo más habitual es que la inclusión sea progresiva y se dé con pequeños conjuntos de ítems, por lo que en este punto será mejor aprovechar  que se dispone  del banco  de ítems  calibrado  para facilitar  el trabajo  de cara a estimar  los parámetros de los nuevos ítems (López -Cuadrado, Pérez et al., 2002). Así, lo más habitual es administrar a una población numerosa, generalmente la misma a la que se pretende evaluar a partir del banco calibrado, un test compuesto por los ítems nuevos y algunos (de anclaje) pertenecientes al banco. De este modo, el subconjunto de ítems de anclaje permite establecer una conexión entre la métrica de la nueva calibración y la del banco. La denominada  calibración on-line simplifica aún más el proceso, y en lugar de generar tests específicos, lo que hace es aplicar al comienzo de cada test adaptativo uno o dos ítems, que no influyen en la estimación final de habilidad del sujeto. El objetivo será construir una matriz de datos con la que después realizar la calibración aplicando un sistema de anclaje-equiparación,  algo que, a diferencia de lo que ocurre en la calibración inicial del banco de ítems, en este caso resulta muy sencillo porque se dispone de las estimaciones de habilidad de los alumnos (obtenidas por los tests aplicados).

En resumen, en un diseño de calibración on-line los nuevos ítems pueden administrarse linealmente junto con los ítems operacionales,  para posteriormente  ser calibrados  y equiparados  según la escala del banco actual. Casi todos los programas de evaluación basados en la TRI incluyen la calibración e inclusión de nuevos ítems cada cierto tiempo, principalmente por motivos de seguridad. De hecho, la principal ventaja de la calibración on-line se refiere al ahorro temporal y de recursos, pues permite mantener la seguridad de las pruebas sin necesidad de realizar continuos procesos de calibración tan complejos como el descrito en la sección anterior.


Extraído de
EVALUACIÓN MEDIANTE TESTS: ¿POR QUÉ NO USAR EL ORDENADOR?
Javier López-Cuadrado, Tomás A. Pérez y Ana Jesús Armendariz
Departamento de Lenguajes y Sistemas Informáticos, Universidad del País Vasco, España
Revista Iberoamericana de Educación (ISSN: 1681-5653)


Publicaciones recomendadas

domingo, 1 de abril de 2012

Obtención de notas individuales a partir de una nota de grupo mediante una evaluación cooperativa

Seguramente, más de una vez tuvimos que evaluar un trabajo grupal, cuantificarlo, y colocar una nota a cada integrante del grupo. Está claro que no podemos tener una respuesta global a los problemas que la actividad plantea, pero podemos reflexionar sobre ellos ¿Qué significa coevaluación? ¿Autoevaluación? ¿Evaluación cooperativa?



En este trabajo se presenta un método que permite evaluar la responsabilidad individual en actividades cooperativas, mediante una coevaluación holística con autoevaluación.

La nota final del estudiante tiene aportaciones de la evaluación del docente (a través de la nota del proyecto), de la evaluación de sus compañeros de grupo (a través de la coevaluación) y de su propia evaluación (autoevaluación), constituyendo un ejemplo de evaluación cooperativa.

Prácticamente no hay nada que un docente pueda hacer en una clase para eliminar cualquier tipo de queja por parte del alumnado, aunque éstas pueden ser un problema serio si son generalizadas. El uso de un sistema de coevaluación como el que se ha propuesto en este trabajo ayuda a reducir el número de quejas que comúnmente se recogen en actividades grupales y cooperativas, en especial las relacionadas con los polizones. Cuando a los estudiantes se les informa que los polizones no recibirán la misma puntuación que el resto, se sienten menos inclinados a quejarse acerca de este problema del aprendizaje cooperativo. Para evitar el sesgo en las calificaciones debido a posibles valoraciones subjetivas o confabulaciones entre estudiantes, que pudieran conducir a la detección de falsos polizones, el docente siempre puede analizar los comentarios y justificaciones que el alumnado realizó y entrevistarse con los estudiantes implicados para averiguar exactamente qué ha pasado.

Cabe destacar la importancia del propio estudiante en el proceso evaluador en este tipo de experiencias y es que en la concepción tradicional de la enseñanza, las actividades de aprendizaje son básicamente memorísticas y repetitivas; por ello, es de esperar una modalidad de evaluación sumativa y cuantitativa, individual y centrada en los resultados finales, sin considerar el proceso. En cambio, desde una concepción constructivista del aprendizaje y centrada en la cooperación, la evaluación debe atender no sólo
a un objetivo sumativo, igualmente necesario en algunos momentos del proceso, sino a todo el proceso, y tanto a escala individual como del grupo, entre iguales y por el docente (De Benito y Pérez, 2003). El estudiante, al mismo tiempo que asume mayor responsabilidad en el proceso de aprendizaje, debe responsabilizarse de la valoración del propio trabajo y del de otros. El docente, por su parte, tiene un nuevo rol en las evaluaciones cooperativas, que se asemeja más al de un examinador externo y moderador, ya que debe controlar el proceso, proteger a los estudiantes de las puntuaciones injustas y establecer los criterios de referencia para la evaluación.

Por último, conviene destacar que la autoevaluación y la coevaluación, como formas de evaluación cooperativa, no son métodos de evaluación, sino fuentes de evaluación que pueden ser usadas junto con diferentes métodos e instrumentos evaluativos y deberían formar parte de un proceso de cambio hacia una instrucción centrada en el alumnado. Las habilidades para autoevaluarse, para realizar evaluaciones entre iguales o de participar en evaluaciones cooperativas son importantes en el desarrollo del aprendizaje a lo largo de la vida del estudiante y en el desarrollo de la autonomía de los individuos (Sambell, McDowell y Brown, 1997





Publicaciones recomendadas
Related Posts Plugin for WordPress, Blogger...

Busca en mis blogs

Google+