Sostenemos que la evaluación
es parte del proceso educativo, no su culminación ¿No sería valioso tener una
forma de evaluar, que no sea costosa en tiempo? ¿Las nuevas tecnologías podrían
ayudarnos? Tener información rápida sobre la marcha de las actividades es de
gran valor, para efectuar las correcciones en forma rápida.
Evaluación mediante test
Evaluación mediante test
Este apartado
presenta las fases de construcción de un test de evaluación. La primera etapa
es la concepción del test, a partir de la que, dependiendo del
grado de sofisticación que se desee, podrán o no efectuarse las etapas de construcción
del test de manera electrónica y construcción y calibración del banco de
ítems. En todo caso, el desarrollo de la prueba de evaluación culmina en la
etapa de administración del test, si bien cuando se ha calibrado un
banco de ítems conviene realizar periódicamente labores de mantenimiento en las
que la calibración on-line puede ser de gran utilidad.
1
Primera fase: Concepción del test
El primer
paso de la administración de un test consiste en crear las preguntas
que se pretende incluir, tarea para la que no es necesario en principio
ningún ordenador. La construcción de ítems de calidad puede resultar más
complicada de lo que parec e, de ahí que sea aconsejable seguir algunas
sugerencias, como por ejemplo, no incluir en el enunciado palabras
como “siempre”, “ninguno” o “generalmente”, no repetir
palabras en cada posible respuesta cuando pueden escribirse una sola vez en el
enunciado; evitar negaciones dobles y opciones como “ninguna de las
anteriores” o “todas las anteriores”; y utilizar tres o cuatro
distractores (alternativas de respuesta incorrecta) relevantes y atractivos,
con la misma longitud que la respuesta buena (Muñiz, 1997). Aunque seguir
estas sugerencias no garantiza el éxito, al menos facilita la identificación de
ítems potencialmente problemáticos.
Una vez
construidos los ítems del test es posible utilizar los métodos tradicionales de
administración del mismo, en concreto, repartir a los alumnos un cuadernillo
con las preguntas y una hoja donde inscribir las respuestas a cada una de
ellas. En una situación como ésta, en la que puede hacerse caso omiso de las
secciones siguientes, la posterior recogida y análisis de datos
puede ser una tarea costosa y pesada, al menos si se compara con las
facilidades que ofrecen los tests administrados en soporte
informático. El siguiente apartado versará acerca de la creación de
una versión informática de los ítems desarrollados en esta fase,
independientemente de si se les va a dar un uso único en un test o si se
pretende almacenarlos en un banco de ítems para aprovecharlos en diferentes
pruebas de evaluación.
2
Segunda fase: Construcción del banco de ítems o del test
Para poder
administrar mediante un ordenador el test diseñado, lo primero que hay que
hacer es dar a los ítems un formato
adecuado para ser utilizados por el
soporte informático. En determinadas situaciones (como cuando
los ítems desarrollados no van a reutilizarse) será suficiente con crear el
test a administrar mediante un procesador de texto; pero si los objetivos son
más ambiciosos (como cuando se quiere tomar la TRI como bas e para la
construcción de tests adaptativos) es necesario implementar
un banco de ítems para ser utilizado en la generación de tests. Existen
en el mercado múltiples y variadas herramientas que facilitan
esta labor, generando automáticamente la base de
dat os que almacenará el banco de ítems. Aunque
algunas de ellas se dedican además a
otras tareas complementarias, cabe destacar las
aplicaciones Malted (malted.cnice.mecd.es),
HotPotatoes 6.0 (www.aula21.net)
y My Teacher 2.0, que facilitan la creación de contenidos didácticos y
tests de evaluación; así como Test Constructor 2.5, Tester 2.0, TestIt 3.0
Build 110, Random Test Generator PRO 8.0, Academic Test Tool 3.0, QuizMaster
1.0, Examenes 1.2, TestGIP, Aritest Profesores 2.1, y tPilot 1.4, que permiten
almacenar ejercicios con el fin de generar tests de evaluación. Todos estos
programas se pueden descargar desde la web.
El formato de
representación de los ítems puede ser un factor crítico en algunos contextos,
de ahí que antes de implementar el banco de ítems sea conveniente decidir cómo
se va a simbolizar. Hasta hace poco, cada sistema utilizaba sus propios
formatos para representar ítems y tests, tal y como ocurre con los programas
recién enumerados. Sin embargo, en la actualidad existe una tendencia a usar
estándares para la representación de ítems, como Question & Test
Interoperability (QTI) desarrollado por la iniciativa IMS (www.imsglobal.org).
Algunas herramientas como ADISTI (López -Cuadrado, Armendariz y Pérez,
2003) y Canvas Learning (www.imsprojects.org),
intuitivas y fáciles de usar, almacenan automáticamente los ítems en una
base de datos siguiendo este estándar. Otras herramientas de autor, como
Macromedia Authorware
7 y Macromedia Dreamweaver
MX con módulo de educación (www.macromedia.com), Tour Virtual de QS Author 1.6 (www.qsmedia.com), o
Toolbook 8.6 (www.sumtotalsystems.com),
facilitan la informatización de los ítems, permitiendo crear y
administrar un curso entero siguiendo algún otro estándar
educativo como SCORM (www.adlnet.org)
o el propues to por el AICC (www.aicc.org).
3
Tercera fase: Calibración del banco de ítems
Cuando
se desea utilizar como marco teórico
la TRI, es necesario conocer los
valores de los parámetros que definen la curva característica
de cada ítem. Aunque la TRI define cuatro parámetros, en la práctica sólo se
utilizan los modelos de uno (dificultad), dos (dificultad y discriminación) y
tres parámetros (dificultad, discriminación y pseudoacierto).
La
calibración consiste en establecer en una métrica común los parámetros de cada
ítem del banco. Sólo cuando los ítems se encuentren en la misma escala se podrá
asegurar que cualquier subconjunto de ellos proporcionará
estimaciones de habilidad invariantes e
independientes de la composición del test
utilizado. Realizar la calibración de un banco de ítems, si bien no es
excesivamente complicado, conlleva tareas largas y costosas,
debidas a la gran cantidad de trabajo de campo que se requiere. Una práctica
utilizada con cierta frecuencia, aunque al margen de las instrucciones que
proporciona la psicometría, es hacer una estimación de la dificultad de cada
uno de los ítems (en particular, al utilizar el modelo de un único parámetro)
en base a las contribuciones de expertos en la materia que se pretende evaluar.
Aunque consultar a profesor es o pedagogos doctos en la materia que se pretende
evaluar y pedirles que valoren los parámetros de los ítems puede ser un
buen comienzo, no es recomendable conformarse sólo con esto,
dado que por tratarse de una estimación subjetiva, no siempre resulta fácil
determinar acertadamente los valores de los parámetros, y la precisión y
validez de los tests posteriormente compilados podría quedar en entredicho. Lo
más habitual y recomendable de cara a generar tests adaptativos fiables es
calibrar el banco de ítems mediante algún procedimiento
estadístico. Por ello, la calibración se ejecuta por lo
general en cuatro pasos (Renom y Doval, 1999): primero se administran los
ítems a una gran muestra de sujetos, generalmente utilizando algún
tipo de diseño de anclaje; tras
analizar las respuestas recopiladas, se estiman
estadísticamente los parámetros de los ítems y las habilidades de los
sujetos; después se unifican las escalas de los diferentes subtests de
anclaje para que todo el banco de ítems (y los tests generados a partir de él)
utilicen la misma métrica; y por último, se efectúan estudios de ajuste de
los datos al modelo de la TRI con el fin de identificar y retirar ítems
defectuosos. Los siguientes cuatro epígrafes describirán cada una de estas
fases.
Diseño de anclaje y
administración de los ítems
Los modelos
matemáticos de la TRI se fundamentan en variables (parámetros) latentes,
difícilmente observables pero que se pueden estimar. Y en esto consiste
precisamente la calibración de un banco de ítems. Se trata de administrar las
preguntas a una muestra de sujetos, cuyas habilidades son en principio
desconocidas, para obtener estimaciones de los
parámetros de cada ítem a partir de
las respuestas recopiladas. Para poder asegurar que estos
parámetros sólo dependen del ítem y no, por ejemplo, de los sujetos a
los que se ha administrado, la
muestra utilizada ha de ser lo
suficientemente grande y heterogénea como para que las
estimaciones obtenidas sean insesgadas. Así, el primer paso en el proceso de
calibración consiste en administrar cada ítem a una muestra de
varios cientos de personas. Llevar a cabo una administración de
semejantes características obligará probablemente a repartir
los ítems entre diversos subtests. Existen varias alternativas para unificar
las previsiblemente diferentes métricas obtenidas en los distintos subtests en
una escala que sea común a todo el banco de ítems, pudiendo haber algunas
cuestiones que contesten todos los sujetos y/ o algunos sujetos a los que se
les administre todo el banco de ítems(Kolen y Brennan, 1995). El objetivo en
cualquier caso es disponer de una referencia común a todas las pruebas que sirva
de anclaje en la posterior fase de equiparación de las diferentes métricas. La
opción más utilizada es la de los ítems de anclaje, que son conjuntos de ítems
que dos o más subtes ts tienen en común. Los parámetros de estos ítems comunes
se estiman junto con los del resto de ítems que componen cada subtest,
para después comparar los resultados
obtenidos en cada caso, lo que
facilitará la equiparación de las estimaciones de los parámetros de
los ítems no comunes.
Análisis previos y estimación
de parámetros
Registrados
los resultados de la administración de
los ítems, es recomendable realizar
análisis previos a la estimación de parámetros con el fin de detectar y
depurar anomalías. Renom y Doval (1999) enumeran tres frentes de acción a
la hora de analizar las matrices de respuesta: filtrado de la obtención y
captura de datos a fin de evitar tratar protocolos anómalos de los examinados,
análisis convencionales de cada subtest para detectar ítems incompatibles con
los modelos de la TRI, y verificación de las pautas de respuesta de los
examinados. Antes de proceder con la estimación de parámetros, también se suele
realizar otro estudio, el del supuesto de unidimensionalidad del banco de
ítems. Si bien este análisis pertenece a la etapa posterior de
verificación del ajuste al modelo de la TRI, su práctica
suele adelantarse porque no requiere conocer de antemano los
valores de los parámetros. Como resultado de los estudios previos a la estimación
de parámetros, puede ocurrir que alguno de los ítems del banco sea
retirado del mismo (por ejemplo, por no satisfacer el principio de
unidimensionalidad).
Una vez
revisadas y depuradas las matrices de
respuesta obtenidas tras la aplicación de
los subtests se está en condiciones de
proceder a la estimación de parámetros
en base a alguno de los modelos de la TRI.
Cuando se trata de ítems de respuesta múltiple dicotómicos (esto es, en los que
sólo se distingue acierto y error), la experiencia y la intuición indican que
el modelo de tres parámetros es el más adecuado, algo en lo que coinciden la
mayoría de los autores(Santisteban y Alvarado, 2001).
Estimar
la habilidad del examinado cuando se
dispone de los parámetros de los
ítems puede realizarse de manera sencilla mediante la técnica de
máxima verosimilitud condicionada (tal y como ocurre en los TAI, de los que se
hablará más adelante). Lo mismo ocurre en la situación inversa, esto es, cuando
se desea obtener la curva característica de un ítem conocidas las habilidades
de los sujetos a quienes se les ha administrado (Baker, 1992). Sin embargo, en
el contexto de la calibración del banco de ítems tanto la habilidad de los
sujetos a quienes se les ha administrado los subtests como los parámetros de
los ítems son variables desconocidas. Por ello, pese a que
sólo interesan las estimaciones de los parámetros de los
ítems, es necesaria una estimación simultánea mediante algún método
alternativo. La estimación máximo verosímil conjunta (Birnbaum,
1968), que se suele implementar mediante un tratamiento multivariado
del procedimiento de Newton -Raphson, asigna un valor inicial (por
ejemplo, aleatorio) a los parámetros de los ítems y, asumiendo que son los
verdaderos, estima las habilidades de los sujetos, generalmente mediante el
procedimiento de máxima verosimilitud
condicionada. Tomando estos valores de
habilidad recién calculados como reales, se procede a recalcular
los parámetros de los ítems (mediante el procedimiento de estimación
máximo verosímil, condicionado en este caso
a los valores de habilidad). Estas
nuevas estimaciones de los parámetros se usarán a su vez para
volver a estimar las habilidades de los sujetos, habilidades que permitirán
obtener valores más precisos de los parámetros de los ítems. Las dos etapas del
proceso se repetirán hasta obtener convergencia en los parámetros de los ítems
y las habilidades de los examinados. La estimación conjunta
de habilidades y parámetros plantea dos
inconvenientes: por una parte, exige la eliminación de las
puntuaciones extremas (todo aciertos o todo fallos), tanto para ítems como para
sujetos, y por otra, el número de parámetros y habilidades a estimar aumenta a
medida que crece el tamaño de la muestra. El método de estimación máximo
verosímil marginal(Bock y Aitkin, 1981) evita estos problemas, as umiendo que
la muestra de sujetos se ha seleccionado aleatoriamente de una población en la
que la habilidad está distribuida en base a una función
de densidad g(è), que desde un punto de vista bayesiano
correspondería a la distribución previa de probabilidades, en lugar de usar un
valor è para cada examinado. A diferencia de la
estimación máximo verosímil conjunta, el
procedimiento de máxima verosimilitud marginal
proporciona consistencia a la estimación de los parámetros, y es independiente
del tamaño de la muestra. Pese a ser
probablemente la técnica más utilizada, el
método de máxima verosimilitud marginal no
está exento de problemas, por lo que
se han definido algunas variantes y
generalizaciones del mismo, habiéndose propuesto incluso alternativas
puramente bayesianas (Hambleton y Swaminathan, 1985). Aunque
se han presentado las diferentes técnicas
de estimación conjunta de parámetros y habilidades, uno
puede despreocuparse a la hora de calibrar un banco de ítems, pues existen
paquetes de software que las implementan, calculando en pocos segundos
estimaciones de los parámetros invariantes y robustas que
se ajusten a su curva característica
según el modelo TRI correspondiente. Destacan
LOGIST (Wingersky, 1983), que implementa la
estimaciones máximo verosímil conjunta e
incondicional, y se ha convertido en el estándar de facto con el que se
comparan los demás procedimientos de estimación de parámetros; y
BILOG (Mislevy y Bock, 1990), que se perfila como uno de los mejores
programas al implementar la reformul ación del método de máxima verosimilitud
marginal de Bock y Aitkin (1981).
Equiparación de puntuaciones
Administrar
todo el banco de ítems a cada sujeto de la muestra tiene la ventaja de que se
elimina una de las fuentes más importantes de error en la equiparación
de puntuaciones, a saber, la relativa al muestreo de los
examinados. No obstante, plantea diversos problemas, dado que aplicar un
elevadísimo número de ítems a una misma persona no siempre es factible, amenaza
la seguridad del banco de ítems y puede deparar resultados
negativos debidos a la fatiga o a la desmotivación. Por
su parte, distribuir los ítems en varios subtests tiene la ventaja de que
no se administra todo el banco a cada examinado, pero, después de haber
estimado los parámetros de los ítems administrados en los subtests, resulta
necesario equiparar sus escalas de medida con el fin de que todo el banco utilice una métrica común. Sólo así, una
vez se dispone del banco calibrado, o lo que es lo mismo, cuando los parámetros
de todos los ítems están expresados en la misma métrica, será posible verificar
la bondad de ajuste, hecho lo cual se podrá obtener la curva característica y
la función de información de cualquier ítem o test generado a partir del banco.
La
equiparación de puntuaciones es un proceso estadístico que permite ajustar las
puntuaciones de diferentes tests, cuyas dificultades probablemente serán
desiguales, con el fin de poder compararlas en una escala de habilidad
con origen y unidad comunes. Técnicamente, cuando
se ha utilizado un diseño de anclaje para la administración de los ítems,
se dirá que éstos están calibrados una vez se haya efectuado la equiparación de
sus parámetros (mientras tanto, estarán simplemente estimados) mediante un
reescalado lineal de los parámetros de cada subtest a una métrica común. Se han
propuesto diferentes métodos para obtener los valores de la pendiente y
ordenada en el origen que definen el escalado para cada subtest.
Entre las técnicas de equiparación cimentadas en la TRI que permiten expresar
las puntuaciones de varios subtests que comparten un diseño de anclaje de
ítems, destacan los métodos basados en los momentos (media-sigma, media
-media), los métodos basados en la curva característica del test (Haebara,
Stocking - Lord, ÷2 mínimo) y el método de la calibración concurrente. La mayor
parte del software de estimación de parámetros existente implementa alguno de
estos métodos, por lo que uno tampoco debería preocuparse por cuál es el
funcionamiento de cada uno de estos procedimientos.
Estudios de ajuste al modelo
Los modelos
de la TRI fundamentan su flexibilidad en la realización de suposiciones muy
restrictivas que no siempre se ajustan a la
realidad. Por este motivo es tan
importante este paso, consistente en verificar si
las estimaciones recién obtenidas se ajustan al modelo elegido y si se cumplen
las restricciones que impone el mismo. La más
importante es la comprobación de
unidimensionalidad, que consiste en verificar que los
ítems sólo sirven para medir una única habilidad. Como ya se ha adelantado,
este supuesto puede estudiarse antes de la estimación de parámetros, quedando
para después otro tipo de estudios como los de bondad de ajuste de los
parámetros de los ítems, los de invarianza de los parámetros,
o los de simulación del comportamiento del modelo. Como resultado
de esta etapa puede ocurrir que algunos ítems sean retirados del banco por no
respetar los supuestos de la TRI.
4
Cuarta fase: Administración del test
Una vez se
tiene construido el banco de ítems o el test y, en su caso, calibrados
sus ítems, se plantea el momento de administrar el o los tests a
los sujetos a evaluar. Para este cometido es posible utilizar un
método que recoja los resultados a
través de un sistema de información,
o una aplicación informática que únicamente presente los
ítems creados en la segunda fase de la construcción del test. Son muchos los
sistemas que automatizan la administración de tests, llegando a presentar
características muy diferentes unos de otros. Así, algunos programas como
TestGIP, Exam Software 2.3, Aritest Profesores 2.1 y tPilot 1.4, sirven para
evaluar al alumno suministrándole un test cuyos ítems tienen almacenados; otras
aplicaciones, por su parte, sirven además para mostrar algún tipo de unidad
didáctica o lección previa en torno a la cual se
desarrollará la evaluación. La ventaja de
estos sistemas es su sencillez en la
administración, ya que están pensados para
que profesores que no están muy
familiarizados con la tecnología puedan utilizarlos con
facilidad. Sirvan como ejemplo los programas Malted, HotPotatoes 6.0 y My
Teacher 2.0, de los que se ha hablado antes. Un tercer tipo de programas
informáticos son los que, además de lo anterior,
siguen estándares como SCORM o AICC
e incorporan nuevas funcionalidades educativas como la
de evaluar y gu ardar los resultados para un posterior análisis; tal es el caso
de sistemas como ELSA (Armendariz, López -Cuadrado, Tapias, Villamañe, Sanz
-Lumbier y Sanz -Santamaría, 2003), o las anteriormente mentadas Toolbok 8.6,
Tour Virtual de QS Author 1.6 y Macromedia Dreamweaver más el módulo de
educación de Macromedia.
Independientemente
de qué categoría de software se use, una vez concluido un test de evaluación se
dispone de una estimación de la habilidad del examinado. En el marco de la TRI
se trata de un valor numérico (è) en la escala de medida del banco
de ítems, algo que puede no resultar informativo para el sujeto, de ahí que
suela inferirse algún otro tipo de puntuación más significativa.
Por ejemplo, este valor puede transformarse a la escala [0,10] o a la
métrica de la curva característica del test utilizado, baremarse mediante
el uso de centiles o porcentajes
acumulados, o incluso representarse gráficamente
sobre el continuo de habilidades.
5
Quinta fase: Calibración on -line
En el
contexto de los tests adaptativos fundamentados en la TRI, de
los que se hablará en la siguiente sección, cuando haya pasado algún tiempo
desde que se calibrara el banco de ítems, lo más recomendable es disponer de
nuevos ítems para añadir, con el fin de sustituir a otros que conviene retirar
por haber quedado obsoletos, estar defectuosos o haberse
utilizado muy a menudo (Wainer y Mislevy, 1990). El
principal problema es que es necesario calibrar estos nuevos ítems en la misma
métrica que utiliza el banco. Para realizar esta
equiparación existen diversos métodos, uno
de los cuales consiste en desarrollar un nuevo
proceso de calibración, según se acaba de ver en apartados anteriores. Aunque
esta vía puede ser la más adecuada cuando se dispone de muchos ítems
nuevos, lo más habitual es que la inclusión sea progresiva y se dé con pequeños
conjuntos de ítems, por lo que en este punto será mejor aprovechar que se
dispone del banco de ítems calibrado para facilitar
el trabajo de cara a estimar los parámetros de los nuevos
ítems (López -Cuadrado, Pérez et al., 2002). Así, lo más habitual es
administrar a una población numerosa, generalmente la misma a la que se
pretende evaluar a partir del banco calibrado, un test compuesto por los ítems
nuevos y algunos (de anclaje) pertenecientes al banco. De este modo, el
subconjunto de ítems de anclaje permite establecer una conexión entre la
métrica de la nueva calibración y la del banco. La denominada calibración
on-line simplifica aún más el proceso, y en lugar de generar tests
específicos, lo que hace es aplicar al comienzo de cada test adaptativo uno o
dos ítems, que no influyen en la estimación final de habilidad del sujeto. El
objetivo será construir una matriz de datos con la que después realizar la
calibración aplicando un sistema de anclaje-equiparación, algo que, a
diferencia de lo que ocurre en la calibración inicial del banco de ítems, en
este caso resulta muy sencillo porque se dispone de las estimaciones de
habilidad de los alumnos (obtenidas por los tests aplicados).
En resumen,
en un diseño de calibración on-line los nuevos ítems pueden
administrarse linealmente junto con los ítems operacionales, para
posteriormente ser calibrados y equiparados según la escala
del banco actual. Casi todos los programas de evaluación basados en la TRI
incluyen la calibración e inclusión de nuevos ítems cada cierto tiempo,
principalmente por motivos de seguridad. De hecho, la principal ventaja de la
calibración on-line se refiere al ahorro temporal y de recursos, pues
permite mantener la seguridad de las pruebas sin necesidad de realizar
continuos procesos de calibración tan complejos como el descrito en la sección
anterior.
No hay comentarios:
Publicar un comentario