Analisi s prueba enlace ems 2015

437 views 156 slides Aug 26, 2016
Slide 1
Slide 1 of 156
Slide 1
1
Slide 2
2
Slide 3
3
Slide 4
4
Slide 5
5
Slide 6
6
Slide 7
7
Slide 8
8
Slide 9
9
Slide 10
10
Slide 11
11
Slide 12
12
Slide 13
13
Slide 14
14
Slide 15
15
Slide 16
16
Slide 17
17
Slide 18
18
Slide 19
19
Slide 20
20
Slide 21
21
Slide 22
22
Slide 23
23
Slide 24
24
Slide 25
25
Slide 26
26
Slide 27
27
Slide 28
28
Slide 29
29
Slide 30
30
Slide 31
31
Slide 32
32
Slide 33
33
Slide 34
34
Slide 35
35
Slide 36
36
Slide 37
37
Slide 38
38
Slide 39
39
Slide 40
40
Slide 41
41
Slide 42
42
Slide 43
43
Slide 44
44
Slide 45
45
Slide 46
46
Slide 47
47
Slide 48
48
Slide 49
49
Slide 50
50
Slide 51
51
Slide 52
52
Slide 53
53
Slide 54
54
Slide 55
55
Slide 56
56
Slide 57
57
Slide 58
58
Slide 59
59
Slide 60
60
Slide 61
61
Slide 62
62
Slide 63
63
Slide 64
64
Slide 65
65
Slide 66
66
Slide 67
67
Slide 68
68
Slide 69
69
Slide 70
70
Slide 71
71
Slide 72
72
Slide 73
73
Slide 74
74
Slide 75
75
Slide 76
76
Slide 77
77
Slide 78
78
Slide 79
79
Slide 80
80
Slide 81
81
Slide 82
82
Slide 83
83
Slide 84
84
Slide 85
85
Slide 86
86
Slide 87
87
Slide 88
88
Slide 89
89
Slide 90
90
Slide 91
91
Slide 92
92
Slide 93
93
Slide 94
94
Slide 95
95
Slide 96
96
Slide 97
97
Slide 98
98
Slide 99
99
Slide 100
100
Slide 101
101
Slide 102
102
Slide 103
103
Slide 104
104
Slide 105
105
Slide 106
106
Slide 107
107
Slide 108
108
Slide 109
109
Slide 110
110
Slide 111
111
Slide 112
112
Slide 113
113
Slide 114
114
Slide 115
115
Slide 116
116
Slide 117
117
Slide 118
118
Slide 119
119
Slide 120
120
Slide 121
121
Slide 122
122
Slide 123
123
Slide 124
124
Slide 125
125
Slide 126
126
Slide 127
127
Slide 128
128
Slide 129
129
Slide 130
130
Slide 131
131
Slide 132
132
Slide 133
133
Slide 134
134
Slide 135
135
Slide 136
136
Slide 137
137
Slide 138
138
Slide 139
139
Slide 140
140
Slide 141
141
Slide 142
142
Slide 143
143
Slide 144
144
Slide 145
145
Slide 146
146
Slide 147
147
Slide 148
148
Slide 149
149
Slide 150
150
Slide 151
151
Slide 152
152
Slide 153
153
Slide 154
154
Slide 155
155
Slide 156
156

About This Presentation

prueba enlace


Slide Content

Las pruebas ENLACE
para educación media superior
Una evaluación para el Instituto Nacional
para la Evaluación de la Educación
ANEXO

ANEXO
Cuaderno de investigación
Felipe Martínez Rizo
Coordinador
Luis Ángel Contreras Niño • Eugenio González
Jesús M. Jornet Meliá
• Ma. Regina Martínez Casas
J. Felipe Martínez Fernández
• María Guadalupe Pérez Martínez
Francisco E. Reyes Jiménez
• Lucrecia Santibáñez
Guillermo Solano Flores
• Marianne Sandy Taut
Agustín Tristán López
Universidad Autónoma de Aguascalientes
40
Una evaluación para el Instituto Nacional
para la Evaluación de la Educación
Las pruebas ENLACE
para educación media superior

D.R. © Instituto Nacional para la Evaluación de la Educación
Barranca del Muerto 341, Col. San José Insurgentes,
Del. Benito Juárez;
C. P. 03900 México, D.F.
Editora
María Norma Orduña Chávez
Corrección de estilo
Hugo Soto de la Vega
Formación
Heidi Puon Sánchez
Impreso y hecho en México.
Distribución gratuita. Prohibida su venta.
Consulte el catálogo de publicaciones en línea: www.inee.edu.mx
La elaboración de esta publicación estuvo a cargo de la Dirección General
de Difusión y Fomento de la Cultura de la Evaluación. El contenido,
la presentación, así como la disposición en conjunto y de cada página
de esta obra son propiedad del
INEE. Se autoriza su reproducción parcial
o total por cualquier sistema mecánico o electrónico para fines
no comerciales y citando la fuente de la siguiente manera:
Martínez Rizo, F. (Coord.) (2015). Las pruebas
ENLACE para educación
media superior. Una evaluación para el Instituto Nacional para la Evaluación
de la Educación. México:
INEE.
Las pruebas
ENLACE para educación media superior
Una evaluación para el Instituto Nacional para la Evaluación de la Educación
Primera edición, 2015
ISBN: En trámite
Coordinador
Felipe Martínez Rizo
Luis Ángel Contreras Niño, Eugenio González,
Jesús M. Jornet Meliá, Ma. Regina Martínez Casas,
J. Felipe Martínez Fernández, María Guadalupe Pérez Martínez,
Francisco E. Reyes Jiménez, Lucrecia Santibáñez,
Guillermo Solano Flores, Marianne Sandy Taut,
Agustín Tristán López

5
Índice
Presentación ................................................................................................................... 7
Introducción ................................................................................................................. 11
Alineación a los referentes .......................................................................................... 14
Aspectos técnicos ......................................................................................................... 45
Atención a la diversidad . ............................................................................................. 63
Aplicaciones ................................................................................................................. 78
Usos y consecuencias ................................................................................................... 99
Conclusiones y recomendaciones ............................................................................. 136
Referencias bibliográficas.......................................................................................... 147
Anexos
1. Criterios y subcriterios de evaluación ......................................................................................... 1149
2. Informe de estudios especiales de comités de expertos
y entrevistas cognitivas sobre reactivos de enlace-ms
3. Microanálisis de una muestra de reactivos de enlace-ms
4. Información de entidades sobre aplicaciones
5. Resultados de encuesta de autoridades estatales sobre usos y consecuencias
6. Material de entrevistas con autoridades estatales y federales sobre usos y consecuencias
7. Revisión de prensa

DIRECTORIO
JUNTA DE GOBIERNO
Sylvia Irene Schmelkes del Valle
CONSEJERA PRESIDENTA
Eduardo Backhoff Escudero
CONSEJERO
Gilberto Ramón Guevara Niebla
CONSEJERO
Margarita María Zorrilla Fierro
CONSEJERA
Teresa Bracho González
CONSEJERA

7
Presentación
En diciembre de 2009 la Universidad Autónoma de Aguascalientes (UAA) y el Instituto Na-
cional para la Evaluación de la Educación (
INEE) firmaron un convenio, en cuyo marco el INEE
encomendó a la
UAA la realización del Estudio de validación de las pruebas ENLACE y EXCALE
de educación básica, para lo cual el 1 de octubre de 2013 se firmó un Anexo de Ejecución del
convenio mencionado.
Dicho Anexo de Ejecución precisa que el estudio analizará varios aspectos de las pruebas
ENLACE y EXCALE,
con base en la documentación que sobre su diseño, aplicación, resultados y la utilización y
consecuencias de los mismos aporten la
SEP [Secretaría de Educación Pública] y el INEE y, en la
medida en que sea necesario, en información adicional proporcionada por personas de la
SEP,
el
INEE y los sistemas educativos de las entidades federativas del país, en relación con aspectos
de los que no haya elementos suficientes en la información documental que se recabe.
Se añade que el estudio incluirá recomendaciones
que tengan en cuenta las mejores prácticas internacionales [
…] de manera que el desarrollo
del sistema nacional de evaluación de México, en lo relativo a educación básica, incluya
evaluaciones de aprendizajes en gran escala que, por la calidad de su diseño y aplicación,
así como por el uso que se haga de sus resultados, contribuyan en la mayor medida posible
al propósito de mejorar la calidad de la educación mexicana.
El Anexo precisa que los aspectos que comprenderá el estudio serán:
1. La alineación al currículo de la educación básica de México, revisando el grado en que
las pruebas atienden adecuadamente y según la naturaleza de una evaluación en gran
escala, los campos formativos, las asignaturas y los niveles de demanda cognitiva consi-
derados en los planes y programas de estudio de la educación básica nacional.
2. Los aspectos técnicos de las pruebas, como la calidad de los reactivos que las integran,
la de las versiones de las pruebas, las escalas y modelos psicométricos utilizados, las
técnicas de equiparación, entre otros.
3. La forma en que las pruebas atienden las diferencias culturales y lingüísticas que hay
entre los estudiantes de un sistema educativo de grandes dimensiones, en un país que
se define como multicultural, y las implicaciones de lo anterior.
4. La forma en que se llevan a cabo las aplicaciones de las pruebas, tanto censales como
muestrales, y las implicaciones que tienen para la calidad de los resultados.
5. La forma en que se difunden los resultados de las pruebas, los análisis de factores aso-
ciados y el uso que se hace de dichos resultados, así como las consecuencias que ha
traído consigo su utilización en el sistema educativo.

8Las pruebas
ENLACE
para educación media superior
El Anexo de octubre 2013 consideraba cuatro etapas, pero en abril de 2014 el INEE solicitó
incluir las pruebas
ENLACE de educación media superior (ENLACE-MS en adelante), para lo que
en junio se suscribió un Addendum al Anexo, con lo que el trabajo comprende cinco etapas,
de las cuales la cuarta corresponde al análisis de
ENLACE-MS y la quinta a conclusiones y reco-
mendaciones generales.
A diferencia de las pruebas que se refieren a educación básica, las que se aplican a estudiantes
de enseñanza media superior no pueden utilizar como referente para su construcción un cu-
rrículo nacional, dado que no lo hay. Lo que existe es un marco común de competencias que
todos los subsistemas que comprende el sistema educativo nacional en este tipo educativo
deben atender.
Por ello, para el análisis de las pruebas
ENLACE-MS, el grupo de especialistas juzgó adecuado
llevar a cabo dos actividades —que no se consideraron necesarias en el caso de los otras prue-
bas—, para explorar el grado en que los ítems evalúan competencias que no se limiten a las más
elementales, sino que incluyan algunas que impliquen niveles de demanda cognitiva como los
que se espera que alcancen los alumnos de ese tipo educativo: por una parte, la formación de
comités de validación conformados por profesores de media superior y otros expertos en las dos
áreas que cubren las pruebas de
ENLACE-MS (matemáticas y lectura), y por otra, la realización
de entrevistas cognitivas con estudiantes del nivel.
Las demás actividades fueron similares a las de las etapas anteriores, por lo que se describen
sintéticamente como sigue:
• Una vez que el grupo de trabajo estuvo de acuerdo en añadir una etapa relativa a
EN-
LACE-MS, y sin esperar a la firma del Addendum al Anexo de Ejecución, Luis Ángel
Contreras, con apoyo de Jesús Jornet y Guillermo Solano, aceptó hacerse cargo de la
coordinación de las dos tareas especiales a las que se ha hecho referencia.
• De inmediato se solicitó a la Dirección General de Evaluación de Políticas (
DGEP) de la SEP
la información documental disponible sobre las pruebas de
ENLACE-MS.
• Aprovechando la reunión presencial del 16 y 17 de junio en que se revisó la primera
versión del informe sobre E
XCALE, se invitó a personal de la DGEP y el Centro Nacional
de Evaluación para la Educación Superior (C
ENEVAL), buscando ampliar la información
documental recibida en un primer momento.
• Los comités de validación con profesores y otros expertos tuvieron lugar en Ensenada del
7 al 10 de julio 2014, y las entrevistas cognitivas del 23 al 25 del mismo mes, en la Ciudad
de México. En los comités participaron 8 profesores de media superior, 2 especialistas
para el área de lectura, y otros tantos para la de matemáticas. Los estudiantes que parti-
ciparon en las entrevistas cognitivas fueron 18, 9 para cada área.
• Personal de la
UAA llevó a cabo nuevas entrevistas a funcionarios de seis entidades fe-
derativas y de las direcciones generales de la Subsecretaría de Educación Media Superior
a cargo de los principales subsistemas federales de ese tipo educativo; asimismo envió
cuestionarios en línea a todas las entidades y revisó diarios de circulación nacional.
• En julio y agosto de 2014 cada par de especialistas trabajó revisando la documentación
sobre
ENLACE proporcionada por el CENEVAL, por conducto de la DGEPE.
• El 29 de agosto los subgrupos de especialistas hicieron llegar una primera versión del
análisis de
ENLACE-MS a la coordinación, que integró los avances en un documento que
se envió al grupo el 5 de septiembre.

9Presentación
• La primera versión del texto integrado se discutió en reunión presencial de todos los
miembros del grupo los días 8 y 9 de septiembre.
• Los especialistas prepararon luego una segunda versión del análisis de
ENLACE-MS, y
el 3 de octubre enviaron sus respectivos productos a la coordinación, que elaboró esta
versión final integrada del cuarto informe.
Como en los casos anteriores, se contemplaba que la entregada en el mes de octubre no fuera
la versión definitiva del análisis de las pruebas
ENLACE de educación media superior, y que sus
conclusiones podrían ser complementadas en el informe final a entregarse en diciembre. Sin
embargo en este caso los autores no consideramos necesario hacer modificaciones a la versión
anterior, por lo que ésta retoma sin cambios la entregada en el mes de octubre.
Reiteramos que nuestros análisis y valoraciones se refieren siempre a nuestro objeto de estudio
y de ninguna manera a las numerosas personas involucradas en su desarrollo, su aplicación y el
procesamiento de resultados. También señalamos de nuevo que este informe es producto del
trabajo colectivo del grupo, si bien cada par de especialistas tuvo una participación principal en
el apartado que le correspondía. Los momentos de discusión colectiva permitieron enriquecer
las aportaciones de cada persona con la visión del resto, lo que llevó a un grado de consenso
considerable, aunque no absoluto.
Felipe Martínez Rizo
Aguascalientes, diciembre de 2014

11
Introducción
Los dos informes anteriores del proyecto incluyeron sendos apartados en los que se precisa la
noción de validación, las de confiabilidad y validez, y los criterios de evaluación que se utilizan
en el análisis encomendado al grupo. En este tercer informe no consideramos necesario reiterar
la presentación de dichas nociones, pero sí los criterios de evaluación utilizados.
En el primer informe, a partir de una revisión de la literatura especializada, se llegaba a la pro-
puesta de 72 criterios particulares que serían la base para llevar a cabo el estudio, sin contar
tres criterios adicionales de carácter general. De esos criterios 11 se referían a lo que en ese mo-
mento se caracterizó como validez de contenido, y en particular a la alineación de las pruebas al
currículo; 16 a la validez de constructo, y otros aspectos técnicos de las pruebas; 12 a la validez
cultural; 16 tenían que ver con las aplicaciones y sus implicaciones para confiabilidad y validez;
y 17 se referían a la validez de usos y consecuencias de las pruebas.
A lo largo del trabajo el listado de criterios definido inicialmente se modificó, para quedar en 59
criterios y 102 subcriterios. Por último, al hacerse el análisis de las pruebas
ENLACE de educa-
ción media superior se hizo un nuevo ajuste, quedando finalmente 58 criterios y 97 subcriterios.
Además de ajustar el número de criterios y subcriterios, a partir del cuarto informe se decidió
modificar la manera de designar los cinco aspectos a considerar, para lo que inicialmente se
utilizaban expresiones que incluían el término validez, con diversas precisiones. Considerando
las discusiones entre los especialistas al respecto, y siguiendo el criterio expresado desde 1999
en los estándares de la Asociación Estadounidense de Investigación Educativa, la Asociación
Estadounidense de Psicología y el Consejo Nacional de Evaluación en Educación (
AERA, APA y
NCME, por sus siglas en inglés, respectivamente), el cual se ratificó en la versión más reciente
de esos estándares, difundida en agosto de 2014, se decidió finalmente usar una terminología
que no implique posturas específicas sobre la noción de validez.
La tabla siguiente presenta la distribución de los criterios utilizados en este informe sobre
ENLA-
CE de educación media superior, que será la misma que se utilice en el informe final.
Aspecto Áreas Criterios Subcriterios
1 Alineación a los referentes 11 25
2 Aspectos técnicos 8 33
3 Atención a la diversidad 12 —
4 Aplicaciones 16 39
5 Usos y consecuencias 11 —
TOTALES 58 97
Tabla 1 Áreas, criterios y subcriterios de evaluación utilizados

12Las pruebas
ENLACE
para educación media superior
A continuación puede verse un listado de los 58 criterios utilizados, enunciados en forma sin-
tética; en el anexo 1 se podrá encontrar su formulación in extenso, con los subcriterios corres-
pondientes.
ALINEACIÓN A LOS REFERENTES
1. Teoría de contenido, curricular u otro.
2. Definición de especificaciones.
3. Determinación de la importancia relativa de contenidos.
4. Representatividad de ítems y subescalas frente a subdominios y dominio.
5. Complejidad cognitiva del contenido.
6. Manual de diseño de reactivos.
7. Comité de redacción de ítems.
8. Manual de análisis de reactivos.
9. Comité de revisión de reactivos.
10. Sistema de revisión lógica de ítems.
11. Alineación de la prueba al currículo en general.
ASPECTOS TÉCNICOS
1. Documentación de evidencias de diversos tipos de validez.
2. Procesos para desarrollo de las pruebas, equivalencia y periodicidad.
3. Calibración y análisis psicométrico de las pruebas.
4. Confiabilidad.
5. Análisis psicométrico y calidad de ítems.
6. Calidad de los bancos de ítems.
7. Calificación.
8. Niveles de desempeño e interpretación de resultados.
ATENCIÓN A LA DIVERSIDAD
1. Marco conceptual de la prueba.
2. Especificación de las poblaciones.
3. Estrategia sobre diversidad cultural, lingüística y socioeconómica.
4. Especificación de ítems.
5. Profesionales involucrados en el desarrollo de los ítems.
6. Representación de poblaciones diversas en las muestras para piloto.
7. Validación cognitivo-cultural.
8. Revisión de ítems.
9. Análisis de sesgo.
10. Estudios de generalizabilidad.
11. Tiempos y calendarios.
12. Mecanismos de corrección.

13Introducción
APLICACIONES
1. Listado de escuelas actualizado y confiable.
2. Muestras con diseño sólido.
3. Coincidencia universo planeado-real.
4. Coincidencia muestra obtenida muestra planificada.
5. Planificación de aplicaciones.
6. Manuales para personal a cargo de las aplicaciones.
7. Minimización de carga de respuesta.
8. Motivación de los sujetos para responder.
9. Cuidado de no respuesta.
10. Cuidado con copia u otras formas de fraude.
11. Control de calidad de las aplicaciones.
12. Manuales para procesamiento de datos.
13. Personal para manejo de los datos.
14. Cuidado de la calidad de las bases de datos.
14. Lectura, procesamiento y verificación de los datos.
16. Notificación de irregularidades.
USOS Y CONSECUENCIAS
1. Soporte de usos y consecuencias previstas.
2. Documentación de consecuencias previstas.
3. Oportunidad de difusión y equidad de acceso a resultados.
4. Desarrollo de capacidad de interpretación de resultados.
5. Comunicación de propósitos, características, usos y consecuencias.
6. Claridad y precisión del lenguaje.
7. Marco normativo para evaluar el desempeño de los examinados.
8. Minimización de interpretaciones incorrectas o estigmatizantes.
9. Atención de usos o interpretaciones inapropiadas imprevistas.
10. Documentación de usos o consecuencias imprevistas.
11. Investigación y corrección de usos inapropiados.
Las cinco partes principales del informe presentan los resultados del análisis hecho por los es-
pecialistas según estos criterios. Después de las conclusiones se incluyen los anexos listados en
la tabla de contenido.

141
Alineación a los referentes
CONSIDERACIONES PREVIAS
Para el caso de las pruebas ENLACE-MS nuestro análisis consideró los siguientes aspectos:
• Como ya se señaló cuando se analizaron las pruebas
ENLACE de educación básica, las
pruebas censales presentan una condición inicial que influye decisivamente en la repre-
sentatividad del dominio curricular que buscan evaluar: las exigencias en cuanto a los
medios e infraestructura necesarios para llevar su aplicación determinan que tengan
necesariamente una longitud limitada, por lo que cualquier prueba censal parte de esta
condición desventajosa.
• A pesar de lo anterior, el grado de representatividad de una prueba censal puede propi-
ciarse mediante procedimientos rigurosos. Así, nuestro análisis buscará determinar si los
procesos utilizados se han llevado a cabo con el rigor requerido para asegurar la calidad
de la representatividad curricular de la prueba.
• La prueba
ENLACE-MS viene desarrollándose desde 2008 y hasta 2014. Durante ese
periodo se aprecia una evolución importante en sus procesos metodológicos, particular-
mente para ajustarse a la reforma curricular de la educación media superior de 2011. No
obstante, en este trabajo no se pretende efectuar una valoración histórica de su diseño,
sino de comprobar el nivel de calidad que la prueba ha alcanzado en su versión actual.
• En consecuencia, consideramos que las evidencias más relevantes para valorar la ca-
lidad de la prueba son el último manual técnico publicado (Manual_Tecnico_
ENLA-
CEMS_2011_2012) y el recientemente difundido para docentes y directivos escolares
(Manual_Docente_
ENLACEMS_2014), así como los documentos técnicos complementa-
rios que fue necesario solicitar a la Dirección General de Evaluación de Políticas (
DGEP) de
la Secretaría de Educación Pública (
SEP). Otras evidencias anteriores a las mencionadas se
emplearán únicamente como vía para entender y explicar mejor los factores asociados a
su diseño, los cuales han tenido impactos positivos o negativos en su calidad actual. En
todo caso, este comité ha tenido en cuenta todas ellas.
ANÁLISIS DEL CURRÍCULO U OTRO REFERENTE CUYO DOMINIO SE EVALÚA
1. Se cuenta con un documento que revisa la teoría del contenido (curricular u otro)
y es el marco teórico que orienta el desarrollo de la prueba.
ttPresenta una revisión de la teoría acerca del contenido o marco teórico que orienta el desa-
rrollo de la prueba.

15Alineación a los referentes
Un factor decisivo para juzgar en qué medida ENLACE-MS refleja el contenido curricular y su
marco teórico, es la amplia dispersión del currículo de la educación media superior (
EMS) en
México. A diferencia de las pruebas
ENLACE de educación básica y EXCALE, que tuvieron como
referente para su diseño un currículo de la educación básica único a nivel nacional, las prue-
bas
ENLACE-MS no tuvieron un referente curricular único. El documento “Manual_Tecnico_
ENLACEMS_2011_2012” da cuenta de la gran diversidad de subsistemas que hay en el bachille-
rato y la existencia de más de 200 currículos en el ámbito nacional (pág. 18). En consecuencia,
inicialmente se optó por un diseño de las pruebas
abocado a habilidades generales que son parte fundamental en la
EMS y en todos los
perfiles de egreso: Habilidad Lectora y Habilidad Matemática. Estas habilidades son trans-
versales, es decir, se desarrollan a lo largo de la historia escolar y fuera de ella, además se
manifiestan de modo diferencial en los individuos, lo que permite identificar diferentes
niveles de dominio. Entre 2008 y 2010, la evaluación significó un diagnóstico del desarrollo
de los sustentantes en esas dos áreas de habilidad [pág. 18].
No obstante, tras la aparición del Acuerdo 442 de la
SEP (Diario Oficial de la Federación, 26 de
septiembre de 2008), por el que se establece el sistema nacional de bachillerato en un marco
de diversidad, las instituciones que imparten la educación media superior en el país adoptaron,
de manera gradual y progresiva entre 2009 y 2011, un Marco Curricular Común (
MCC) con base
en competencias. De este modo, el Centro Nacional de Evaluación para la Educación Superior
(C
ENEVAL), organismo que ha desarrollado la prueba ENLACE-MS por encargo de la DGEP de la
SEP, pudo contar con elementos para estructurar un nuevo marco de referencia de la prueba, el
cual estuvo caracterizado por retomar

únicamente aquellos aspectos del
MCC que pueden ser evaluados mediante una prueba
diagnóstica, objetiva, estandarizada, de bajo impacto y con reactivos de opción múltiple,
cuya aplicación es censal y se realiza en sesiones de 50 minutos. Además, uno de los
principales objetivos del instrumento es entregar un reporte de resultados individual a los
alumnos donde se identifica su nivel de dominio en cada una de las áreas evaluadas [C
ENE-
VAL, 2013a: 14].
Para transitar de la versión de
ENLACE-MS que estuvo vigente hasta 2010 a la nueva versión
de la prueba, que se aplicó desde 2011, el C
ENEVAL y su Consejo Técnico “establecieron la im-
portancia de dar continuidad al proceso evaluativo y a las especificaciones técnicas propias del
perfil original, pero instituyeron como propósito prioritario obtener información acerca del de-
sarrollo de los alumnos en relación con los objetivos y competencias determinadas por la
RIEMS
[Reforma Integral de la Educación Media Superior]” (C
ENEVAL, 2013a: 33).
No obstante, para desarrollar la prueba
ENLACE-MS solo se incluyó como referente una porción
de la competencias que incluye la estructura del
MCC de la RIEMS (Manual_Docente_ENLA-
CEMS_2014: 8), misma que se muestra sombreada en el cuadro 1.1.
Además, lo anterior significó definir como el nuevo objetivo de la prueba
ENLACE-MS “brindar
un diagnóstico del nivel de dominio de los sustentantes en dos de los cuatro campos disci-
plinares básicos incluidos en la
RIEMS: Comunicación (Comprensión lectora) y Matemáticas”
(C
ENEVAL, 2013a: 21).

16Las pruebas
ENLACE
para educación media superior
Cuadro 1.1 Competencias que se promueven mediante el MCC
Competencias Descripción
Genéricas Comunes a todos los egresados de la EMS.
Disciplinares
Básicas
De caracter propedeútico, dependen del subsistema.
Extendidas
Profesionales
Básicas Formación elemental para el trabajo.
Extendidas Para el ejercicio profesional.
La documentación revisada no permite determinar en qué medida las decisiones generales
respecto a los componentes del
MCC de la RIEMS que deberían ser evaluados por ENLACE-MS
fueron tomadas únicamente por el C
ENEVAL y su Consejo Técnico, aunque al parecer fue así,
según se establece en el documento aportado por la
DGEP que lleva por título “Delimitación
del objeto de medida
ENLACE-MS RIEMS. Tareas de adaptación del perfil original y alineación
al
MCC” (s/f), donde se establece que
la adaptación de la prueba
ENLACE-MS implicó que el Consejo Técnico se ocupara del
diseño de la evaluación y revisara el perfil referencial (
PR) establecido en 2008 para definir
los aspectos que se mantendrían y aquellos que, en congruencia con la
RIEMS, orientarían
las actividades de medición hacia el nivel de desarrollo de los sustentantes en relación con
el
MCC (pág. 4).
Tampoco se comenta si también involucraron la participación de la
DGEP o de representantes
de las instituciones de
EMS que serían afectadas por la evaluación. Lo que menciona el Manual
técnico
ENLACE Media Superior 2011-2012 es que fueron invitados a participar en los comités
académicos, el comité diseñador y el de validación, profesores y especialistas en el currículo de
diversas instituciones de bachillerato tecnológico, general y bivalente quienes, en el primer caso
estudiaron las áreas, contenidos temáticos y procesos cognitivos de la
ENLACE-MS prueba
ENLACE-MS anterior, los referentes técnicos y operativos de la RIEMS y diferentes marcos
teóricos de pruebas estandarizadas nacionales e internacionales, entre ellas
PISA (Programa
Internacional de Evaluación de Alumnos),
TIMSS (Estudio de las Tendencias en Matemáticas
en Ciencias),
SABER, ACREDITA-BACH, entre otras (pág. 35).
Asimismo no se hace explícito cómo procedieron a efectuar
una revisión de los planes y programas de diferentes modalidades y direcciones de
EMS:
DGB (Dirección General de Bachilleratos), CONALEP (Colegio Nacional de Educación Profe-
sional Técnica),
CCH (Colegio de Ciencias y Humanidades), Bachilleres y Bachilleratos Tec-
nológicos, con la finalidad de identificar los contenidos comunes a todas las opciones de
EMS y establecer el contexto que apoyaría la redefinición de los mismos y los procesos
cognitivos por evaluar [pág. 35].
Por su parte, el comité de validación procedió a convalidar algunas de esas decisiones; en par-
ticular la “pertinencia y relevancia de los contenidos y taxonomía establecida para cumplir con
los propósitos de
ENLACE-MS” (pág. 36).

17Alineación a los referentes
Lo cierto es que la prueba ENLACE-MS solo evalúa uno de los cuatro tipos de competencias que
establece el
MCC de la RIEMS: las disciplinares básicas; y de ellas solo evalúa el dominio de dos
de los cuatro campos disciplinares básicos incluidos en la reforma: Comunicación (Comprensión
lectora) y Matemáticas. Además, del campo de Comunicación (Comprensión lectora), retoma
solo 7 de las 12 competencias que establece el perfil de egreso en el
MCC, y en el campo de
Matemáticas se retomaron 6 de las 8 competencias que establece el
MCC.
El Manual técnico
ENLACE Media Superior 2011-2012 (pág. 23) ofrece una comparación entre
las pruebas
ENLACE-MS que operaron durante el periodo 2008-2010 y las nuevas que operan
a partir de 2011, la cual se presenta en el cuadro 1.2.
Cuadro 1.2 Características de los perfiles de la prueba
ENLACE MS
Características 2008-2010 2011-2012
Generales
Evalúa dos habilidades básicas:
• Habilidad lectora
• Habilidad matemática
Presenta un total de 140 reactivos:
50 y 90, respectivamente.
Se evalúa con base en contenidos
(tipos de texto) y en grupos
de procesos cognitivos.
Evalúa indicadores de competencias
de dos campos disciplicares:
• Comunicación
(comprensión lectora)
• Matemáticas
Presenta un total de 110 reactivos:
50 y 60, respectivamente.
Se evalúa con base en contenidos
(tipos de texto) y en grupos
de procesos cognitivos.
Habilidad lectora/
Comunicación
(comprensión lectora)
Se utilizan cuatro tipos de texto:
• Apelativo
• Argumentativo
• Expositivo
• Narrativo
Con tres procesos jerarquizados
en niveles de dificultad:
• Extracción
• Interpretación
• Reflexión y evaluación
Se utilizan cuatro tipos de texto:
• Apelativo
• Argumentativo
• Expositivo
• Narrativo
Con tres procesos jerarquizados
en niveles de dificultad:
• Extracción
• Interpretación
• Reflexión y evaluación
Habilidad matemática/
Matemáticas
Se evalúan cuatro contenidos:
• Cantidad
• Espacio y forma
• Cambios y relaciones
• Matemáticas básicas
Con tres procesos jerarquizados
en niveles de dificultad:
• Reproducción
• Conexión
• Reflexión
Se evalúan cuatro contenidos:
• Cantidad
• Espacio y forma
• Cambios y relaciones
Con tres procesos jerarquizados
en niveles de dificultad:
• Reproducción
• Conexión
• Reflexión
El documento también señala (págs. 21 y 22) que a pesar de tales cambios, se preservó la
manera en que se concibieron los constructos implicados. Así, en el caso de la Comprensión
lectora la evaluación
continúa realizándose a partir de cuatro tipos de textos (expositivo, narrativo, argumen-
tativo y apelativo) y tres procesos cognitivos (extracción, interpretación, y reflexión y eva-

18Las pruebas
ENLACE
para educación media superior
luación). El total de reactivos asociados a esta área también se conservó (50), aunque se
redistribuyeron los subtotales por tipo de texto. La redistribución de reactivos por grupo de
procesos implicó eliminar, construir y modificar algunas especificaciones para conformar la
nueva estructura. En total se eliminaron 13 especificaciones, se crearon otras 13, se hicie-
ron modificaciones mínimas a 11 y 26 se dejaron sin cambio.
Para el caso del campo formativo de Matemáticas, el documento precisa que
se conservaron tres de los cuatro contenidos (cantidad, cambios y relaciones, espacio y for-
ma). Se eliminó por completo el contenido de matemáticas básicas puesto que correspon-
de con competencias disciplinares extendidas y la nueva prueba busca evaluar únicamente
los contenidos compartidos entre las diferentes opciones de bachillerato. Por lo anterior,
se redujo el total de reactivos de 90 a 60; se eliminaron 20 especificaciones de matemá-
ticas básicas, 5 especificaciones del área de cantidad y otras 5 de cambios y relaciones
por considerar que evaluaban habilidades meramente académicas sin aplicación en la vida
cotidiana [pág. 22].
El manual comenta también (pág. 23) que la
adaptación del instrumento implicó diversos procesos integrados y sistematizados median-
te diez fases propias de la metodología C
ENEVAL: diseño, delimitación del objeto de me-
dida, construcción, verificación, ensamble, aplicación, calificación, emisión de resultados,
mantenimiento del examen y del material complementario (C
ENEVAL, 2011). El desarrollo
de casi todas las tareas fue responsabilidad del Centro, con excepción de aquellas asociadas
a la aplicación, calificación y emisión de reportes, que estuvieron a cargo de la
DGEP-SEP.
Cabe hacer notar la diferencia en cuanto al tratamiento del contenido cuyo dominio se evalúa
en ambas competencias. En el caso del campo formativo de Matemáticas, los contenidos (can-
tidad, cambios y relaciones, espacio y forma) corresponden a la estructura del campo discipli-
nario. En cambio, para la Comprensión lectora, en ocasiones se consideran como contenidos,
o reciben un tratamiento como tales, los tipos de texto (expositivo, narrativo, argumentativo y
apelativo) que pueden incluir o no contenidos que corresponden a la estructura disciplinaria. Al
respecto, obsérvese en el cuadro 1.3 ejemplos que ilustran la ambigüedad de las referencias que
se hacen en la documentación revisada al delimitar, caracterizar u operacionalizar el constructo
Comprensión lectora.
En todo caso, tales referencias ambiguas no contribuyen a una clara definición del constructo a
partir del marco teórico curricular. Como se verá más adelante, esta situación tuvo un impacto
en el diseño de la estructura de la prueba, el desarrollo de las especificaciones de ítems y en la
elaboración de éstos.
No obstante, puede decirse que siempre se contó con documentación que expusiera la teoría
del contenido curricular y que fuera el marco teórico que orientara el desarrollo de la prueba.
Los principales referentes mencionados en el Manual técnico
ENLACE Media Superior son los
propios de la prueba
ENLACE-MS anterior, los de otras pruebas nacionales e internacionales
como
PISA, TIMSS, SABER, ACREDITA-BACH, entre otros referentes de los que se menciona
que fueron estudiados, y desde luego el citado Acuerdo 442 de la
SEP y la documentación que
se generó en el marco del proceso de adopción de la
RIEMS por parte de las instituciones de
educación media superior, así como la propia experiencia en el rediseño de su currículo para

19Alineación a los referentes
adaptarlo a la RIEMS, por parte de las instituciones del bachillerato que fueron convocadas por
C
ENEVAL para participar en la parte inicial del desarrollo de la prueba.
Cuadro 1.3
Documento
Referencias a los tipos de texto
como contenidos de la prueba
Referencias a contenidos disciplinarios
que se retoman para la prueba
Manual técnico
ENLACE Media
Superior 2011-2012
Contenidos (subáreas). El contenido por
evaluar está asociado con el tipo de texto
del que se desprenden los reactivos que
miden la Comprensión lectora. Los cuatro
tipos de texto que contiene la prueba
ENLACE-MS se eligieron por considerarse
representativos del nivel educativo,
y porque reflejan funciones importantes
de la lengua. (pág. 37)
Siete competencias disciplinares básicas:
• Identifica, ordena e interpreta las ideas, datos y conceptos
explícitos e implícitos en un texto, considerando el contexto
en que se generó y en el que se recibe.
• Evalúa un texto mediante la comparación de su contenido,
sus conocimientos previos y nuevos.
• Identifica el uso normativo de la lengua,
considerando la intención y la situación comunicativa.
• Analiza un argumento preciso, coherente y creativo.
• Relaciona ideas y conceptos en composiciones coherentes y
creativas, con introducciones, desarrollo y conclusiones claras.
• Evalúa la secuencia o relación lógica en el proceso comunicativo
• Identifica e interpreta la idea general y posible desarrollo
de un mensaje escrito, recurriendo a conocimientos previos
y al contexto cultural (36 y 37).
Manual técnico
ENLACE Media
Superior 2011-2012
(pág. 44)
“Comité académico diseñador: es el responsable de la definición de los contenidos por evaluar, los grupos de procesos cognitivos
y niveles de complejidad que explora la prueba y determinan
su estructura” (pág. 24).
La evaluación objetiva de la habilidad lectora
en la educación media superior. Marcos de referencia 2
“La habilidad lectora se definió en términos del contenido o estructura del conocimiento que los estudiantes necesitan adquirir a lo largo de su trayectoria escolar y los procesos que se requieren llevar a cabo para comprender un texto” (pág. 36).
(pág. 42)

20Las pruebas
ENLACE
para educación media superior
ttSe incluye análisis de áreas a evaluar que precise subdominios, contenidos, competencias y
niveles de demanda cognitiva que se deberán cubrir.
Otro elemento esencial para observar cómo aseguraron los diseñadores de
ENLACE-MS que la
prueba representa de manera apropiada los subdominios curriculares y los niveles de demanda
cognitiva que éstos significan para el alumnado se encuentra en la metodología que siguieron
para ello. Como ya señalamos, los requerimientos metodológicos necesarios se ubican en el ám-
bito de desarrollo de pruebas referidas a un criterio (Hambleton, 1994; Nitko, 1995; Li y Sireci,
2005; Cizek, 2007; Sireci, 2009). En este enfoque evaluativo los principales procesos que deben
tenerse en cuenta para asegurar la representatividad son:
• Efectuar un análisis explícito del currículo como universo de medida. Ello implica utilizar
algún procedimiento de análisis y estructuración del dominio curricular, y documentar
como evidencia los dominios y subdominios involucrados y las relaciones entre ellos y
sus contenidos.
• Proporcionar el marco de referencia de la prueba que derivó del análisis curricular, mismo
que se evidencia en una tabla que refleje de manera formal la estructura de la prueba,
así como en tablas de especificaciones donde se hagan explícitos los componentes del
contenido y del nivel de demanda cognitiva que constituye cada unidad curricular para
el alumnado.
• El análisis debe ser realizado por un comité de especialistas, y validado posteriormente
por un comité diferente del anterior. Al integrar los comités se recomienda la inclusión
de especialistas diversos, entre ellos los que representan la diversidad socioeducativa y
cultural, en este caso, de México.
• Además, debe hacerse explícito cómo son capacitados los comités para llevar a cabo
estas tareas, y los procedimientos seguidos para producir los procesos de juicio y el esta-
blecimiento de decisiones (consenso intersubjetivo, síntesis cuantitativa, etcétera).
Tras revisar las evidencias aportadas al respecto, podemos realizar los siguientes comentarios y
señalar sus evidencias:
• Los manuales técnicos de
ENLACE-MS 2008-2010 (pág. 36) y 2011-2012 (págs. 43-44)
incluyen una sección que presenta la estructura general de la prueba. Como puede ob-
servarse en el cuadro 1.4, dicha estructura se muestra en una tabla donde aparecen el
número de ítems por área disciplinaria, el tipo de contenido y el proceso cognitivo que
se evaluaron en la prueba.
Las únicas diferencias entre esta tabla y la que aparece en el manual de 2008-2010, se deben al
proceso seguido para la adaptación al
MCC de la RIEMS; estas diferencias incluyeron principal-
mente: cambiar el foco de la medición (evaluación de habilidades) y la designación de Habilidad
lectora y Habilidad matemática, por la noción de indicadores de competencias en los campos
disciplinares Comunicación (Comprensión lectora) y Matemáticas (C
ENEVAL, 2013a: 22); elimi-
nar el contenido Matemáticas Básicas; y reducir de 90 a 60 el número de ítems para evaluar
el campo disciplinar Matemáticas. El documento señala que se preservó cerca de 70% de los
contenidos y procesos de la primera versión en la segunda.

21Alineación a los referentes
Cuadro 1.4 Estructura ENLACE MS 2011-2012
Campo disciplinar Contenido
Número de reactivos por procesos
Total
Extracción InterpretaciónRelexión y evaluación
Comunicación
(Comprensión lectora)
Argumentativo
Narrativo
Expositivo
Apelativo
4
3
5
2
5
7
7
2
6
5
3
1
15
15
15
5
Reactivos por proceso 14 21 15 50
Reproducción Conexión Reflexión
Matemáticas Cantidad
Espacio y forma
Cambios y relaciones
6
6
5
7
8
8
7
6
7
20
20
20
Reactivos por proceso 17 23 20 60
Total de reactivos de la prueba110
Como las tablas son muy generales y no permiten observar el producto que evidencie el análisis
que se llevó a cabo de las áreas del
MCC, cuyo dominio evalúa la prueba, ni precisan los sub-
dominios y contenidos que se cubren en ella, se solicitó a la
DGEP información más específica
sobre tales aspectos. Dicha dependencia nos proporcionó otros documentos
1
que permitieron
observar algunos detalles adicionales al respecto. Por ejemplo, un cuadro presenta una sección
de la tabla que aparece en el documento denominado “
ENLACE MEDIA SUPERIOR RIEMS”
(pág. 9) en la cual se muestran, a manera de objetivos, aspectos del contenido de las subáreas
que corresponden a las dos áreas evaluadas. En algunos casos, la columna llamada “
ACOTA-
MIENTO” de esa misma tabla ofrece información más detallada sobre el contenido, pero no es
sistemática y al parecer se trata más bien de elementos de la especificación para producir los
ítems, lo cual se comentará más adelante y en el siguiente apartado.
Otro ejemplo que ilustra una presentación con más detalle del contenido cuyo dominio se
evalúa en la prueba aparece en el cuadro 1.5, correspondiente a una sección de la tabla que
se presenta en el documento denominado “Especificaciones alineadas (mayo 2008)”, el cual se
refiere a la planeación de la prueba que estuvo vigente en el periodo 2008-2010.
En síntesis, no se observa una verdadera estructuración del dominio del contenido a evaluar,
más allá de asociar enunciados simples a manera de objetivos de aprendizaje con las subáreas
que corresponden a las dos áreas evaluadas.
• Respecto al trabajo de análisis curricular y estructuración del dominio del contenido a
evaluar, realizado por un comité de especialistas y validado después por un comité de
especialistas diferente del anterior, a fin de contar con elementos para asegurar la va-
lidación de la prueba, el Manual técnico
ENLACE Media Superior 2011-2012 menciona
dentro del listado de cuerpos colegiados que colaboran en la construcción de la prueba
la participación del Comité Académico Diseñador como el “responsable de la definición
de los contenidos por evaluar, los grupos de procesos cognitivos y niveles de complejidad
que explora la prueba y determinan su estructura. A partir de ello, elabora las especifica-
ciones que son revisadas por el comité académico validador de especificaciones” (pág.
24). En estas definiciones, el documento menciona también la participación del Consejo
1
Algunos de esos documentos son de carácter confidencial por lo que no es posible presentarlos en este informe.

22Las pruebas
ENLACE
para educación media superior
Técnico, que tiene entre sus funciones asesorar “a las autoridades educativas y a los co-
mités académicos en el diseño, análisis y seguimiento de la prueba impulsando acciones
que permitan respaldar su transparencia y confiabilidad; valida su estructura y sus con-
tenidos” (pág. 24). No obstante, las funciones generales y diversas que tiene asignadas
el Consejo Técnico y el perfil de sus integrantes hacen poco probable que este cuerpo
colegiado haya funcionado como el comité de especialistas que validó técnicamente el
trabajo de análisis curricular y estructuración del dominio del contenido a evaluar realiza-
do por el Comité Académico Diseñador.
Por otra parte, el manual establece que “La pertinencia y relevancia de los contenidos y taxono-
mía establecida para cumplir con los propósitos de
ENLACE-MS fueron revisadas por especialis-
tas reunidos en comités académicos de validación (ver Anexo B, Tabla B2). […] La propuesta final
Cuadro 1.5
Subárea
Clave de
especificación
Tema Subtema
Argumentativo
ARCM206
A partir de un ensayo identificar
qué tipo de relación existe entre
dos ideas.
El texto seleccionado deberá incluir, por lo menos, dos ideas
en las cuales exista algún tipo de relación como: problema-
solución; causa-efecto; comparación-contrate, premisa-
conclusión, ejemplificación, descripción, negación, etcétera.
AREC210
A partir de un ensato,
identificar dos explicaciones
sobre un tópico específico.
El texto deberá contar al menos con dos explicaciones.
AREC311
A partir de un ensayo, identificar
el contrargumento.
En la opciones de respuesta se presentan
4 contrargumentos.
Narrativo
NAIN212
A partir de un texto narrativo,
identificar el motivo por
el que un personaje actuó
de determinada manera.
El contexto general de la narración es el que permite
identificar la motivación del personaje.
NACM103
A partir de cuatro fases dadas,
identificar la que resuma lo que
está pasando en una parte de la
narración.
En el reactivo se dice explícitamente a qué parte
de la narración se refiere.
NACM204
A partir de un texto narrativo,
elegir la frase que exprese
por qué un personaje actuó
de determinada manera.
La situación de los personajes se refiere a estados físicos
(qué les está pasando, qué están haciendo) y a estados
emocionales (qué están sintiendo, qué están pensando).
Las razones deben estar explícitas en el texto.
NAIN211
A partir de un texto narrativo
identificar el significado
de una palabra señalada.
Se marcará en el texto una palabra o frase poco usual.
El estudiante deberá elegir, entre varias opciones,
el significado de la palabra (o frase).
NAIN313
A partir de las acciones y
descripciones de una narración,
inferir el lugar en el que están
ocurriendo los hechos.
En el texto NO se dice en qué lugar se están desarrollando
los hechos, pero hay algunas pistas que hacen imaginarse
al lector de qué se trata. Se debe comprender
toda la lectura para la realización de este reactivo.
NAIN108
A partir de un texto narrativo,
indivar el significado de una frase
ambigua.
El texto contará con alguna frase ambigua,
o usará palabras de modo poco usual.
Expositivo
EXIN110
A partir de una palabra dada en un
artículo de divulgación, determinar
qué significado quiso darle el autor.
La palabra debe ser poco usual y se incluye en el glosario,
pero ahí se define de dos maneras. El estudiante tendría
que inferir a cuál definición se refiere el auto.
EXIN213
A partir de un artículo de
divulgación, indicar qué relación
tienen entre sí dos claúsulas dadas.
Las distintas relaciones pueden ser una que una parte
contradice, repite, explica, ilustra o da una solución a la otra
parte. Las cláusulas deben estar dispersas a lo largo del texto.
Apelativo APCM303
A partir de una carta,
elegir el asunto ceentral
que se plantea en ella.
La opción correcta presentará el asunto central, mientras
que las otras opciones se referirán a asuntos que se tratan
en la carta pero que no son lo más importante.

23Alineación a los referentes
fue aprobada por el Consejo Técnico el día 3 de septiembre de 2010.” (pág. 36). Sin embargo,
el cuadro 1.6 muestra que el comité al que se hace referencia es el que validó las especificacio-
nes de ítems, tal como se mencionó anteriormente al comentar la responsabilidad del Comité
Académico Diseñador.
Cuadro 1.6 Comité Académico Validador de Especificaciones
Comunicación (Comprensión lectora)
Especialista Adscripción
Dra. Nancy Mazón Parra UNAM
Mtra. Silvia Teresa Lizárraga RochaUNAM
Matemáticas
Mtro. Salvador Zamora Muñoz
Act. Erick Mier Moreno IIMAS
AMAT
Al parecer la explicación de estas ambiguas referencias es que el Comité Académico Diseñador
hizo ambas definiciones; es decir, el análisis curricular y la estructuración del dominio del conte-
nido a evaluar, así como el diseño de las especificaciones para producir los ítems. Por su parte,
el Comité Académico Validador de Especificaciones validó no solo las especificaciones de ítems,
sino también el análisis curricular y la correspondiente estructuración del dominio del contenido
a evaluar. Dos referencias apoyan lo anterior: la primera aparece en el Manual Técnico de 2011-
2012: “La estructura fue validada por el Comité Académico validador antes de su aprobación
por parte del Consejo Técnico. El criterio principal fue asegurar que con ella se obtuviera una
muestra representativa de lo que todo bachiller debe dominar en congruencia con el
MCC y el
perfil de egreso de la
RIEMS” (pág. 44). La segunda referencia se encuentra en una presenta-
ción denominada “Capacitación Comité Diseñador” que nos fue proporcionada por la
DGEP, la
cual se utilizó en la capacitación del Comité Académico validador de especificaciones.
Independientemente del escaso número de especialistas de los comités académicos validadores
de especificaciones (tres en el comité de Comunicación y dos en el de Matemáticas) y de su falta
de representatividad (tres de la
UNAM, uno del INEE y uno de Applied Mathematics and Ac-
tuary Training [
AMAT]), esta forma de proceder no es la que se sugiere en la literatura especia-
lizada, donde se enfatiza la necesidad de que grupos independientes de especialistas en áreas
diversas y complementarias, que representen la diversidad socioeducativa y cultural, analicen y
estructuren unos el dominio del contenido a evaluar; otros juzguen otros tales decisiones; otros
más elaboren las especificaciones técnicas para producir los ítems, y unos más validen tales
productos; todo ello como parte de un proceso metodológico gradual, progresivo y coherente
que haga posible acumular evidencias de validez relacionadas con el contenido de la prueba.
• En cuanto a la manera en que fueron capacitados los comités académicos diseñadores
para analizar y estructurar el dominio del contenido a evaluar, y los procedimientos que
se siguieron para efectuar las operaciones de juicio y adoptar las decisiones, no se en-
contró referencia alguna al respecto en los manuales. La única información relacionada
aparece en uno de los documentos adicionales que fueron solicitados a la
DGEP. Se trata
de una presentación que se utilizó en su capacitación, que ilustra de manera general
aspectos que se consideraron para analizar el
MCC o la manera en que se procedió para
establecer el perfil referencial y determinar la estructura de la prueba.

24Las pruebas
ENLACE
para educación media superior
En síntesis la situación descrita no corresponde con las prácticas de análisis curricular y de detección
y estructuración del contenido importante a evaluar en una prueba de estas características. Tam-
poco se han basado en una estrategia de validación del análisis del universo de medida que incluya
aportes de validación de grupos interdisciplinarios de especialistas (en currículo, la disciplina cuyo
dominio se evalúa, psicometría, operación del currículo en las aulas, en lenguaje, en cultura y en
teoría cognoscitiva), que actúen de manera independiente y sucesiva. Por ello, consideramos que el
procedimiento seguido no permite asegurar la representatividad del contenido a evaluar.
ALINEACIÓN DE LA PRUEBA CON EL REFERENTE
2. Se presenta evidencia de la forma en que se definen las especificaciones de la prueba
en términos de objetivos, competencias u otro referente.
Otro aspecto necesario para obtener evidencias de validez relacionadas con el contenido de la
prueba es el análisis de la estructura del dominio educativo que hace posible elaborar las es-
pecificaciones de contenido que orientan el diseño de los ítems. Esta estrategia es habitual en
las pruebas referidas a un criterio, y debe incluir tanto la información estructural de la prueba,
como las especificaciones de unidades del dominio. También permite contar con una visión
precisa del universo de medida para orientar el muestreo de contenidos (Jornet y Suárez, 1989).
En el caso de
ENLACE-MS, el manual técnico de 2008-2010 establece que:
Las especificaciones de reactivos tienen como propósito proporcionar un marco normativo,
claro y significativo, que aporte los elementos necesarios para que los elaboradores cons-
truyan reactivos adecuados para evaluar los contenidos y procesos cognitivos, así como los
detalles técnicos para que los ítems resulten efectivos en la población objetivo y permitan
generar interpretaciones válidas (pág. 37).
No obstante, entre los documentos recibidos inicialmente y en la entregada posteriormente no
encontramos alguno en el que se presenten especificaciones técnicas para producir los ítems
de la prueba.
Al parecer las tablas a las que se ha hecho referencia tienen una doble función: como tabla de
especificaciones de la prueba y como especificaciones para producir los ítems. La información
en las columnas denominadas “Acotamiento” y “Subtema”, comúnmente se presenta en una
especificación de ítems. Sin embargo, se observan varios problemas: en ciertos casos aparece
alguna indicación sobre ciertas características que deben poseer los estímulos o las respuestas
que se presentan a los examinados (por ejemplo, sobre los atributos de la información contex-
tual como textos o figuras que es válido o no emplear; o bien sobre las instrucciones necesarias
para responder; o bien sobre las características que debe tener la respuesta correcta para serlo,
o los rasgos con que deben contar los distractores para ser efectivos). En otros casos no apa-
rece alguno de esos detalles, sino solo una delimitación del contenido a evaluar. De hecho, en
ninguno de los casos se encuentra alguno de esos tipos de indicaciones de manera completa
o sistemática. Tampoco se incluye algún ejemplo de ítem que ilustre el cumplimiento de tales

25Alineación a los referentes
indicaciones. El único referente que aparece en todos los casos, es la mención del contenido
(redactado como objetivo de aprendizaje) cuyo dominio se evalúa.
En otras secciones de los manuales aparecen elementos con información que generalmente
también se incluye al elaborar una especificación para producir un ítem. Por ejemplo, los cua-
dros 1.7 y 1.8 presentan dos tablas contenidas en el Manual técnico
ENLACE Media Superior
2011-2012 (págs. 22 y 27), mismas que contienen referentes para elaborar los reactivos de
Comprensión lectora y Matemáticas. Ambas tablas presentan los contenidos (competencias es-
pecíficas a evaluar) organizados por “niveles de complejidad específicos que permitieran evaluar
la variabilidad en el nivel de dominio de los sustentantes” (pág. 16), y según el nivel del proceso
cognitivo que se moviliza en cada caso, de conformidad con una taxonomía que se elaboró para
cada campo disciplinar, la cual clasifica los “procesos cognitivos a través de los cuales los susten-
tantes exhiben su nivel de dominio de distintas competencias disciplinares básicas” (pág. 15).
Cuadro 1.7 Definición de niveles de complejidad por grupo de proceso cognitivo
Comunicación (Comprensión lectora):
ENLACE MS
22
Tabla 3
Definición de niveles de complejidad por grupo de proceso cognitivo
Comunicación (Comprensión Lectora): ENLACE MS
Niveles
Proceso cognitivo
Extracción Interpretación Reflexión y evaluación
Desarrollo de la
comprensión
Desarrollo de la
interpretación
de la forma del contenido
1 Identificar y seleccionar
un elemento (hecho,
fenómeno, acción,
tópico, concepto, entre
otros) que se encuentre
en el texto de manera
explícita. Será muy
evidente para el lector y
se puede encontrar en
cualquier parte del texto.
Identificar el tema
central de un
párrafo, el cual NO
está explícito e
implica una
inferencia local.
Distinguir el
carácter de dos o
más proposiciones
en un mismo
párrafo.
Identificar el
significado de una
palabra o frase
corta basándose
en el contexto.
Identificar la
estructura formal
del texto.
Determinar si los
recursos gráficos
(cursivas, viñetas,
subtítulos, etcétera)
utilizados por el
autor contribuyen a
la organización del
texto a nivel local.
Identificar de
manera global el
propósito o la
postura del autor,
los cuales NO están
explícitos.
2 Identificar y seleccionar dos elementos
relacionados (hechos,
fenómenos, acciones,
tópicos, conceptos,
entre otros) que se
encuentran a lo largo
del texto de manera
explícita y que carecen
de marcadores.
Integrar diferentes
partes de un texto
para identificar la
idea central.
Reconocer una
relación (problema-
solución; causa-
efecto;
comparación-
contraste, premisa-
conclusión,
concepto-ejemplo,
etcétera).
Inferir relaciones
entre los párrafos
(problema-
solución; causa-
efecto;
comparación-
contraste, premisa-
conclusión,
etcétera) y
distinguir e
identificar el
sentido de las
analogías,
metáforas y otro
tipo de figuras
retóricas.
Identificar la
correspondencia de
la estructura del
texto con el
contenido.
Establecer el
propósito de los
recursos gráficos
(cursivas, viñetas,
subtítulos, etcétera)
a nivel de dos o
más párrafos.
Identificar los
recursos discursivos
(datos, ejemplos,
citas, argumentos,
hechos, gráficas,
metáforas,
comparaciones,
hipérboles o
adjetivación, entre
otros) que utiliza el
autor para lograr su
propósito y/o apoyar
su punto de vista.
Contrastar
argumentos.
3 Identificar y seleccionar
tres o más elementos
relacionados (hechos,
fenómenos, acciones,
tópicos, conceptos,
entre otros) y
distinguirlos, a partir de
un criterio determinado,
de otros elementos
semejantes que se
encuentran a lo largo
del texto de manera
explícita.
Seleccionar un
resumen o hacer
otro tipo de
inferencias que
impliquen
coherencia global
para demostrar una
comprensión
completa y
detallada de todo el
texto.
Vincularla
estructura,
funciones y/o
elementos del
texto para realizar
inferencias
globales.
Identificar la
correspondencia de
la estructura, el
léxico y los recursos
gráficos utilizados,
con las intenciones
comunicativas del
texto, el destinatario
del mismo y su
contexto.
Establecer una
comparación entre
el texto o un
fragmento, y su
relación con
información externa.
Identificar los
contraargumentos
que se incluyan en
el texto.
Estructura
La estructura de ENLACE MS Comunicación (Comprensión Lectora) se determinó en
congruencia con la definición del constructopreviamente establecida y los propósitos
de laprueba, por esta razón se procuró distribuir los reactivos en los procesos
cognitivosde acuerdo con los alcances y función comunicativa de cada tipo de texto.

26Las pruebas
ENLACE
para educación media superior
No obstante, los elementos señalados no corresponden con los procedimientos, prácticas, for-
matos y otros componentes técnicos que se detallan en la literatura especializada para la especi-
ficación de ítems, y que son necesarios para propiciar y asegurar la producción de ítems válidos,
equivalentes y efectivos.
ttSe presenta la estructura del dominio completo —de donde se muestrea el contenido de la
prueba— así como la estructura del dominio evaluado.
Para orientar el desarrollo de una prueba resulta imprescindible hacer explícita la estructura del
dominio educativo a evaluar (el currículo), e identificar en ella la estructura de la prueba. Si se
cuenta con ambos elementos, es posible analizar mediante las operaciones de juicio de un co-
mité ad hoc si la estructura de la prueba responde adecuadamente a la del universo de medida.
De esta manera, el análisis que aporta el comité constituye una evidencia de validez relacionada
con el contenido de la prueba.
27
Tabla 5
Definición de niveles de complejidad por grupo de proceso cognitivo
Matemáticas: ENLACE MS
Niveles
Proceso cognitivo
Reproducción Conexión Reflexión
1 Resolución de tareas
directas que implican
identificar conceptos
matemáticos en el
mismo contexto en
que se aprenden
cotidianamente, y se
resuelven con un
solo paso o cálculo
matemático.
Resolución de problemas que se
desprenden de situaciones
cotidianas en donde la tarea se
precisa de forma directa y se
resuelve con un cálculo o tarea
matemática, selección y/o relación
de modelos.
Resolución de problemas que
requieren de una interpretación antes
de reconocer la técnica matemática
que hay que utilizar; además implican
transitar y discriminar entre diferentes
formas de representación de las
situaciones, y aplicar un proceso
matemático.
2 Resolución de tareas
directas que
requieren realizar dos
o tres cálculos o
tareas matemáticas
básicas y/o
identificación de
modelos.
Resolución de problemas que se
desprenden de situaciones
cotidianas en donde la tarea se
precisa deforma directa. Los
problemas se resuelven con dos o
tres cálculos o tareas
matemáticas diferentes,
decodificación, recodificación,
selección y/o relación de modelos.
Resolución de problemas que
requieren de una interpretación antes
de reconocer la técnica matemática
que hay que utilizar; además implican
codificar y transitar entre diferentes
formas de representación de
situaciones cotidianas complejas, y
exigen la aplicación de dos o tres
operaciones diferentes y/o dos
procesos matemáticos.
3 Resolución de tareas
directas que
requieren realizar
cuatro o más cálculos
o tareas matemáticas
básicas diferentes y/o
aplicación de
modelos
establecidos.
Resolución de problemas que
requieren identificar y aplicar las
técnicas matemáticas necesarias.
Los problemas se resuelven con
cuatro o más cálculos o tareas
matemáticas diferentes, procesos
básicos y complejos,
decodificación y/o recodificación
de modelos y/o identificación de
sus elementos faltantes.
Resolución de problemas en contextos
que impliquen diferentes variables, que
requieran reconocer diferentes
estructuras antes de aplicar la técnica
matemática pertinente y/o transitar
entre diferentes formas de
representación de situaciones; además,
requieren de cuatro o más operaciones
diferentes, tres o más procesos
matemáticos similares.
Estructura
La asignación de reactivos que conforman la prueba de Matemáticas tomó en cuenta
el propósito sociofuncional de las competenciasbásicas y la definición del constructo ,
por esta razón, si bien se incluyen ejercicios de todos los niveles de complejidad, la
estructura se aboca en mayor proporcióna la medición de indicadores que requieren
de la puesta en práctica de pr ocesoscognitivosrelacionados con los grupos de
Conexión y Reflexión(v. Tabla 6).De acuerdo conla definición operacional de ambos
grupos, estos implican la resolución de problemas en contextos de la vida cotidiana.
Cuadro 1.8 Definición de niveles de complejidad por grupo de proceso cognitivo
Matemáticas:
ENLACE MS

27Alineación a los referentes
Como ya lo comentamos previamente, esta etapa del desarrollo de pruebas de gran escala
referidas a un criterio está bien documentada en la literatura especializada, donde se expone la
necesidad de que grupos independientes de especialistas, que incluyen expertos en currículo,
evaluación, operación curricular en el aula, teoría cognoscitiva, aspectos culturales y la discipli-
na cuyo dominio se evalúa analicen primero el currículo y detecten y estructuren el contenido
importante a evaluar; y después, otro grupo independiente con un perfil semejante juzgue tales
decisiones con base en protocolos técnicos definidos previamente por los desarrolladores de la
prueba, quienes también deberán facilitar los trabajos de ambos comités y en general operar
como el vínculo formal entre éstos y los demás comités especializados que participan en la
construcción de la prueba.
En cuanto al proceso que llevaron a cabo los diseñadores de
ENLACE-MS para hacer explícita la
estructura del dominio educativo a evaluar (el
MCC) e identificar en ella la estructura de la prue-
ba, el manual técnico de 2011-2012 y los demás documentos que proporcionó la
DGEP, ofrecen
poca información. De hecho la única evidencia clara que pudimos observar aparece en una
tabla en la que se especifican las competencias genéricas, disciplinares (básicas y extendidas) y
profesionales (básicas y extendidas) que se promueven mediante el Marco Curricular Común de
la Reforma Integral de la Educación Básica (
RIEB). El texto que sigue a dicha tabla (Manual_Do-
cente_
ENLACEMS_2014: 8-9) argumenta sobre las dificultades o inconvenientes de evaluar las
competencias genéricas, profesionales y disciplinares extendidas, por lo que se decidió centrar
la evaluación en las competencias disciplinares básicas, y entre ellas solo las correspondientes a
los campos disciplinares de Comunicación (Comprensión lectora) y Matemáticas. Al parecer, la
decisión también estuvo matizada por razones de conveniencia, dado que se trata de una prue-
ba “diagnóstica, objetiva, estandarizada, de bajo impacto y con reactivos de opción múltiple,
cuya aplicación es censal y se realiza en sesiones de 50 minutos” (C
ENEVAL, 2013a: 14).
Además, en otras secciones del manual (págs. 18-19; 23-24) se delimitan los componentes de
ambos campos disciplinares que se evalúan en la prueba
ENLACE-MS: en Comprensión lectora,
7 de las 12 competencias que promueve la
RIEB; en el campo disciplinar Matemáticas, 6 de las
8 competencias que establece la reforma.
Más allá de estas definiciones genéricas, no pudimos observar una representación de la estruc-
tura del dominio curricular completo de la
RIEMS, dentro de la cual se delimite la estructura del
dominio curricular evaluado por la prueba
ENLACE-MS. Si los miembros del Comité Académico
diseñador efectuaron un análisis más detallado del
MCC y de los procesos curriculares para
adaptarlo que realizaron las instituciones de educación media superior que fueron invitadas a
participar en el análisis, no lo hicieron explícito en los manuales o en la documentación que nos
fue proporcionada. Ello constituye una carencia importante que afecta la valoración del grado
de validez de contenido de la prueba.
3. Se explica el procedimiento para determinar la importancia de los contenidos a eva-
luar o se incluye análisis de unidades del dominio y densidad diferencial.
La integración de una prueba referida a un criterio orientado por el currículo, se basa en criterios
de selección de los contenidos que permiten formular su importancia relativa como expresión
de la relevancia de los aprendizajes logrados. En la literatura este aspecto se conoce como den-
sidad diferencial del dominio curricular (Jornet y Suárez, 1989) y es difícil llevarlo a la práctica.

28Las pruebas
ENLACE
para educación media superior
Usualmente se basa en valoraciones hechas por comités de especialistas, que indican el peso
diferencial que cada área del dominio curricular deberá tener en la prueba. Ello sirve también
para seleccionar la cantidad de reactivos que se utilizarán.
Por ello se trata de un procedimiento crucial para definir el dominio a evaluar en una prueba.
Diversos autores (Sireci, 2009; Cizek, 2007; Pope, citado por Cizek, 2007; Li y Sireci, 2005; Hay-
nes, Richard y Kubany, 1995; Nitko, 1994; Guion, 1977) han hecho ver la necesidad de identi-
ficar blancos curriculares esenciales, puesto que es imposible evaluar en un examen el dominio
de todo el currículo, ni siquiera todo lo que es relevante. De ahí la importancia de seleccionar
una muestra de contenido que represente el dominio curricular.
En el caso de la prueba
ENLACE-MS, en el Manual técnico de ENLACE Media Superior 2011-
2012 se afirma que la pertinencia y relevancia de los contenidos, que fue determinada por
el Comité Académico diseñador, fueron revisadas por los comités académicos de validación
(pág. 36). Sin embargo, no hemos observado en la documentación disponible el uso de algún
procedimiento específico o criterio para determinar cuáles contenidos constituyen blancos cu-
rriculares de primer orden que deben ser considerados para la evaluación; o bien para ponderar
la densidad diferencial de los contenidos que constituyen el dominio curricular (
MCC) que se
evalúa, a fin de decidir lo que es importante evaluar en la prueba.
Por otra parte, el análisis de las tablas de contenido muestra que se enfatizaron aspectos di-
ferentes del currículo y que se adoptaron criterios para determinar lo que era relevante. De
hecho hay varias declaraciones en ese sentido, que ilustran que los constructores de la prueba
fueron conscientes de esos aspectos. Por ejemplo, en el manual técnico de 2011-2012 se declara
que “la evaluación se enfoca a un conjunto limitado de conocimientos y habilidades (y no a la
totalidad de los que se indican en el
MCC) que un grupo de expertos considera indicadores
suficientes y representativos de las competencias básicas de dos campos disciplinares que de-
ben dominar los sustentantes al egresar de bachillerato” (pág. 30). Lo mismo sucede con las
dificultades o inconvenientes de evaluar determinados contenidos o las razones de conveniencia
que se señalan en varias partes del manual (véase por ejemplo el último párrafo de la pág. 14
del manual). Sin embargo, en tales casos no fueron hechos explícitos por el Comité Académico
diseñador los procedimientos o criterios que utilizaron para determinar tales aspectos o para
decidir en cada situación.
4. Se asegura la representatividad de los ítems y las subescalas respecto a los subdomi-
nios y el dominio definidos.
ttPara especificar dominio a evaluar se presenta análisis lógico-empírico de representación de
ítems y subescalas respecto a subdominios y dominio.
Existen dos aproximaciones generales al análisis de reactivos: lógica y empírica. La primera
requiere la participación de comités de jueces (especialistas en contenidos, docentes frente a
grupo, especialistas en medición y evaluación, etcétera), quienes juzgan propiedades como la
representatividad del ítem respecto del contenido a evaluar, su independencia de errores siste-
máticos y sesgo, entre otros aspectos. Así, esta perspectiva contribuye de manera directa en la
obtención de evidencias de validez de contenido de la prueba. Por su parte, las comprobacio-
nes empíricas aportan información sobre la correspondencia de los ítems con la estructuración

29Alineación a los referentes
dimensional teórica que orientó el desarrollo de la prueba. En este apartado enfatizamos el
análisis de la revisión lógica que realizaron los constructores de
ENLACE-MS.
Ya hemos hecho referencia al Comité Académico Diseñador como responsable de analizar el
MCC de la RIEMS y determinar los subdominios del dominio que evalúa la prueba, así como al
rol que desempeñó el Comité Académico Validador de Especificaciones, al juzgar la pertinencia
y relevancia de los contenidos de la prueba y de su estructura. También hemos mencionado la
escasa documentación disponible sobre el uso de procedimientos o criterios técnicos por parte
de ambos comités para realizar esas tareas o adoptar sus decisiones.
Sobre el aseguramiento de la representatividad de los ítems respecto al dominio y subdominios
curriculares que se evalúan, en el Manual técnico
ENLACE-MS 2011-2012 se hacen varias de -
claraciones al respecto. Por ejemplo, se afirma que se “evalúa solo una muestra representativa
de indicadores de competencias básicas que fueron definidos operacionalmente para que el
instrumento permitiera seguir obteniendo información diagnóstica para los estudiantes de la
EMS” (pág. 21); o bien se asevera que
en los diversos apartados [del Manual para docentes y directivos ] se reitera que la prueba
realiza la medición de una muestra representativa de los contenidos a través de los cuales
se pueden evaluar indicadores de competencias disciplinares básicas (únicamente aquellos
que pueden ser identificados con reactivos de opción múltiple), pero que de ninguna ma-
nera incluyen todos los temas que forman parte del
MCC (pág. 78).
También se asegura que “la prueba
ENLACE-MS únicamente evalúa una muestra representativa
de los indicadores de desarrollo de las competencias básicas correspondientes a dos campos
disciplinares Comunicación (Comprensión lectora) y Matemáticas” (pág. 85); o bien que los
“cuatro tipos de texto que contiene la prueba
ENLACE-MS se eligieron por considerarse repre-
sentativos del nivel educativo, y porque reflejan funciones importantes de la lengua” (pág. 37).
Respecto a los procedimientos o criterios empleados para asegurar dicha representatividad, el
manual aclara que
Para describir los alcances de
ENLACE-MS, es importante enfatizar que es una prueba refe-
rida a criterio y con cobertura de dominio restringido, es decir, la evaluación se enfoca a un
conjunto limitado de conocimientos y habilidades (y no a la totalidad de los que se indican
en el
MCC) que un grupo de expertos considera indicadores suficientes y representativos
de las competencias básicas de dos campos disciplinares que deben dominar los sustentan-
tes al egresar de bachillerato [pág. 30].
Se aclara además que
La estructura fue validada por el comité académico validador antes de su aprobación por
parte del Consejo Técnico. El criterio principal fue asegurar que con ella se obtuviera una
muestra representativa de lo que todo bachiller debe dominar en congruencia con el
MCC
y el perfil de egreso de la
RIEMS. Para ello, los reactivos de la prueba cubren toda la gama
de procesos cognitivos que se indican en la estructura, por lo que evalúan contenidos
que exigen un desarrollo básico, intermedio y avanzado de las competencias disciplinares
básicas [pág. 44].

30Las pruebas
ENLACE
para educación media superior
No obstante, el mayor detalle que se aporta sobre la manera en que inicialmente se cuidó este
aspecto, es referido a la cuarta parte del manual; donde se “explica con detalle la estrategia con
que se modificó la estructura de
ENLACE-MS para apoyar la evaluación de una muestra repre-
sentativa de las competencias disciplinares básicas que promueve la
RIEMS” (pág. 15). En esa
sección (págs. 34 y 35) se establece que con el fin de “delimitar operacionalmente el objeto de
evaluación, se deben seleccionar y definir las áreas, los contenidos y la taxonomía del examen”;
y que para “delimitar el perfil de la prueba
ENLACE-MS 2011-2012, se retomaron las definicio-
nes de contenidos, áreas y procesos cognitivos correspondientes a la primera evaluación y se
adaptaron según lo que marca la
RIEMS”. Más adelante se indica que para ello fue convocado,
para cada campo disciplinar, un comité académico diseñador en el que participaron represen-
tantes de los “tres grandes subsistemas de
EMS: bachillerato tecnológico, bachillerato general
y bachillerato bivalente”; quienes deberían tener “experiencia en la docencia, la investigación y
la planificación curricular (específicamente los encargados de la adaptación de programas a la
Reforma)” y que en su selección se procuró “que los grupos representaran a diferentes plante-
les y entidades de la República (ver anexo B, tabla B1)”. Enseguida se indica que los “expertos
estudiaron las áreas, contenidos temáticos y procesos cognitivos de la prueba
ENLACE-MS an-
terior, los referentes técnicos y operativos de la
RIEMS y diferentes marcos teóricos de pruebas
estandarizadas nacionales e internacionales, entre ellas
PISA, TIMSS, SABER, ACREDITA-BACH,
entre otras”; y que también se hizo una “revisión de los planes y programas de diferentes mo-
dalidades y direcciones de
EMS: DGB, CONALEP, CCH, Bachilleres y Bachilleratos Tecnológicos,
con la finalidad de identificar los contenidos comunes a todas las opciones de
EMS y establecer
el contexto que apoyaría la redefinición de los mismos y los procesos cognitivos por evaluar”.
Finalmente, se afirma que
Con este marco de referencia, los especialistas sesionaron de una a dos semanas para
acordar y definir los contenidos específicos de cada campo, su organización y el peso de
cada uno en la evaluación de acuerdo con una taxonomía diseñada especialmente para
ENLACE-MS. Dado que la prueba pretende ser un diagnóstico general del nivel de domi-
nio de los sustentantes, se consideró únicamente una muestra representativa de todo el
universo de conocimientos y habilidades que pudieran establecerse como indicadores de
desempeño en cada campo disciplinar.
Como puede observarse en los párrafos anteriores, aunque no se aportan evidencias concre-
tas sobre la manera en que procedieron ambos grupos o los criterios a partir de los cuales se
tomaron las decisiones para asegurar la representatividad, la manera general de proceder sí
corresponde a la que señala la literatura especializada, según lo comentamos al inicio de este
apartado; es decir, las definiciones que hace un Comité Académico Diseñador, integrado por
especialistas diversos, son luego revisadas por un Comité Académico Validador.
No obstante, hay que señalar varias limitaciones específicas: no se menciona que en el análisis
del
MCC y en el diseño de la prueba participaran expertos en contenido de los campos disci-
plinarios de Comunicación (Comprensión lectora) y Matemáticas; ni se indica el modo en que
fueron seleccionados los miembros de los comités diseñadores que aportaron las instituciones
de
EMS convocadas, o su perfil profesional de modo que pueda constatarse si en conjunto satis-
ficieron las necesidades en cuanto a experiencia docente, investigación y planificación curricular
en la adaptación de los programas a la
RIEMS. Tampoco se aporta información técnica acerca
de la metodología empleada para el análisis curricular del
MCC, o para el jueceo (características
a valorar en los ítems, criterios para tomar decisiones, protocolos para formalizar los juicios,
determinación de la confiabilidad, entre otras). En particular, no se encontraron referencias, en

31Alineación a los referentes
los manuales técnicos de ENLACE-MS o en la documentación adicional presentada, sobre los
criterios y procedimientos empleados por el Comité Académico Validador para analizar la repre-
sentación de ítems y subescalas respecto a los subdominios evaluados y al dominio curricular
completo que evalúa la prueba.
5. Se cuida la alineación en lo relativo a la complejidad cognitiva del contenido.
ttSe utilizan taxonomías u otros sistemas de clasificación de la demanda cognitiva de los
ítems, en relación con lo establecido en el referente.
ttSe refiere el uso de protocolos verbales con examinados para verificar que la complejidad
cognitiva real corresponda a la esperada.
En una prueba referida a criterio, la manera en que las expectativas del currículo se relacionan
con la forma en que se evalúa su dominio constituye una evidencia de validez de contenido.
Dentro del proceso de alineamiento de la prueba al currículo, una consideración relevante para
determinar el muestreo del contenido que cubrirá el instrumento, es si las demandas cognitivas
que imponen los ítems a los sustentantes corresponden con el nivel de dominio del contenido
que es pretendido por el currículo, y si la prueba evita incluir características irrelevantes al obje-
tivo curricular al que se orienta cada ítem de la prueba.
Para este criterio evaluativo tenemos también dos clases de fuentes de evidencia: las basadas
en juicios de un comité de especialistas (en la disciplina, currículo, teoría cognitiva, profesores
en servicio), que generalmente son los diseñadores de la prueba, quienes analizan el nivel de
dominio del contenido que pretende el currículo y lo formalizan con un sistema de clasificación
o modelo taxonómico que permita regular el grado de demanda cognitiva que supone para
el alumnado cada contenido, en la forma en que es evaluado por los ítems. Luego un comité
independiente con perfil similar valida dicho sistema de clasificación. La segunda fuente de
evidencias es el análisis del proceso de respuesta que ponen en acción los sujetos al responder
los ítems, usualmente con grupos focales, laboratorios cognitivos o entrevistas con examinados
apoyadas con protocolos verbales, para verificar que la complejidad cognitiva real corresponda
con la esperada.
Como ya se comentó, en el Manual técnico
ENLACE Media Superior 2011-2012 se establece
que, como parte del diseño de la prueba, específicamente al construir la tabla de especificacio-
nes del examen, se elaboró una taxonomía para cada campo disciplinar. Dicho sistema clasifica
los “procesos cognitivos a través de los cuales los sustentantes exhiben su nivel de dominio
de distintas competencias disciplinares básicas” (pág. 15). Para el caso del campo disciplinar
Comunicación (Comprensión lectora), la taxonomía considera las categorías y subcategorías:
Extracción, Interpretación (Desarrollo de la Comprensión, y Desarrollo de la Interpretación), y
Reflexión y Evaluación (de la forma, y del contenido) (pág. 39). En cuanto al campo disciplinar
Matemáticas, la clasificación considera las categorías: Reproducción, Conexión y Reflexión (pág.
43). También se comentó que la pertinencia y relevancia tanto de los contenidos como de la
taxonomía, fueron revisadas por los especialistas de los comités académicos de validación, y que
posteriormente la propuesta fue aprobada por el Consejo Técnico.
Aunque según el manual la taxonomía fue “diseñada especialmente para
ENLACE-MS” (pág.
35), al parecer se trata de una adaptación del sistema de clasificación de grupos de compe-

32Las pruebas
ENLACE
para educación media superior
tencias de PISA (cfr. PISA 2003 Assesment Framework, en: http://www.oecd.org/edu/school/
programmeforinternationalstudentassessmentpisa/33694881.pdf). También hay evidencia, en
el documento “
ENLACE_MS Procesos específicos y niveles de complejidad”, de que cada ítem
tuvo asignado un nivel taxonómico y un nivel de complejidad.
En consecuencia, puede decirse con seguridad que el desarrollo de la prueba
ENLACE-MS contó
con un sistema de clasificación de la demanda cognitiva que sirviera de referente para el desa-
rrollo y la revisión de los ítems, en relación con lo establecido en el
MCC de la RIEMS.
En cuanto al uso de grupos focales, laboratorios cognitivos o entrevistas con examinados apo-
yadas con protocolos verbales, a fin de observar la correspondencia entre la complejidad cog-
nitiva real (para el examinado) y la esperada (
MCC), no pudimos encontrar evidencias de que se
llevaron a cabo, ni alguna referencia al respecto en los manuales técnicos de
ENLACE-MS o en
la documentación adicional que nos fue proporcionada.
Además de lo dicho en los dos párrafos anteriores y otros comentarios hechos en este do-
cumento sobre la alineación de la prueba al currículo, es sabido que los aprendizajes de alta
demanda cognitiva son, desde luego, los más difíciles de alcanzar por parte de los estudiantes
y los que plantean más problemas a los docentes, pero también los que resultan más difíciles
de evaluar, en especial mediante pruebas en gran escala. Por ello, y por la circunstancia aña-
dida de que en el caso de
ENLACE-MS no se cuenta con un currículo nacional de referencia,
sino con un marco curricular que define competencias de diversos tipos, muchas de las cuales
no se prestan para su evaluación con este tipo de pruebas, se creyó conveniente realizar dos
estudios especiales que aportaran evidencias de validez de constructo y contenido respecto a
la alineación y los niveles de demanda cognitiva de la prueba, en relación con lo que establece
su perfil referencial.
Estos estudios se basaron en estrategias de análisis de contenido basadas en juicios de comités
de jueces expertos (profesorado experimentado, así como especialistas disciplinarios, en me-
dición, investigación educativa y currículo), así como en entrevistas cognitivas con alumnos de
educación media superior. Los resultados de este trabajo se sintetizan en los párrafos siguientes.
Cuando se compara la distribución por proceso cognitivo de los ítems relativos a la habilidad
lectora que establecieron los comités del C
ENEVAL, como parte de la planeación de la prueba,
con la distribución de esos mismos ítems que se basa en los juicios del comité de especialistas
en lectura del estudio especial, se observa que son bastante similares. La similitud y propor-
cionalidad de los ítems en las categorías identificadas pueden interpretarse como evidencias
de validez de contenido y de constructo de la prueba, puesto que el comité convocado para
el estudio hizo una evaluación independiente que presenta coincidencias importantes con los
diseñadores de la prueba.
En el caso de la habilidad matemática se observa una distribución de ítems similar en cuanto
a número de ítems y asignación proporcional a las categorías del dominio cognitivo, pero so-
lamente en las categorías de Reproducción y Conexión, lo que también podría interpretarse
como evidencia de validez de contenido y de constructo de la prueba, pero en forma limitada,
ya que esto no ocurre en la mayoría de los ítems de la categoría de Reflexión, lo que pone de
manifiesto una problemática asociada con esa categoría.

33Alineación a los referentes
Por otra parte, la dificultad y el poder discriminativo de los ítems no parecen relacionados con
las categorías de procesos cognitivos en Comprensión lectora o Matemáticas de
ENLACE-MS
2014. Tampoco están relacionados con los procesos y juicios de los comités de Lectura y Mate-
máticas que evaluaron los ítems.
Por lo que se refiere a los resultados de las entrevistas cognitivas, se identificaron los niveles de
complejidad desagregados por cada proceso cognitivo de cada una de las pruebas analizadas,
lo que sirvió de referencia para comparar la congruencia del modelo taxonómico cognitivo y
la estructura de la prueba con los resultados del estudio cognitivo. En el caso de la prueba de
Habilidad Lectora, se identificaron 15 niveles de complejidad y en la prueba de Matemáticas,
nueve. En cuanto a Habilidad Lectora se encontró que, de los 18 reactivos analizados, tres están
sobreestimados en cuanto al nivel de complejidad que se plantea en las especificaciones; uno
está sobresimplificado, ya que apela a un nivel más complejo de habilidad, y dos no evalúan el
proceso cognitivo que deberían evaluar. En cuanto a la prueba de Matemáticas, solo dos de los
18 reactivos analizados fueron congruentes con la estructura teórica declarada en el marco de
referencia de la prueba.
El fundamento de estas conclusiones sintéticas puede verse en el informe de los dos estudios es-
peciales que se incluye como Anexo 2 de este documento. El primero de esos estudios fue coor-
dinado por Luis Ángel Contreras N., y el segundo por Juan Carlos Pérez M. y Sofía Contreras R.
ESPECIFICACIÓN, GENERACIÓN Y ESCRITURA DE ÍTEMS
6. Existe un documento manual o guía de redacción o diseño de reactivos en el que se
especifican y justifican los procedimientos para formularlos
Una etapa crucial del proceso de desarrollo de una prueba es la redacción de ítems. En ella
convergen los demás elementos de la planeación del instrumento que hemos comentado hasta
este punto. De este modo, resulta necesario que los reactivos representen las unidades del
dominio educativo (universo de medida) que se consideran relevantes en la evaluación, como
muestra del desempeño. Para lograrlo es importante que se estructure un procedimiento formal
de escritura de ítems, mediante el cual se cuide de manera rigurosa que los reactivos represen-
ten el contenido por evaluar y que se adapten al nivel de desempeño que se da en la enseñanza,
como expresión de las oportunidades de aprendizaje que se proporcionan a los estudiantes.
En consecuencia, es fundamental que los redactores de ítems tengan tanto una formación
adecuada, como referentes claros que les permitan homogeneizar la producción de ítems y
ajustarla a los niveles de calidad requeridos.
El procedimiento adecuado para lograrlo es contar con un manual de redacción de ítems, espe-
cialmente diseñado para ajustarse al propósito y contenido de la prueba, y que contenga todos
los elementos necesarios para que los diseñadores de reactivos puedan llegar a interiorizar el
tipo de producción de ítems que se espera de ellos. Para ello, deben incluirse en el documento
suficientes indicaciones y ejemplos que ilustren su cumplimiento. Al respecto, la manera en

34Las pruebas
ENLACE
para educación media superior
que procedieron los constructores de ENLACE-MS, respecto a estos aspectos particulares que
hemos considerado, se describe y comenta a continuación.
ttEl manual describe y da ejemplos de todos los tipos de reactivos que tendrá la prueba, indi-
cando cómo clasificarlos y justificarlos, y haciendo referencia a la relevancia de las respuestas
de los sujetos para el dominio pretendido.
En los manuales técnicos de
ENLACE-MS de 2008-2010 y 2011-2012 no se hace referencia a
un manual o guía que se haya diseñado para elaborar los ítems de la prueba. Al respecto, en
el manual de 2011-2012 solo se menciona que con la finalidad “de mantener la calidad de la
prueba y contar con reactivos técnicamente adecuados, el C
ENEVAL imparte talleres de capa-
citación basados en la metodología institucional y en los lineamientos para la elaboración de
reactivos” (pág. 46).
Para conocer mayores detalles sobre dichos lineamientos, se solicitó a la
DGEP el documento
que los contiene. La dependencia nos facilitó dos archivos que presentan los lineamientos para
la construcción de reactivos de opción múltiple correspondientes a 2011 y 2013.
Ambos documentos son muy similares y el más actual de ellos es un documento con 80 pági-
nas, en las cuales presenta información general sobre el C
ENEVAL, como la integración de sus
cuerpos colegiados, los tipos de exámenes que desarrolla, la metodología que sigue para el
desarrollo de pruebas y bancos de reactivos, la selección de especialistas y sus responsabilidades
como elaboradores de ítems. También incluye información sobre insumos requeridos para ela-
borar reactivos, tales como el perfil referencial de un examen y la estructura que debe tener, así
como sobre las especificaciones para producir ítems e instalarlos en su plataforma informática,
a fin de administrar cada banco de reactivos.
Aunque el título del documento se refiere a los ítems de opción múltiple, los demás capítulos
presentan información sobre varios tipos de ítems que son clasificados bajo dicha designación;
como los tradicionales de opción múltiple, completamiento, cuestionamiento directo, elección
de elementos, jerarquización, relación de columnas, independientes y multirreactivos. Además,
hay una sección que presenta un decálogo de buenas prácticas del elaborador de reactivos, una
más con preguntas frecuentes y otra con referencias sugeridas.
Aunque en los lineamientos no se mencionan cuáles tipos de ítems se presentan en la prueba
ENLACE-MS, la versión 2014 del examen muestra que se aplicaron dos tipos de ítems: multi-
rreactivos de base común para evaluar el dominio de los contenidos del campo disciplinar de
Comunicación (Comprensión lectora), e ítems de opción múltiple para el campo de Matemáticas.
En consecuencia, revisamos lo que se dice sobre ambos tipos de ítems en la versión de 2013 del
documento de lineamientos. En el apartado correspondiente a ítems de opción múltiple (págs.
27-30), se definen estos ítems y se identifican sus componentes: base, opciones y argumen-
taciones (pág. 28). También se presentan lineamientos generales que deben seguir todos los
reactivos, y los lineamientos para cada componente de este tipo de ítem (pág. 30), los cuales
se muestran enseguida en el cuadro 1.9 Además, se ofrecen ejemplos que ilustran la aplicación
de esos lineamientos.

35Alineación a los referentes
Cuadro 1.9
Por su parte, el cuadro 1.10 presenta el apartado con los lineamientos para los multirreactivos
(págs. 67-69). En dicho apartado también se incluye un ejemplo de aplicación, el cual no se
muestra en el cuadro.
Cuadro 1. 10

36Las pruebas
ENLACE
para educación media superior
Suponemos que el documento de lineamientos se proporciona a los participantes en los talleres
para capacitar a los elaboradores de ítems. El Manual Técnico de
ENLACE Media Superior 2011-
2012 solo menciona que
En estos talleres los especialistas aprenden a elaborar reactivos de opción múltiple. Cada
reactivo debe contar con una base y cuatro opciones de respuesta, una es la respuesta
correcta y las otras tres son distractores. Adicionalmente se informa a los asistentes de la
historia y objetivos del Centro y, sobre todo, de las particularidades de la prueba
ENLACE-
MS; esto es importante para que los ítems correspondan con el propósito, estructura y
modelo taxonómico de la evaluación (pág. 46).
Respecto a la duración de la capacitación a los elaboradores de ítems, en una de las notas
informativas que nos fueron proporcionadas sobre los talleres de elaboración de reactivos que
se impartieron en 2013, se menciona que la duración de cada taller fue de tres horas y que se
impartió en una sesión.
La revisión de la documentación mencionada nos permite afirmar que el documento de linea-
mientos para la construcción de reactivos de opción múltiple describe y da ejemplos de todos
los tipos de reactivos que tienen las pruebas que desarrolla el C
ENEVAL, y que también indica
cómo clasificarlos y justificarlos. Sin embargo, estos aspectos no hacen referencia a la prueba
ENLACE-MS, por lo que no se aportan evidencias sobre la relevancia de las respuestas de los
examinados para el dominio pretendido por dicha prueba. Además, considerando lo que se
especifica al respecto en la literatura especializada (véase por ejemplo Haladyna, 2004), los
lineamientos que aparecen en el documento (cuadros 1.9 y 1.10) resultan muy generales, in-
completos y poco explícitos para orientar el desarrollo de ítems efectivos. Da la impresión que
fueron extraídos de un manual genérico de redacción de ítems.
ttEl manual usa tablas o modelos de especificaciones precisas como guía para homogeneizar
diseño de los tipos de ítems y hay documento o formato donde los diseñadores de reactivos
hagan la captura y la modificación.
En la documentación disponible no pudimos encontrar una guía o formato que oriente el diseño
de los dos tipos de ítems que contiene la prueba operativa de 2014 (opción múltiple y multi-
ítem de base común). Tanto el manual técnico 2011-2012, como el documento de lineamientos
antes mencionado, hacen una breve referencia al uso de la plataforma informática denominada
Sistema de Administración de Bancos de Exámenes y Reactivos (
SABER), para la elaboración y
organización de reactivos, y para la elaboración de los cuadernillos de examen que se aplican a
los examinados. En el portal del C
ENEVAL (http://www.cENEVAL.edu.mx/cENEVAL-web/content.
do?page=5682), se aclara que el sistema “permite capturar los reactivos y realizar los ajustes
necesarios derivados de los procesos de validación, revisión de estilo y revisión técnica. El siste-
ma registra todas las actividades que se realizan con los reactivos, y los datos de quién y cuándo
las efectuaron llevando un control estricto de los cambios”. No obstante, no sabemos cuáles
elementos se incluyen en la pantalla que permite la captura de los ítems por parte de quienes
los elaboran.
ttEl manual fue desarrollado para la prueba y considera sus particularidades; no es aceptable
uno genérico o tomado de otro sistema de evaluación.

37Alineación a los referentes
Como ya se mencionó, los lineamientos para la construcción de reactivos correspondientes a
2011 y 2013 son de naturaleza genérica y el C
ENEVAL los emplea como guías para la elabora-
ción de los ítems en todas sus pruebas. Reflejan normativas usuales que pueden encontrarse
en manuales de medición en general o de diseño de reactivos en particular, y se supone que se
entregan a los diseñadores y revisores de ítems. Sin embargo, no contienen referencias específi-
cas para el diseño de los reactivos de
ENLACE-MS, y no se percibe una especificación suficiente
que relacione el planteamiento de esas normas y recomendaciones, de manera particular con
los elementos de la planeación de la prueba que hemos comentado en las secciones anteriores.
7. Los reactivos son diseñados por un comité seleccionado teniendo en cuenta la espe-
cialización académica, laboral y su representatividad respecto a la diversidad del país,
y estuvo coordinado por una persona calificada
Las características de la composición de comités que aquí utilizamos para valorar el cumplimien-
to de este criterio son las mismas que mencionamos para los casos de las pruebas
ENLACE Bási-
ca y E
XCALE. Comentamos que el perfil de los elaboradores de ítems ha sido bien documentado
por expertos en medición, como Bormuth, Guttman, Hively, Tiemann, Markle, Williams, Roid y
Haladyna, quienes sostienen que, en conjunto, este grupo de especialistas debe ser competente
en la disciplina a la que se refiere el contenido curricular cuyo dominio se evalúa en la opera-
ción del currículo en las escuelas y las aulas, en lingüística y teoría cognitiva, para cuidar que el
leguaje en el ítem no incremente la complejidad pretendida en los ítems; debe, representar a
grupos que potencialmente pueden ser ofendidos o penalizados injustamente por los ítems. En
el grupo han de participar también especialistas en medición y evaluación educativas quienes
coordinan y facilitan los trabajos.
ttEl comité fue formado específicamente para realizar su labor, considerando todos los ele-
mentos característicos del tipo de prueba a diseñar
En cuanto al perfil de los elaboradores de los ítems de la prueba
ENLACE-MS en la tabla B3,
denominada “Comité Académico de elaboración y validación de reactivos”, incluida en el anexo
B del Manual Técnico
ENLACE Media Superior 2011-2012, se proporciona el nombre y la institu-
ción de adscripción de casi 150 personas que han participado en la elaboración o validación de
ítems, pero no se hace referencia a su especialización académica, laboral o a su representativi-
dad respecto a la diversidad del país. Tampoco se indica quiénes de ellos elaboraron los ítems,
quiénes los validaron; o bien, en su caso, quiénes elaboraron unos ítems y validaron otros. Por
ello, no puede decirse si este grupo de especialistas cubre con el perfil general de necesidades
que comentamos en el párrafo anterior. La única referencia que pudimos encontrar sobre el
perfil de los integrantes de ese comité, aparece en otra sección del manual (pág. 46), donde se
afirma que a “los talleres de
ENLACE-MS asistieron docentes y especialistas en la enseñanza de
las asignaturas afines a los campos disciplinares básicos, de acuerdo con las líneas establecidas
por la
RIEMS. El requisito principal fue que los profesores contaran con experiencia en el aula y,
de ser posible, en la implementación de la Reforma”, y que en “estos talleres los especialistas
aprenden a elaborar reactivos de opción múltiple”.
ttLa capacitación de redactores incluyó procesos metodológicos y referencias a taxonomías o
sistemas de clasificación cognitiva usados.

38Las pruebas
ENLACE
para educación media superior
Cuando valoramos la prueba ENLACE-MS desde la perspectiva del segundo criterio, comenta-
mos que las tablas que se muestran en los cuadros 1.7 y 1.8 tienen componentes que las hacen
funcionar, a la vez, como especificaciones de la prueba y como especificaciones para producir
los ítems. También comentamos que, aunque no se informa al respecto, suponemos que di-
chas tablas se entregan a los elaboradores cuando reciben la capacitación de 3 horas a la que
hemos hecho referencia. De hecho, no pudimos encontrar información que permitiera aclarar
si las personas que elaboraron los ítems fueron capacitadas juntas o trabajaron de manera
conjunta bajo la coordinación especialistas en medición y evaluación que facilitaran su trabajo.
Más bien hay indicios tales como su amplio número, la breve duración de su capacitación, el
hecho de mantener activa todo el año la elaboración de reactivos o el carácter genérico de los
lineamientos para la elaboración de ítems que fueron utilizados, y de que lo hicieron de manera
relativamente independiente. Lo que sí es seguro, es que se contó con un sistema de clasifica-
ción cognitiva que orientara el desarrollo de los ítems. Las evidencias más claras de ello son las
secciones de las tablas que aparecen en los cuadros 1.7 y 1.8, donde aparece la taxonomía que
se utilizó, así como las secciones de las tablas que nos fueron proporcionadas posteriormente
donde se identifican, para cada ítem de la prueba, el nivel de complejidad y el proceso cognitivo
que fueron especificados para su diseño. No obstante, no se sabe cómo o cuándo recibieron
dicha información los elaboradores de ítems.
CONTROL DE LA CALIDAD DE LOS ÍTEMS
Como también señalamos en los casos de ENLACE Básica y EXCALE, la validación de ítems
mediante los juicios que formulan expertos es una etapa clave del desarrollo de pruebas para
evaluar el aprendizaje que ha sido bien documentada en la literatura especializada por autores
como Hambleton (1993), Nitko (1994), Popham (1980), Jornet y Suárez, (1990) y Solano-Flores
et al. (2000, 2001 y 2002), quienes mencionan que los miembros del comité que realiza la
validación de los ítems deben tener con un perfil general semejante al de quienes desarrollan
los ítems, y que en conjunto deben representar al conocimiento disciplinario, el currículo y su
operación en las aulas y escuelas, la lingüística, la teoría cognoscitiva y la psicometría, así como
a los grupos socioculturales que potencialmente pueden verse afectados por el tratamiento
verbal que se dio a los ítems en el examen.
En esta etapa, los especialistas deben analizar el alineamiento de cada ítem desarrollado contra
la especificación que lo produjo, así como la correspondencia de ambos componentes con el
plan general de evaluación, particularmente con la tabla de especificaciones del examen y la
representación del universo de medida de la prueba, y en general con el currículo cuyo análisis
sirvió de base para el desarrollo del instrumento. Además, deben identificar y corregir posibles
errores conceptuales, fallas al cumplir los lineamientos de redacción técnica, sesgo y ofensa,
complejidad cognitiva innecesaria y falta de representatividad curricular, entre otros problemas
que pueden presentar los ítems.
En esencia, se trata de un comité similar pero independiente del anterior, que examina tanto la
documentación que permitió elaborar los ítems, como a los propios ítems con la finalidad de
liberarlos de posibles errores sistemáticos.

39Alineación a los referentes
8. Existe un manual o guía para el análisis de reactivos que señala los criterios de acep-
tación, revisión y modificación.
Ya hemos comentado en los casos de
ENLACE Básica y EXCALE, que la capacitación del gru-
po de jueces que evalúa los ítems requiere disponer de un manual que incluya protocolos y
criterios de trabajo para revisar aspectos técnicos de orden conceptual y procedimental sobre
validación de ítems, como son los tipos de evidencias relacionadas con el proceso de validación
de ítems y los métodos que pueden emplearse para obtener tales evidencias; la estructura del
formato de evaluación que emplearán; los lineamientos normativos a que deberán ajustarse y
los procedimientos específicos que utilizarán para llevar a cabo la evaluación. De este modo, los
subcriterios a considerar en este caso son:
ttPresenta estructura con funciones representadas en el comité evaluador.
ttEl manual describe procedimientos/criterios para revisar ítems por jueceo.
Este criterio ha sido valorado en función de las informaciones aportadas por C
ENEVAL en los
manuales técnicos de
ENLACE-MS, así como de la documentación adicional de carácter interno
que nos proporcionó la
DGEP. Al respecto, hay que destacar que si bien en los manuales técni-
cos publicados no se presenta una descripción pormenorizada acerca de los procesos metodo-
lógicos utilizados para la revisión de ítems, sí que se muestra una descripción genérica acerca
del proceso de revisión por jueceo. Este proceso se alinea, según se indica, con los lineamientos
que se derivan de los estándares desarrollados en por el Consejo Asesor Externo del C
ENEVAL
(Martínez Rizo et. al , 2000). Se indica en cada caso, a qué estándar concreto se atiende en la
revisión.
Asimismo, aquí mencionaremos como referencias más detalladas para todo el proceso que se
siguió para la validación de reactivos, tres textos adicionales que nos fueron proporcionados:
a) el documento interno confidencial denominado “
ENLACE Media Superior. Procedimiento de
Validación de Textos y Reactivos 2011-2013”; b) una presentación que se utilizó como material
de apoyo en el Taller de Validación de Reactivos; y c) el documento denominado “Lineamientos
para la Validación de Textos
ENLACE Media Superior”.
El primer documento, señala en su primera página que el proceso de validación de textos y
reactivos se “apega a los lineamientos técnicos de la Metodología C
ENEVAL, especificados en
el Prontuario de Normas Técnicas y Estándares, Volumen I: Diseño y Construcción”, y que de
acuerdo con dichos lineamientos “el objetivo de la validación es ‘verificar mediante un proceso
de jueceo externo que el reactivo mida los conocimientos y habilidades que se pretende medir,
que su contenido sea vigente y relevante, esté libre de sesgos y presente un lenguaje apropiado
para la población sustentante’”, y que para ello los comités académicos de validación “se ase-
guran de que los estímulos estén apegados a los contenidos definidos en el perfil referencial, el
marco conceptual y las definiciones operacionales de las áreas del examen y las especificaciones
de la prueba”.
En cuanto al proceso que siguieron los miembros del comité que validó los ítems, el segundo
de los documentos mencionados, que fue utilizado como material de apoyo en el Taller de
validación de reactivos, presenta el procedimiento general y las funciones que desempeñaron
los miembros del comité validador, además de los criterios que utilizó el comité para validar los
ítems y ejemplos de 2 de los 5 tipos de dictamen formulados.

40Las pruebas
ENLACE
para educación media superior
Por su parte, el tercer documento referido contiene lineamientos para la validación de textos
apelativos, descriptivos, argumentativos y narrativos que se utilizan en la evaluación de los cam-
pos disciplinares de Comunicación, Ciencias Sociales y Ciencias Experimentales. La estructura
de las funciones del comité, los criterios utilizados y los tipos de dictamen que formulan son
similares a los anteriores.
En consecuencia, aunque no se dan detalles sobre dónde o cuándo reciben los miembros de
los comités la documentación completa con los productos de la planeación de la prueba que
fueron previamente elaborados, puede decirse que los comités de validación de los ítems de
ENLACE-MS contaron con la documentación mínima necesaria que guiara la formulación de sus
juicios sobre los ítems, la cual incluyó una descripción de las actividades a realizar y los criterios
para revisar, aceptar o modificar los ítems de la prueba y los textos incluidos en ellos.
9. Hay un comité de revisión calificado para aplicar lo que define el manual.
Otro factor clave para trabajar en pro de la validez de los reactivos y la prueba, es la cualificación
de los integrantes de los comités de revisión.
La cualificación se apoya al menos en tres factores:
• profesional (dependiendo de la tarea a realizar, deberían ser especialistas en la disciplina,
el currículo, profesorado frente a grupo —con experiencia y formación evaluativa—,
lingüistas…);
• diversidad geográfica (como garantía para representar la diversidad de situaciones socio-
culturales, económicas y escolares de México); y
• diversidad en cuanto a modalidad educativa en que realizan su trabajo —en el caso
de profesorado frente a grupo— (como garantía para representar adecuadamente los
factores característicos que pueden influir o darse en cada modalidad de la educación
media superior).
Los criterios de selección de revisores deberían contemplar mínimamente los factores mencionados.
En cuanto a los subcriterios a considerar en este caso:
ttSe utilizaron criterios de selección de jueces con un perfil académico y laboral preciso y con
representatividad de la diversidad del país.
En el documento denominado “Procedimiento de Validación de Textos y Reactivos 2011-2013”,
que nos fue proporcionado por la
DGEP, se indica que los “Comités de Validación Externa se
conforman con especialistas expertos en cuatro de los campos disciplinares de Matemáticas,
Comunicación (Comprensión lectora), Ciencias Experimentales y Ciencias Sociales” (pág. 1),
y que “los especialistas deben contar con un grado superior en el dominio de los contenidos
temáticos, y con experiencia en los procesos de planificación curricular, evaluación o enseñanza
de las asignaturas afines a los campos disciplinares básicos y las directrices establecidas por la
Reforma” (pág. 1). Además, se indica que “cada mesa de validación se conforma por dos o
tres especialistas del mismo campo disciplinar y un representante del C
ENEVAL que funge como
moderador” (pág. 2).

41Alineación a los referentes
No obstante, ni en dicho documento, ni en el anexo B del Manual Técnico ENLACE Media Su-
perior 2011-2012 donde aparecen el nombre y lugar de trabajo de los participantes en dichos
comités, no se hace referencia a su especialización académica o laboral, ni a su representativi-
dad en cuanto a la diversidad del país o con respecto a las modalidades de educación media
superior existentes. La única información que pudimos identificar al respecto está contenida en
dos documentos adicionales que se nos entregaron: a) el denominado “Características de los
comités académicos”, donde se establece en la página 4 que los miembros del Comité Acadé-
mico de Validación de Reactivos “deben tener un grado mínimo de estudio de licenciatura, te-
ner experiencia docente y/o de investigación en cada una de las áreas de la prueba
ENLACE-MS
(Comunicación, Matemáticas, Ciencias Experimentales y Ciencias Sociales)”, y donde además
se señalan como criterios de selección que “deben provenir de diferentes instituciones y, de ser
posible, de diferentes entidades en las que se aplica el examen”, así como que deben participar
“en un proceso de capacitación impartido por personal autorizado del C
ENEVAL”; y b) las actas
o notas informativas más recientes que nos fueron proporcionadas sobre algunas sesiones de
validación de ítems (véase por ejemplo el cuadro 1.11), en las cuales se identifica el área de es-
pecialidad de los participantes.
Cuadro 1.11
Por otra parte, y considerando el número de participantes en los comités, es difícil suponer la
representatividad de la diversidad nacional o la modalidad educativa.
ttEl comité de revisión está formado por jueces diferentes al de escritura.
Cuando se consideró el cumplimiento del primer subcriterio del criterio 7, se dijo que en la tabla
B3 del anexo B del Manual Técnico
ENLACE Media Superior 2011-2012, aparecen los nombres
y adscripción institucional de casi 150 personas que colaboraron en el Comité Académico de
elaboración y validación de reactivos, y se indicó que dicha tabla no contiene información que
haga posible distinguir entre quienes han participado en la elaboración de los ítems y quienes
han colaborado en la validación de ítems; o bien, en su caso, que permita identificar a quienes
participaron en la elaboración de unos ítems y posteriormente en la validación de otros, dado

42Las pruebas
ENLACE
para educación media superior
que ya tendrían una capacitación previa que les permitiría participar también como validadores
de ítems. En todo caso, hay múltiples referencias y detalles particulares, en los manuales técni-
cos y en la documentación adicional que nos fue entregada por la
DGEP, que nos permiten afir-
mar que los comités de revisión fueron externos y actuaron de manera independiente respecto
a los comités que construyeron los ítems de la prueba.
ttSe detalla el procedimiento que se siguió para capacitar a los evaluadores.
Cuando en el criterio anterior comentamos los materiales utilizados para capacitar a los evalua-
dores de los ítems, mencionamos tres documentos que en conjunto detallan el procedimiento
a seguir para llevar a cabo la validación de ítems, y que también dejan ver detalles particulares
sobre la manera en que se realizó la capacitación de los evaluadores: el documento “
ENLACE
Media Superior. Procedimiento de Validación de Textos y Reactivos 2011-2013”, una presenta-
ción que se utilizó como material de apoyo en el Taller de Validación de Reactivos; y el docu-
mento denominado “Lineamientos para la Validación de Textos
ENLACE-MS”.
Además, también nos fue entregada otra presentación que fue utilizada en la capacitación de
los evaluadores y que tiene por título “Instalación del Comité de Validación de la prueba
ENLA-
CE Media Superior 2010”. Este documento incluye información sobre los aspectos de contenido
que abarcó la capacitación: el contexto institucional, la evaluación, el
MCC y los mecanismos
de gestión de la
RIEB, el proceso de diseño y construcción de la prueba ENLACE-MS 2010, y el
procedimiento de validación del perfil referencial de la prueba, el cual incluyó la revisión de las
competencias a evaluar, la definición del campo disciplinar, los contenidos generales y específi-
cos, el modelo taxonómico utilizado, y las especificaciones.
10. El sistema de revisión lógica de cada ítem incluye análisis de:
ttCalidad técnica: formulación clara, adecuación al marco de prueba.
ttCongruencia ítem-contenido o ítem-objetivo (subdominio).
ttPosibles fuentes de sesgo: género, diversidad cultural, entre otras.
ttConcordancia de juicio para selección de ítems o procedimientos para estimar la confiabili-
dad de los juicios de los evaluadores.
El análisis lógico de los ítems es un grupo de procedimientos que permiten asegurar la validez de
una prueba. Su propósito es detectar y eliminar posibles errores sistemáticos en los ítems, antes
de proceder a su pilotaje. Estos procedimientos para la revisión de reactivos incluyen aproxima-
ciones tanto analíticas como sintéticas.
Para llevar a cabo la revisión lógica de los ítems, es necesario que los revisores cuenten con
criterios específicos que orienten su atención al revisar los reactivos, entre ellos:
a) los que
permiten valorar la calidad técnica del ítem (como la formulación de la base del ítem, existencia
de respuesta correcta y calidad de distractores, entre otros);
b) los que hacen posible observar
la adecuación del ítem a la unidad del dominio curricular que pretende medir (por ejemplo
observar la relación ítem-especificación-contenido curricular a evaluar), y
c) los que permiten
detectar elementos socioculturales y lingüísticos que puedan constituir posibles fuentes de fun-
cionamiento diferencial de ítems (
DIF, por sus siglas en inglés), o bien que puedan considerarse
sesgos indeseables en las pruebas que afectan a la justicia y equidad de la evaluación.

43Alineación a los referentes
Los criterios de revisión externa utilizados se describen en los documentos referidos, y de mane-
ra concreta en la presentación que se utilizó como material de apoyo en el Taller de Validación
de Reactivos y el documento denominado “Lineamientos para la Validación de Textos
ENLACE
Media Superior”.
Respecto a los subcriterios, se trabajó, según se indica, fundamentalmente sobre la calidad
técnica de los reactivos (su formulación, características de los textos por utilizar, entre otras
propiedades de los ítems), el proceso cognitivo que evalúa el ítem y la ausencia de sesgos so-
cioculturales.
Sin embargo, no se utilizó un procedimiento cuantitativo de juicio independiente, sino que se
procedió según un sistema de deliberación en el comité hasta que se llegó a un consenso acerca
de la categorización o dictamen que correspondió a cada reactivo.
Las evidencias aportadas, como en los casos anteriores, son descriptivas respecto a la meto-
dología, no pudiendo observar este comité otras particulares o específicas sobre alguno de los
procesos de trabajo llevados a cabo.
11. Se cuida la alineación de la prueba en general.
En una prueba de referencia criterial como
ENLACE-MS, su alineamiento al currículo y la repre-
sentatividad de los ítems que la integran respecto al mismo, constituyen los criterios fundamen-
tales para asegurar evidencias de validez relacionadas con el contenido; de ahí que también sean
los referentes principales para orientar su construcción, así como en este caso su valoración. En
esencia, el alineamiento se refiere tanto a la correspondencia como a la articulación entre los
productos de su planeación y desarrollo. En consecuencia, se busca identificar primero el ajuste
estricto de los ítems respecto a las especificaciones que los produjeron y después la correspon-
dencia y armonización de ambos componentes con los contenidos curriculares cuyo dominio se
juzgó importante evaluar. Lo anterior hace posible contar con evidencias que permitan hacer
inferencias válidas acerca del nivel de dominio que tienen los examinados sobre el currículo.
Pasamos ahora a comentar las valoraciones respecto a este criterio.
ttTras analizar ítems del piloto y desechar los que no cumplan criterios, se verifica que el con-
tenido de las pruebas corresponda al dominio y los niveles de demanda cognitiva planeados.
ttSe cuida alineación ítems-test-currículo, ítems-test-estándar-interpretación y, de ser posible,
ítems-test-enseñanza e ítems-test-evaluación en aula.
Algunos de los puntos incluidos en ambos subcriterios ya los comentamos en apartados an-
teriores. Ahora queremos destacar que el alineamiento general del instrumento, con respecto
al currículo de la
RIEMS, es probablemente uno de los elementos que más pueden afectar la
validez de la prueba
ENLACE-MS. Téngase en cuenta que el hecho de que el MCC de referencia
se haya establecido por consenso con representantes de instituciones de
EMS, no asegura que
ciertamente sea igualmente representativo de la enorme multiplicidad de currículos que se dan
en este nivel educativo.

44Las pruebas
ENLACE
para educación media superior
Es más, ahondando en el problema, entendemos que hay preguntas fundamentales que no
pueden responderse con la metodología utilizada en el desarrollo de la prueba. Por ejemplo:
• ¿El Dominio Curricular que representa la prueba es realmente común para todas las ins-
tituciones educativas que imparten
EMS?
• ¿Qué distancia existe entre el Dominio Curricular consensuado como referencia y el im-
plementado en las instituciones educativas? ¿Esta distancia se ha valorado, aunque sea
de manera muestral, para extraer algún indicio empírico acerca de ello?
• ¿Se tuvieron en cuenta los modos de enseñanza más habituales para orientar el formato
evaluativo? ¿Hay algún estudio acerca de los modos de enseñanza en las instituciones
que imparten
EMS y su distancia respecto al modo en que se evalúa con la prueba?
• ¿Se tuvo en cuenta el modo en que se evalúa en las instituciones de
EMS para el diseño
de la prueba? ¿Existe distancia entre los modos de evaluación en el aula y el modo en
que se evalúa en la prueba?
Obviamente no disponemos de información al respecto, por lo que las diferencias interinstitu-
cionales pueden estar influidas por diversos factores de invalidez que no han sido controlados.
Ello lo entendemos como una debilidad evidente, pero que no es responsabilidad última de los
diseñadores de la prueba.
En cualquier caso, también queremos señalar que la evaluación, en general, y la medición —di-
seño de instrumentos estandarizados—, en particular, no pueden suplir una carencia de ges-
tión. No se puede pretender que existan unos contenidos mínimos o competencias básicas de
referencia clara en las pruebas, con una multiplicidad organizacional en los currículos marcada
por una inexplicable libertad de acción. Cuando se desea asegurar el derecho a la educación,
los mínimos nacionales deben estar claramente establecidos como garantía de que no se den
excesivas desigualdades.
Ante este panorama, únicamente queremos llamar la atención a las autoridades competentes
acerca de ello: la evaluación no puede inventar lo que no existe. Hay que abordar de manera
decidida la planificación de la
EMS. Entonces, podremos ahondar con mayor claridad en la vali-
dez de las pruebas. Hasta el momento, lo que se está aportando es “descubrir” un universo de
medida que puede considerarse infinito, cambiante e inexplorado.

45
2 Aspectos técnicos
La prueba ENLACE-MS es desarrollada por el CENEVAL desde el año 2007 por encargo
de la Secretaría de Educación Pública. Se puede clasificar a la documentación en la que se basa
en dos conjuntos de fuentes: el primero organiza la información en el manual técnico de la
prueba, del cual se cuenta con dos ediciones. El segundo conjunto se conforma de documentos
complementarios propios de la producción de las pruebas en los diferentes años y en fuentes
diversas de tipo informal o que están relacionadas más directamente con documentos internos
del C
ENEVAL y que se encuentran en su página web; son de propósito general y no asociados
específicamente con las pruebas
ENLACE-MS.
En el caso particular de esta prueba, se cuenta con dos manuales técnicos: la primera edición
hace referencia a los años 2008 a 2010, y la segunda edición se enfoca a los años 2011 y 2012,
sin contarse con una versión disponible para las aplicaciones de 2013 y 2014. El contenido de
las dos ediciones del manual técnico es básicamente el mismo, con la salvedad de que algunos
elementos del manual 2008 no se incluyeron en la nueva versión (en lugar de actualizarse) y en
otros casos se actualizan algunos datos sin contar con un marco de referencia.
No hay un acuerdo pleno entre los revisores de este trabajo sobre la forma de catalogar a los ma-
nuales técnicos de
ENLACE-MS. No pueden compararse contra los manuales técnicos de ENLACE-
B, cuyas primeras dos ediciones indican aspectos por desarrollar, faltantes o por mejorar, que a
partir de la tercera edición evolucionó hasta convertirse en un informe anual de la metodología
disponible y de los resultados. No pueden compararse tampoco con el manual técnico de E
XCALE
que solo se ha editado en una ocasión y que estaba enfocado a definir las características de di-
seño, conceptual y de desarrollo de las pruebas construidas por el
INEE, pero que en lugar de ac-
tualizarse dio lugar a documentos complementarios con informes de resultados o investigaciones.
Los manuales técnicos de
ENLACE-MS, en cambio, presentan los elementos esenciales de acuer-
do con lo que denominan “metodología C
ENEVAL” que, a su vez, parcialmente tienen como
base un documento general denominado “Manual Técnico” publicado por el mismo C
ENEVAL
en el año 2000. En algunos puntos se incluye información técnica pero en otros queda a nivel
de divulgación de la citada “metodología” y no de las especificaciones o consideraciones técni-
cas propias de la prueba
ENLACE. Por otra parte, los documentos complementarios (investiga-
ciones, proyectos de análisis, informes internos) son muy escasos. Es de suponer que las bases
de datos contienen información valiosa para investigadores educativos, así como para las auto-
ridades de la Secretaría de Educación Pública o para los directivos y docentes de cada plantel,
pero no se cuenta con evidencias de su uso. A diferencia de la cantidad de publicaciones y do-
cumentos sobre E
XCALE que tiene el INEE, el proyecto ENLACE-MS tiene una baja productividad
en publicaciones, semejante a la de
ENLACE-B.
Se identifican fortalezas y debilidades del proyecto, haciéndose énfasis en los aspectos a mejo-
rar o modificar.

46Las pruebas
ENLACE
para educación media superior
CALIDAD DE LAS PRUEBAS
1. Se documentan las evidencias relativas a los diversos tipos de validez que se conside-
ran usualmente en la medida en que sean aplicables. 
ttSe describe el procedimiento seguido para el análisis de validez de criterio, al menos en una
de sus formas (predictiva, concurrente, discriminante, etcétera.) y se reportan los valores
obtenidos en los estudios de validez de criterio.
No se presentan evidencias de análisis de la validez de criterio, por lo que tampoco se cuenta
con resultados de este tipo de estudios, con excepción de los resultados de unas aplicaciones
combinadas con preguntas de las pruebas
ENLACE de bachillerato. Estos resultados integran
una evidencia poco aceptable y hasta cierto punto contradictoria, ya que en principio son pro-
ducto de la medición de competencias que no están basadas en el currículo (salvo la referencia
a algunas de las competencias disciplinares básicas), pero que se espera que permitan reportar
el valor agregado del proceso de aprendizaje dentro del ambiente escolar en media superior,
como una evidencia de validez de criterio.
Estas evidencias parecen confusas: si se parte de la medición de un constructo independiente
del currículo, parece poco apropiado emitir conclusiones sobre la contribución de la escuela al
desarrollo de estas competencias, al igual que hace poner en duda el origen y la interpretación
de los cambios ocurridos en el ciclo escolar como posible de ser medida por estas pruebas,
habida cuenta que se aplican al final del bachillerato.
ttHay evidencia documental del análisis de la validez de escala de la prueba y su pertinencia
en relación con el constructo y el modelo del perfil a evaluar.
La documentación proporcionada incluye amplia información acerca de los marcos de referen-
cia conceptuales de las pruebas en las que se presenta información detallada de los procesos
y contenidos evaluados. Esta documentación esta complementada con un análisis de pruebas
nacionales e internacionales con propósitos afines a las pruebas de
ENLACE-MS. Los compo-
nentes de la prueba están clasificados en dos dimensiones: una de contenido, y otra de proceso.

Es de hacer notar que en los marcos de referencia solo describen los elementos que serán eva-
luados en las pruebas, pero no se encontró información acerca de las proporciones que deberán
representar cada uno de estos contenidos y procesos en la prueba final, por lo que se asume
que todos estarán representados de manera relativamente proporcional. Como no es necesario
reportar los resultados por contenido o proceso, se afirma que la prueba incluye una muestra
representativa de preguntas que cubren los contenidos y procesos a medir. Sin embargo, no
es claro el proceso de selección de las preguntas específicas, pero sí se indica que en la prueba
final los contenidos y procesos están todos representados, teniendo algunos de ellos un poco
más de énfasis o ponderación que otros.
No se cuenta con elementos numéricos detallados sobre la distribución de los ítems en la es-
cala, teniéndose disponible solamente la media de dificultad en porcentaje de aciertos, pero
no hay más valores descriptivos generales que permitan juzgar la similitud de la escala métrica
entre pruebas. En los manuales técnicos se cita que para el diseño de los ítems las dificultades

47Aspectos técnicos
en modelo clásico deben distribuirse entre 20% y 80% de dificultad, pero no queda clara la
justificación, lo cual contrasta con la documentación de
ENLACE Básica, donde se explica la ra-
cionalidad de esta distribución que no solamente es para fines de diseño sino para la revisión de
la prueba una vez realizada su aplicación. Esto no aparece explicado o justificado de la misma
manera en
ENLACE-MS.
ttSe presenta documentación que muestra cómo se realizó el proceso para analizar la validez
de constructo de la prueba y se presentan los resultados.
La validación del constructo se lleva a cabo a partir de los análisis de contenido de las pruebas,
la comparación con otras pruebas nacionales e internacionales, y en parte con la validación de
las preguntas y la prueba por medio de los análisis de confiabilidad y de Teoría de Respuesta del
Ítem (
TRI). Estos últimos proveen evidencia que las preguntas miden un constructo en común.
Aparte de esto, no se presenta más documentación o evidencias de la validez de constructo.
2. Se cuenta con análisis integrales de los procesos y métodos utilizados para desarrollar
las pruebas, definiendo equivalencia y periodicidad.
ttSe indica el procedimiento seguido para construir las pruebas a partir de las especificaciones
y del banco de ítems.
En el
MT2011 se señala el esquema de producción de las pruebas combinando ítems de los
bloques del pre-test, pero no se tiene información específica de la forma de utilizar el sistema
informático ni la base de datos del banco. El ensamble descrito en el
MT2011 marca la distribu-
ción de reactivos por cada bloque en los cuales se incluyen ítems calibrados en el pre-test. Con
esta construcción se tienen varias versiones que siguen la tabla de la estructura de la prueba en
número de ítems combinando dificultades semejantes entre las pruebas.
En el
MT2011 se cita la existencia del software SABER, sobre la plataforma llamada BRAE (Banco
de reactivos para asesores externos) desarrollada por el C
ENEVAL, para automatizar la construc-
ción de las versiones. No hay detalles del software, pero puede suponerse que toma en cuenta
la clasificación temática y por nivel para garantizar la equivalencia de contenido, así como para
construir el instrumento tomando en cuenta la dificultad de los ítems calibrados previamente.
ttSe reportan pasos para producir formas o versiones de la prueba y delimitar su vigencia en
el tiempo o según sedes o localidades.
En el
MT2011 se detalla el proceso de ensamble de las pruebas piloto para tener instrumentos
similares en cada año. Los bloques de contenido se distribuyen matricialmente en los cuader-
nillos, balanceando el orden de presentación, así como los textos, para lo cual se construyen
instrumentos que tienen de 26 a 30 reactivos en cada sesión.
Para la prueba operativa se hace una descripción menos detallada. En este caso se comenta que
se comparan las curvas características de las pruebas para que sean similares entre años, pero
no se especifica la forma de comparar dicha similitud ni la manera en que el software interviene
en la construcción de las versiones.

48Las pruebas
ENLACE
para educación media superior
La versión solo tiene vigencia para el año de aplicación, porque se distribuye entre los planteles
aplicados.
ttSe cuenta con metodología de diseño para obtener versiones equivalentes y se reportan
los valores de diseño y experimentales que demuestren dicha equivalencia. No es aceptable
reportar los resultados de la prueba sin evidencias de equivalencia entre versiones o formas.
Para la construcción de las versiones de
ENLACE-MS se deben cumplir las especificaciones da-
das en la tabla denominada “estructura de la prueba”, donde se indica el número de ítems por
cada área y las competencias y niveles de conocimiento. En esta fase se tiene la certeza de que
las versiones son equivalentes en cuanto a contenido y nivel de complejidad. En el
MT se descri-
be esta metodología de forma general y se incluyen esquemas, pero no fue factible corroborar
el procedimiento porque no se cuenta con los inventarios de los bancos ni las bases de datos,
en consecuencia no es posible verificar las equivalencias ni disponer de un elemento objetivo
de comparación entre las pruebas. Los informes de equiparación se manejan como un proceso
especial que requiere de estudios adicionales, pero no se cuenta con un estudio en este sentido.
En una segunda fase se pide que la dificultad de las versiones sea similar, para lo cual se utilizan
los valores de calibración obtenidos en los bloques del pre-test y se pide que las dificultades
de los ítems en modelo clásico fluctúen de 20% a 80% (en el
MT no se indica que los ítems se
distribuyan de manera uniforme, pero podría suponerse que esa es la regla de construcción).
Al momento de calificar se hace el escalamiento de resultados combinando los valores de ca-
libración previa con la operación de trasladar la media al valor 0 y la desviación estándar a 1.
Por el conjunto de operaciones descritas hay elementos que no se reportan, como es el valor
medio de la escala (ya que fue centrada por el programa) y se reportan en un anexo del
MT2008
los valores medios de dificultad, en porcentaje de aciertos (como “esquema general de ensam-
ble del pre-test”).
ttLa periodicidad de aplicación se justifica con criterios teórico-metodológicos o logísticos
sustantivos, distinguiéndolos de criterios políticos o de opinión.
El diseño de
ENLACE-MS sigue de cerca el enfoque de la RIEMS, pero se establece una estruc-
tura en función de la interpretación específica que incluye solo algunas de las competencias
básicas. No se plantea en forma explícita la periodicidad, pero es de suponerse que a partir
de esta premisa, la vigencia de la prueba depende de las especificaciones de la
RIEMS y de los
cambios que se planteen por el Sistema Nacional de Bachillerato, así como por alguna nueva
consideración del Consejo Técnico o del propio C
ENEVAL.
ttSe especifica y justifica el marco metodológico que integra en forma coherente los procesos
y métodos que guían el desarrollo de la prueba.
Según la documentación presentada, para el desarrollo de las pruebas se utiliza lo que denomi-
nan la “metodología C
ENEVAL”, que aunque no pretende ser algo único u original, es una serie
de pasos y procesos generalmente aceptados y disponibles en la literatura técnica adaptados
por el C
ENEVAL para la elaboración de una prueba. De acuerdo a la “metodología CENEVAL”, se
llevan a cabo diversos procesos integrados y sistematizados que incluyen las siguientes fases:
diseño, delimitación del objeto de medida, construcción, verificación, ensamble, aplicación,
calificación, emisión de resultados, mantenimiento del examen y del material complementa-

49Aspectos técnicos
rio. Estos principios son los que guían el desarrollo de una prueba y según la documentación
proporcionada, estos fueron los pasos que se siguieron en el desarrollo de las pruebas de
ENLACE-MS. Fuera de estas consideraciones, la documentación no está disponible por haber
sido considerado por el C
ENEVAL como una metodología “confidencial”.
ttSe especifica y justifica el modelo psicométrico usado.
Se justifica la utilización del modelo de tres parámetros considerando que es “uno de los más
recomendables cuando las muestras son grandes y se requiere que los resultados se distribuyan
a lo largo de la escala de puntuaciones”. Aunque ésta representa una justificación que puede
calificarse punto menos que modesta respecto del uso de este modelo, no se presenta más
fundamentación del modelo psicométrico utilizado.
El modelo de
TRI que se utiliza es consistente con el modelo utilizado en otras pruebas ENLACE
y es el modelo que actualmente varios autores, sin que sea una opinión unánime, consideran
como recomendable para analizar el tipo de resultados que se obtienen con este tipo de prue-
bas, y hacer el tipo de reporte en escala común, tal y como se pretende hacer con estas pruebas.
En particular es un modelo que permite obtener información de las preguntas que componen
una prueba, antes que se haga la aplicación operativa, y con base en esta información armar
un conjunto de preguntas que cubran el continuo de conocimiento o destrezas que se quieren
medir, al tiempo que se pueden optimizar la medición alrededor de los puntos de corte en la
distribución.
Para conocer la calidad estadística de los reactivos que integran el pre-test de
ENLACE-MS, se
hace su análisis con base en dos modelos: Teoría Clásica (
TC) y TRI. De esta forma se cuenta con
información suficiente para calibrar los reactivos y seleccionar los más adecuados para integrar
las pruebas. Los análisis de los reactivos se llevan a cabo mediante el programa Iteman (
TC) y
Bilog-
MG 3.0 (TRI); el primero permite analizar las opciones de respuesta y el segundo obtener
los parámetros de
TC, TRI y las curvas características de los reactivos. Considerando la cantidad
de alumnos, la calibración para el piloteo de reactivos se hace con el modelo de dos o de tres
parámetros de la
TRI; mientras que los análisis de los reactivos que integran el pre-test y la prue-
ba operativa se realizan con el modelo de tres parámetros.
ttHay manuales técnicos que orientan de manera detallada todos los procesos involucrados
en el desarrollo de la prueba.
Los
MT2008 y 2011 detallan los procesos involucrados en el desarrollo de la prueba. Estos
procesos también se detallan en materiales que se han elaborado para la interpretación de los
resultados. Por ejemplo, los manuales técnicos de las pruebas
ENLACE-MS contienen informa-
ción detallada de los procesos que se siguieron para desarrollar la prueba, desde la definición
del constructo que se quiere medir, los distintos grupos de expertos que fueron convocados
para trabajar en el desarrollo de la prueba, al igual que los pasos seguidos a fin de evaluar la
calidad de las preguntas, y en general de la prueba. En varias partes se hace referencia a un
documento en el que se describe lo que denominan “metodología C
ENEVAL”. Aunque este
documento no fue proporcionado para esta revisión (se obtiene de la página Web del C
ENE-
VAL), los puntos descritos como provenientes de este documento dan una idea bastante clara
de los procesos y pasos seguidos a fin de desarrollar las pruebas
ENLACE-MS que, como ya se
ha dicho anteriormente, son pasos generalmente aceptados por diversas agencias evaluadoras
para diseñar pruebas.

50Las pruebas
ENLACE
para educación media superior
3. Se documentan los procedimientos utilizados para la calibración de las pruebas y
para el análisis psicométrico.
ttSe presentan los procedimientos psicométricos utilizados para determinar sesgo, funciona-
miento diferencial e impacto adverso de la prueba.
No se encontraron estudios ni referencias para estos aspectos. El estudio del impacto positivo
de la prueba como ganancia educativa sí es analizado y se considera su efecto en los puntos de
corte y las descripciones de los desempeños académicos.
No hay estudios sobre funcionamiento diferencial de las pruebas ante grupos específicos, ni se
menciona la posibilidad de que sea un tema de investigación a futuro. Una búsqueda detallada
en los
MT2008 y 2011 no revela interés en el tema. De hecho se indica en el MT2008, sección
6.2 “Usos y difusión de resultados” que se deben evitar las comparaciones entre alumnos y
entre escuelas, lo cual tiene una justificación para que los usuarios no establezcan “rankings”
inconvenientes, pero no la tiene en el sentido de que debieron haberse explorado las diferencias
socioeconómicas, culturales, por género, entre otras. El uso del cuestionario de contexto indica
que las variables que mejor predicen el desempeño son las del capital cultural y económico en
el dominio familiar y la motivación sobre recursos no cognitivos, esta afirmación no se respalda
por un reporte específico a este respecto.
Tampoco hay evidencias de que se tengan estudios de sesgo respecto de la prueba en su dise-
ño, porque el único dato disponible es la media de dificultad, pero no se tiene la distribución de
los ítems que permita determinar medidas de sesgo.
ttSe describen los análisis efectuados para detectar influencias de factores diversos en la
calidad de la medición, como la habilidad de lectura o escritura, la comprensión espacial, la
ansiedad, etcétera.
Si bien se aplican los distintos componentes de las pruebas siguiendo un esquema de rotación
que permite estudiar efectos de posición y fatiga, no se cuenta con evidencias de estudios sobre
ninguno de estos aspectos. Lo que se plantea son normativas de aplicación y administración de
las pruebas con el objeto de reducir o eliminar las diferencias en las respuestas de los estudian-
tes que pudieran adjudicarse a defectos en las condiciones de aplicación.
La aplicación se lleva a cabo en dos días, en sesiones de 50 minutos y un descanso de 10 minu-
tos, pero no hay una consideración respecto de la fatiga o de la conveniencia de la duración y
tampoco una justificación empírica o técnica.
Existe una nota en el
MT 2008 que señala, con la información proporcionada por los aplicado-
res, que puede pensarse en reducir a 45 minutos el tiempo de aplicación (sin dar de nuevo una
evidencia de esta reducción).
4. Se ofrece información sobre la confiabilidad de las pruebas.

51Aspectos técnicos
ttSe describen los procedimientos usados para calcular la confiabilidad de las subescalas y
versiones de la prueba. En particular se reportan los resultados del cálculo de consistencia
interna de la prueba y sus subescalas.
El cálculo de alfa de Cronbach lo realiza Iteman y se obtiene una confiabilidad empírica con la
varianza procedente de Bilog. El
MT incluye las dos fórmulas asociadas con estos parámetros
para mostrar que se obtienen datos muy semejantes, del orden de 0.83 a 0.87. Estos valores
son del orden de magnitud esperado en función del número de ítems y de la dispersión de
respuestas de los estudiantes.
Solo se consideran dos variables para el reporte: Comunicación (comprensión lectora) y Ma-
temáticas. De hecho solo se habla de una escala para las habilidades de los sustentantes que
se iguala año con año, dejando sobreentendido que hay una escala para Comunicación y otra
para Matemáticas.
En principio, por la forma en que está realizado el diseño, se esperaría que cada variable defi-
niera una subescala pero no se tiene evidencia en este sentido, porque no se reporta ninguna
escala ítem-medida (en particular por utilizarse el modelo de tres parámetros de la
TRI). La
conformación de las subescalas debe estar disponible al término de la corrida de los programas
utilizados, siendo una información útil para contar con una evidencia de la calidad de la prueba
y por ser de aplicación en proyectos de investigación.
Debe hacerse notar que parte de la información útil para revisar el modelo de la escala se
presenta en una edición del
MT y no en el otro, lo cual no representa necesariamente una ac-
tualización de los datos. En el
MT 2011 se presentan de forma gráfica las curvas características
de las prueba en Comprensión lectora y Matemáticas (págs. 58 y 59), como especificaciones
estadísticas de ensamble. A partir de estas curvas se puede obtener la relación aciertos-medida
para definir la escala. Estas curvas no se observan en el
MT2008 pero, en cambio, en el Anexo
VI del MT2008 se presenta un estudio sobre la validación de los puntos de corte en las pruebas
de ambas áreas (Gaviria, 2008), con base en la función de información de la
TRI.
Un ejemplo de las corridas de los programas podría ser útil para completar esta información,
pero es una documentación no disponible.
Se reporta la confiabilidad de la prueba calculada de dos maneras. La primera se realiza con el
uso del coeficiente de consistencia interna alfa de Cronbach. La segunda, presenta con base en
el estimado de confiabilidad basado en el modelo de la
TRI con el programa utilizado para cali-
ficar los resultados. Aparte de estos estimados que dan una información general de la confiabi-
lidad de la prueba, también se presentan en el
MT2008 las curvas de información de la prueba,
al igual que de las preguntas individuales, dando una idea de la confiabilidad de la prueba en
los distintos niveles de desempeño en la escala que se genera con base en las respuestas de los
alumnos. No se cuenta con este mismo detalle en el
MT2011.
ttSe dispone de resultados de correlación con aplicaciones repetidas.
En principio podría considerarse que este apartado no es procedente en este caso, ya que la
prueba se aplica solo una vez al año y las pruebas se distribuyen entre los participantes. Sin em-
bargo, debe recordarse y tomarse en cuenta que el proceso se entrelaza año tras año, a través
del diseño y aplicación de un pre-test con preguntas operativas y se establecen sus valores de

52Las pruebas
ENLACE
para educación media superior
calibración en el año en el que se hace el pre-test; estos valores de calibración son los que se
usan para calificar las pruebas operativas.
Sería útil y necesario presentar información respecto a la comparabilidad de los resultados obte-
nidos con las preguntas en estas dos instancias de aplicación, al igual que ofrecer evidencias que
apoyen el uso de los parámetros del pre-test en la prueba operativa. Es posible que el cambio de
contexto y circunstancias en las que se realizan las dos aplicaciones pueda cambiar las propieda-
des de las preguntas, por lo que sería prudente verificar la transferibilidad de las calibraciones.
ttHay un reporte con valores de separación del modelo logístico empleado.
Los valores de separación del modelo logístico a los que se refiere este encabezado no fueron
calculados en la situación de calibración especifica de esta prueba, bien sea porque el software de
la
TRI utilizado (Bilog), no brinda esta información o porque no se consideró pertinente solicitarla,
quedándose solamente a nivel del modelo de alfa de Cronbach por cada área evaluada. Lo más
cercano a este enfoque es el reporte relacionado con la validación de los puntos de corte en el que
se presenta su incertidumbre y se establecen bandas de confiabilidad alrededor de los mismos.
ttSe reporta la metodología para el cálculo del error de diseño de la prueba y sus subescalas
y se reportan los resultados obtenidos en las aplicaciones.
Como no se reportan los resultados por partes o secciones, los valores del error de medida de
la prueba y de las secciones no están disponibles. En la sección de validación de los puntos de
corte se muestran las curvas de información de las preguntas al igual que la función de la infor-
mación de la prueba en general.
Es importante hacer notar también que el reporte de los resultados para los alumnos se hace
con base en la clasificación en uno de cuatro niveles posibles. Aunque empíricamente sería
posible presentar los resultados individuales con base en la probabilidad de estar en cada uno
de los niveles, tomando en consideración el intervalo de confianza de cada punto de corte, el
cual está en función del error de medida, pero se observa este tipo de cálculos no se hacen más
allá de reportes teóricos.
ttSe presenta la metodología usada para análisis de funcionamiento diferencial y de sesgos
asociados con personas, pruebas y subescalas. Se reportan resultados de estudios hechos
para determinar posibles sesgos.
No se presentó este tipo de información. Aunque puede suponerse al leer los manuales técni-
cos que este análisis pudo haberse dado durante el proceso de validación e identificación de la
población focal, no se proporcionó información sistemática al respecto.
CALIDAD DE LOS ÍTEMS Y BANCOS DE REACTIVOS
5. Se documentan los procedimientos para el análisis psicométrico de los ítems y para el
cuidado de su calidad.

53Aspectos técnicos
ttSe cuenta con un documento que describe el modelo de calibración de reactivos y los crite-
rios para su aceptación, revisión y modificación.
Los
MT2008 y 2011 hacen una breve referencia a la TC y al modelo de tres parámetros, cuya
interpretación es conocida por los especialistas en psicometría, indicándose los valores de acep-
tación que son similares a los generalmente aceptados. En principio los cálculos para la calibra-
ción de los ítems se hacen con el análisis con modelo clásico (usando el software Iteman) y con
modelo de la
TRI de tres parámetros (con el programa Bilog).
Para las calibraciones se utiliza un modelo muestral controlado que se toma dentro de la aplica-
ción censal. En el
MT2011 (pág. 19) se indica que esta muestra sirve como punto de partida para
la estimación de los parámetros de los reactivos, para los procesos de equiparación y calificación
y para llevar a cabo diversas investigaciones de interés para la
SEMS. En el mismo MT2011 se
aclara que los estudios piloto se realizan en planteles del Distrito Federal y del Estado de México
por razones de accesibilidad; se trata por lo tanto de un esquema similar al implementado por
la
SEP para ENLACE Básica.
Para las pruebas operativas se proponen como criterios para eliminar reactivos a) que la correla-
ción punto biserial sea negativa y b) que la medida logística sea superior a 5.0 en las unidades
proporcionadas por el software Bilog. Este valor de +5.0 es contradictorio con otras partes de la
información que se restringen al intervalo de −3.0 a +3.0 o en el caso del intervalo de dificulta-
des en modelo clásico de 20% a 80%. De manera conjunta se calibran los reactivos del pre-test
con los de la prueba operativa del año anterior, fijando los parámetros de los reactivos de ésta
última, y los parámetros del pre-test que se obtuvieron en la primera fase de equiparación, se
fijan para calibrar la siguiente prueba operativa, lo cual se ilustra con el esquema tomado de la
información proporcionada sobre
ENLACE MEDIA SUPERIOR.
Cuadro 2.1
Reactivo 10
Reactivo 11
Reactivo 12
Reactivo 13
Reactivo 14
Reactivo 15
Reactivo 16
Reactivo 17
Reactivo 18
Reactivo 19
Reactivo 20
Reactivo 21
Reactivo 22
Reactivo 23
Reactivo 24
Reactivo 25
Reactivo 26
Reactivo 27
Sujeto 2 000000000000
Sujeto 7 000000000000
Sujeto 4 000000000000
Sujeto 10 000000000 000
Sujeto 8 000000001 001
Sujeto 5 000001001 001
Sujeto 1 000100110 001
Sujeto 9 001100011 001
Sujeto 6 011011101 001
Sujeto 3 110111111 001
Sujeto 11 000000000 011
Sujeto 12 000000000 011
Sujeto 13 000000001
Sujeto 14 000000100
Sujeto 15 000001001
Sujeto 16 000011100
Sujeto 17 000101111
Sujeto 18 001110111
Sujeto 19 011111011
Sujeto 20 111111110

54Las pruebas
ENLACE
para educación media superior
La habilidad de los sustentantes se estima con el programa y se les califica con la puntuación de
corte establecida en 2008.
ttSe explicitan los procedimientos utilizados para efectuar el análisis de ítems (dificultad, dis-
criminación, ajuste [fit], distractores, dimensiones, etcétera).
Por tratarse de una prueba censal,
ENLACEMS tiene dentro de sus propósitos la emisión de
resultados individuales de todos los estudiantes. Esta prueba tiene una cobertura superior a
90% de los estudiantes. Se utiliza una versión denominada pre-test diseñada con un modelo
matricial para cubrir temas específicos, con el objetivo de informar acerca de áreas curriculares
en muestras controladas de estudiantes, así como equiparar entre pruebas y calibrar ítems que
se utilizarán en el siguiente año.
El cálculo de los parámetros psicométricos no se explica detalladamente, sino que se deja al
software (Iteman y Bilog) y solo se incluye la fórmula de la
TRI de tres parámetros como infor-
mación complementaria, asumiendo que el resto del procedimiento de cálculo es de dominio
público. El
MT asume que el cálculo de frecuencias de respuestas se realiza con modelo clásico
y el del ítem con la
TRI.
6. Se ofrecen evidencias sobre la calidad de los bancos de ítems.
Se cuenta con una normativa para revisar, corregir y desechar reactivos en función de los re-
sultados de la calibración, tomando en cuenta un conjunto de varios parámetros y evidencias.
La principal normativa se asocia con la validación por especialistas en dos vertientes: la primera
es la validación de contenido y de estilo con base en el conocimiento que tienen los especialistas
del currículo. La segunda es una corrección que utiliza los resultados estadísticos de la calibra-
ción para modificar los distractores que no funcionan en la población objetivo. Junto con ello se
depuran los materiales de capacitación a los elaboradores.
Los criterios estadísticos son definidos exclusivamente como se indicó en el criterio 5: se des-
cartan los ítems cuya correlación punto biserial es negativa (en una referencia adicional del
MT
se plantea <0.2) o cuya medida logística es superior a 5.0 a partir de las corridas de Bilog. Este
criterio debería decir “cuya medida logística en valor absoluto es superior a un cierto valor de
aceptación de acuerdo con la validez de escala”, ya que el valor de 5.0 por sí solo no está aso-
ciado con el intervalo de dificultades previsto en el diseño de 20% a 80% de dificultad clásica.
Para los parámetros de la
TRI se aceptan los ítems que cumplen con estas condiciones:
• Parámetro a ≥ 0.45 (discriminción)
• Parámetro b, en el intervalo de −3 a +3 (dificultad)
• Parámetro c ≤ 0.3 (pseudo adivinación)
Los valores de referencia indicados son convencionales, se usan en algunas otras pruebas aun-
que no se trate de valores generalmente aceptados; esto no se discute en este momento, sino la
nueva incompatibilidad del intervalo para el parámetro b, que no se asocia ni con el valor de 5.0,
indicado previamente, ni con el intervalo definido para la validez de escala (de 20% a 80% en
modelo clásico). No hay indicaciones respecto de la calidad del ajuste de los datos y del modelo

55Aspectos técnicos
logístico, por lo que se debe asumir, pues no está explícito, que la correlación punto-biserial
brinda el criterio de aceptación.
En una revisión de las bases de datos se tienen los valores de esta correlación para las pruebas.
En la revisión se hizo notar que en el manual técnico 2008 para
ENLACE-MS se tiene que de
los 40 ítems considerados en el anexo
II para Comprensión lectora, hay 16 ítems que no pasan
el criterio de rpbis>0.2 y son 24 los que sí lo hacen; para Matemáticas este resultado es peor,
porque 22 reactivos no pasan el criterio y solo 18 sí lo hacen. Se trata de una cantidad muy baja
de ítems que podrían aprobarse tan solo por este criterio.
Podría decirse que el manual técnico solo está presentando un ejemplo de los ítems y que solo
tiene el propósito de mostrar algunos reactivos y sus calibraciones, para dar una idea del con-
tenido del banco; sin embargo, se tendrían dos problemas: a) si el ejemplo es representativo de
la calidad del banco, entonces queda en tela de juicio por contener pocos ítems aceptables con
este criterio, b) en cambio, si el ejemplo no es representativo, entonces queda sin disponerse
de información fidedigna del banco y puede concluirse que no se quiso dar la mejor impresión
acerca de la calidad de la prueba, lo cual tampoco es un buen respaldo documental. Durante
la revisión se comentó que los valores medios de la media y de la correlación punto biserial son
deficientes, por las siguientes razones:
a) Para la media. En el caso de Comprensión lectora, si se considera la subprueba completa,
se tiene un valor centrado (54.99%) para todos los ítems, pero si se eliminan los ítems
con rpbis inferior a 0.2, la prueba queda con sesgo izquierdo (61.7%). Para Matemáticas
se tiene una prueba difícil (38.65%), pero sube este valor cuando se eliminan los ítems
con rpbis inferior a 0.2, quedando casi centrada (48.75%).
b) Para la correlación punto-biserial, en el caso de Comprensión lectora la media queda en
0.24 y para Matemáticas en 0.19. Una vez que se quitan los ítems con valores de rpbis
inferiores a 0.2, las medias de la correlación punto-biserial, suben a 0.32 y 0.30 respec-
tivamente. Dado que el criterio es que se tengan correlaciones punto-biserial por arriba
de 0.2, los promedios no tienen necesariamente que ser muy elevados (inclusive podrían
estar esos promedios cercanos a 0.2 y serían aceptables), pero parecen poco pertinentes
por tratarse de una prueba de alcance nacional como esta.
ttEs posible revisar los inventarios del banco de reactivos, debidamente clasificados y con
valores psicométricos o edumétricos. No es aceptable que la prueba carezca de inventario o
que haya reactivos sin calibración.
No se satisface este criterio, porque no se cuenta con los inventarios ni con las bases de datos,
por ser material considerado por el C
ENEVAL como confidencial. No hay muestra de ítems confi-
gurados de acuerdo con las especificaciones. No obstante, se entregaron las pruebas operativas
para revisión, lo cual se presenta en la sección de calidad cultural de este reporte.
ttSe cuenta con una normativa para el uso de los reactivos, indicando su vigencia en el banco
o en las versiones, forma de almacenamiento en medio informático o físico y forma de ac-
tualización para uso posterior.
El
MT señala que no se pueden conservar los bancos de ítems porque las pruebas operativas
se distribuyen entre las instituciones educativas; esta práctica tiene como consecuencia que la
prueba tenga vigencia máxima de un año, haciendo que el banco sea volátil, porque una vez

56Las pruebas
ENLACE
para educación media superior
usada la prueba hay que diseñar nuevos ítems. No se cuenta con otra definición de las políticas
para la gestión de los bancos de ítems y su permanencia en el tiempo. Lo que sí se vislumbra es
que puede haber cambios debidos a los avances en el
MCC de la RIEMS. No se cuenta con infor-
mación completa del sistema informático utilizado, pero puede pensarse que para controlar el
almacenamiento en el sistema informático del C
ENEVAL se requiere hacer la validación con regu-
laridad, por lo que puede suponerse que la revisión se hace en fechas cercanas a la aplicación.
CALIFICACIÓN Y NIVELES DE DESEMPEÑO
7. Se informa sobre los procedimientos seguidos para la calificación de los sujetos que
responden las pruebas.
ttEstá disponible el documento que explica la forma en que se asignó calificación a estudian-
tes (normativa, criterial u otra).
La calificación se realiza con el software Bilog con el modelo de tres parámetros de la
TRI. Se
emiten los reportes a partir de las puntuaciones en términos de la medida theta , traducida en
categorías cualitativas. El modelo de tres parámetros de la
TRI asigna diferente resultado a dos
personas que tienen el mismo número de aciertos pero contestan diferentes ítems. Por esta
razón la curva característica de la prueba no se relaciona con el número de aciertos y la medida
logística, a diferencia de lo que ocurre con el modelo de Rasch utilizado en la prueba E
XCALE.
La prueba se diseña y califica con referencia a un criterio. El establecimiento de puntos de corte
y niveles de desempeño lo hacen especialistas con el método bookmark . Los puntos de corte
son definidos por jueces y se validan en forma empírica con ayuda de la curva característica
para obtener los valores que se deben emplear para asignar calificaciones y niveles de desem-
peño. Un punto específico a mejorar sobre puntos de corte es no proponer valores con excesiva
precisión (seis decimales), porque son cifras que no pueden ser alcanzadas por el instrumento a
partir del número de ítems, ni del error de medida.
Finalmente, debe citarse una heterogeneidad de los manuales técnicos: en el
MT2008 se des-
cribe la metodología para la revisión técnica de los puntos de corte, pero no vuelve a aparecer
en el
MT 2011, dejándose solamente una presentación (en Power Point) que se hizo al Consejo
Técnico sobre los valores que definen los rangos de habilidad utilizados en Comunicación y
Matemáticas.
Para completar la estimación de las medidas de los estudiantes se realizó un estudio de ganan-
cia. De acuerdo con este estudio, se indica que hay una estabilidad en el desempeño de los
alumnos para el campo de Comunicación (Comprensión Lectora) y una tendencia monótona-
mente creciente para Matemáticas. Este estudio de ganancia es el único referido para deter-
minar si las diferencias entre años eran debidas a los estudiantes o al diseño de la prueba, por
lo que la asignación de las calificaciones considera esta estabilidad temporal longitudinal y se
asigna la puntuación final con base en ella. Este estudio también tenía el propósito de revisar
y justificar los puntos de corte o los cambios requeridos por modificaciones en los resultados a
lo largo del tiempo.

57Aspectos técnicos
Figura 2.1
Cuadro 2.2
Nivel de Dominio Puntos de corte (habilidad)
Comunicación/Lectora
Insuficiente Menores o iguales que −0.916000
Elemental −0.915999 a 0.096000
Bueno 0.096001 a 1.455000
Excelente Mayores o iguales que 1.455001
Matemáticas
Nivel de Dominio Puntos de corte (habilidad)
Insuficiente Menores o iguales que −0.053000
Elemental −0.052999 a 1.176000
Bueno 1.176001 a 2.018000
Excelente Mayores o iguales que 2.018001
ttSe cuenta con la explicación del diseño de la escala de la prueba y la forma de calcular los
puntajes en dicha escala (por modelo clásico o logístico), con penalización o sin corrección
por azar, entre otros posibles criterios.
No se asigna ninguna penalización ni corrección por azar. Como se trabaja con el modelo de
tres parámetros, la calificación depende del conjunto de ítems contestados (puntuación no
invariante), donde se hace intervenir el parámetro de pseudo-adivinación. No hay una formu-
lación para definir un escalamiento sistemático del tipo corrimiento de la media y coeficiente
multiplicativo para la desviación estándar; es de notarse que en el
MT2008 se plantea una

58Las pruebas
ENLACE
para educación media superior
transformación afín por escalamiento de la desviación estándar (parámetro multiplicativo) y
corrimiento de la media (parámetro aditivo), aunque no se indican los parámetros utilizados en
el año de reporte. Este procedimiento deja de presentarse en el
MT2011.
En otra parte de la información proporcionada se señala que no puede utilizarse anclaje con
los ítems de años anteriores, pero de hecho se están utilizando los ítems del pre-test y en el
MT2011 se aclara que se fijan las medidas obtenidas en el año anterior, lo cual es un esquema
evidente de anclaje. Por otra parte se deja al programa
BILOG la equiparación en una media 0
y desviación estándar 1, correspondiente a una estandarización corrida al centro en 0, pero no
necesariamente con un escalamiento por igualación de formas. Este esquema se plantea como
de equiparación por población común y no por ítems comunes.
ttSe explica el procedimiento para obtener la calificación global como combinación de diver-
sos instrumentos o partes de la prueba. No es aceptable la asignación global como prome-
dio de promedios.
Se entrega calificación por cada área. La base de datos contiene los puntajes logísticos de la
persona con formato de un entero y seis decimales. En cambio, no se entrega una calificación
global de la persona.
El proceso de equiparación se efectúa por cada una de las dos áreas (Comunicación y Mate-
máticas) y se determina un error de equiparación con un modelo bootstrap, simulando 100
muestras aleatorias con reemplazo.
8. Se justifica lo relativo al establecimiento de los niveles de desempeño y la interpreta-
ción de resultados de las pruebas
ttExiste el marco teórico-metodológico basado en currículo que justifica la organización en
niveles de desempeño como estándares o sistema de interpretación de puntajes, junto con
el procedimiento de asignación del valor del punto de corte en la escala.
El marco metodológico está basado en la
RIEMS. Se parte del punto de que no existe un cu-
rrículo único en la educación media superior. La
RIEMS intenta reunir en el MCC la diversidad
curricular al señalar destrezas y competencias genéricas que se desarrollan durante la estancia
de los estudiantes en las instituciones educativas, además de competencias disciplinares básicas
y extendidas con una mayor carga de contenido, y competencias cognitivas. Entonces los niveles
de desempeño son establecidos con base en competencias genéricas y transversales, que se
supone se desarrollan a lo largo del proceso educativo y en todas las materias que se enseñan
en la educación media superior.
Con base en el
MCC, el proyecto de ENLACE MEDIA SUPERIOR se enfoca a las competencias
disciplinares básicas, porque se espera que los alumnos deban razonar matemáticamente, y no
simplemente responder ciertos tipos de problemas mediante la repetición de procedimientos
establecidos. Esto implica que puedan llevar las aplicaciones de esta disciplina más allá del sa-
lón de clases. Esto es lo que se define como habilidades o competencias matemáticas. Como
competencias comunicacionales, con énfasis específicamente en la Comprensión lectora, se
entiende la capacidad de los estudiantes de comunicarse efectivamente en el español y en lo

59Aspectos técnicos
esencial en una segunda lengua en diversos contextos, mediante el uso de distintos medios e
instrumentos. Además, están orientadas a la reflexión sobre la naturaleza del lenguaje y a su
uso como herramienta del pensamiento lógico.
Si bien este es el marco teórico que sustenta los contenidos de la prueba, se definen cuatro
niveles de desempeño con el fin en mantener consistencia con las otras pruebas
ENLACE. Estos
niveles se denominan: insuficiente, elemental, bueno y excelente. No se encuentra justificación
teórica en cuanto a la cantidad de niveles, o a la validez de la clasificación en los mismos.
Un punto que no queda claro, y que despierta cierta preocupación respecto al constructo
que se mide y su interpretación, es el que se refiere a un estudio emprendido para atender los
cambios de especificaciones de las pruebas entre 2010 y 2011, para lo cual se comparó la per-
tinencia de los puntos de corte de las pruebas de 2008 a 2010 y que se aplicaron de la misma
manera en las de 2011 a 2012. Entonces, si se cambiaron las especificaciones de las pruebas, se
asume que éstas miden algo distinto, por lo que en nuestra opinión se deben establecer puntos
de corte nuevos con base en el nuevo constructo que se está midiendo y se deben descartar los
puntos de corte utilizados en pruebas anteriores; sin embargo, no hay evidencia de que se haya
realizado una nueva definición de ellos. El hecho que las proporciones por nivel se mantengan
relativamente iguales no es criterio suficiente o necesario para ser aceptado como validación de
los puntos de corte. A menos que las pruebas midan un mismo constructo, estas comparaciones
no deben hacerse, ni tampoco utilizar os mismos puntos de corte.
ttSe dispone de respaldo documental que especifica el procedimiento (criterial o mixto) para
determinar los niveles de desempeño o estándares.
El procedimiento para establecer los puntos de corte es un procedimiento criterial denominado
de marcador (o bookmark) en el que, en términos resumidos, se le pide a los jueces describir
niveles de desempeño, y luego identificar, con base en el conjunto de preguntas ordenadas por
nivel de dificultad, la pregunta que separa a los grupos de acuerdo con un criterio que consi-
deren aceptable para marcar diferencias cualitativas en el desempeño de los estudiantes. Este
criterio es generalmente la primera pregunta que se espera respondan de manera correcta 67%
o más de los alumnos del nivel correspondiente. El procedimiento bookmark es uno entre varios
métodos que se encuentran bien descritos en la literatura técnica sobre evaluación, y se cuenta
con suficiente investigación acerca de sus ventajas y desventajas.
Es de hacer notar que aunque este procedimiento es fundamentalmente un procedimiento
criterial por jueceo para determinar los puntos de corte, siempre debe ir acompañado de una
verificación empírica en referencia a la población a fin de asegurar que los puntos de corte se-
leccionados son útiles para describir a la población evaluada y son representativos de cambios
cualitativos en la distribución de medidas en la escala. Por esto es que se presenta un estudio
de su idoneidad con base en la distribución de la dificultad de las preguntas, la posibilidad de
adivinación, la separación de los grupos, y la discriminación en los puntos de corte.
ttLos estándares desarrollados a partir de comités de jueces, cuentan con el análisis del domi-
nio, curricular u otro, y/o tienen en cuenta consecuencias empíricas de la identificación de
puntajes de corte.
Debe hacerse notar que en la documentación proporcionada se presenta poca información al
respecto, se alude al hecho de que los estándares y definiciones de niveles de competencias

60Las pruebas
ENLACE
para educación media superior
son desarrollados por un panel de jueces encargados de determinar los puntos de corte en la
distribución. A estos jueces se les encarga revisar el dominio curricular en términos de las de-
finiciones de las competencias establecidas por la
RIEMS y como resultado de esta revisión se
procede a desarrollar los descriptores de nivel.
Se da por sentado que las consecuencias empíricas son tomadas en cuenta dado a que, una vez
establecidos los puntos de corte, se verifican las proporciones de alumnos clasificados en cada
nivel a fin de asegurarse de que los puntos dividan a los estudiantes en grupos que puedan ser
interpretados y distinguibles, asumiendo que las proporciones de estudiantes en cada nivel son
razonablemente aceptables por los jueces que intervinieron en el análisis.
ttLos puntos de corte se validan con procesos de juicio o mixto (juicio-empírico); se demuestra
experimentalmente su ubicación y se reporta el intervalo de confianza correspondiente.
En la documentación disponible (Anexo
VI del MT2008) se presenta un estudio en el que se
presenta la ubicación e intervalo de confianza de los puntos de corte. El análisis no se repite en
todos los años ni se refiere en los dos manuales técnicos.
ttHay evidencia empírica de que los niveles de desempeño están bien graduados y discriminan
bien en relación con contenido de prueba.
No se presenta evidencia al respecto, salvo de la definición de los puntos de corte como se
indicó en el criterio anterior.
ttSe cuenta con la metodología y evidencia del proceso realizado para describir el significado
de los niveles de desempeño o del conjunto de competencias por nivel en términos de los
puntos de corte.
Se presenta la interpretación genérica de los niveles en un reporte técnico, al igual que en un
segundo documento que describe el procedimiento para establecer los puntos de corte (con-
duciendo a una tabla que da los valores numéricos). Como se indicó previamente, para alcanzar
este fin se utilizó el procedimiento de marcador (o bookmark) con el cual se establecieron los
puntos de corte.
Ahora bien, en la documentación se encuentran algunas inconsistencias que se deben seña-
lar. Una de ellas se presenta en la descripción del procedimiento. Se dice que “se preguntó a
los jueces ¿los alumnos de nivel “insuficiente” pueden responder a este reactivo?”, tomando
como reactivo marcador el que era respondido por 2/3 de los alumnos del nivel. Como el nivel
insuficiente es el más bajo, se debió hacer esta pregunta respecto a los alumnos del nivel “ele-
mental”, “bueno” y “superior.” Los alumnos “insuficientes” son los que no alcanzan el nivel
“elemental”.
Una segunda inconsistencia es la descripción del nivel “insuficiente”, dado que éste es el nivel
que por definición no alcanza lo elemental, su descripción debiese ser con base en lo que “no
puede hacer,” y no con base en lo que “puede hacer”, tal y como se hace, lo cual es incom-
patible con el nivel que se estudia en la población focal. Se tiene el documento que detalla los
desempeños por nivel para las competencias y contenidos propuestos en la prueba, así como
otras interpretaciones pertinentes a partir de los resultados de las pruebas.

61Aspectos técnicos
Las descripciones de los niveles de competencia se presenta en varios de los documentos dispo-
nibles, y en la Guía para el Docente se presentan ejemplos de preguntas que están clasificadas
en cada uno de los niveles de desempeño. En cada caso se indica también la denominada “for-
taleza” que corresponde con la descripción de la competencia movilizada por el estudiante al
responder correctamente al ítem.
ttLos integrantes de los comités encargados de definir los niveles de desempeño son selec-
cionados por sus perfiles académicos y/o laborales y por su representatividad dentro de la
diversidad cultural del país; dichos integrantes pasan por un proceso de capacitación orien-
tado al manejo de la metodología a utilizar.
Según el manual técnico se establecen dos comités de puntos de corte que están integrados
por especialistas en los contenidos evaluados que cuentan con experiencia en el nivel educativo
al que se dirige el examen y proceden de diferentes instituciones. La función principal de este
comité es el establecimiento de las puntuaciones que separan cada uno de los niveles y las
definiciones de los niveles de dominio de acuerdo con los resultados obtenidos en el proceso.
Según lo presentado en la documentación técnica, los miembros del comité son capacitados en
el procedimiento para establecer los puntos de corte. Durante esta capacitación el coordinador
de la actividad presenta a los especialistas el marco institucional del C
ENEVAL, los aspectos
básicos relacionados con la evaluación educativa y los procesos y fases de la “metodología
C
ENEVAL” para construir una prueba. Se ofrece además información básica sobre las caracterís-
ticas generales de las pruebas, propósito, población objetivo, contenidos evaluados, alcances y
limitaciones, tiempo para la aplicación de la prueba, forma de aplicación y estructura del exa-
men. No se dispone de los formatos y elementos discutidos durante los análisis que realizaron
los miembros del comité.
CONCLUSIONES
Los criterios técnicos analizados para las pruebas ENLACE-MS indican algunas fortalezas que
no solamente son esperadas y deseables en una prueba de alcance nacional sino que son más
que exigibles, por las consecuencias que tienen las decisiones y usos que se realizan con los
resultados, tanto en lo que corresponde de forma individual para cada estudiante como en los
diversos niveles de agregación (plantel, estatal, regional y nacional). Dentro de ellas se tienen los
mismos puntos positivos que se destacaron en
ENLACE-B, atendiendo al esfuerzo de aplicación
que incluye la logística de distribución, seguridad, lectura, calificación y emisión de reportes.
La justificación documental es el primer punto que debe mejorarse, para contar con elementos
de juicio completos y certeros de apoyo a cualquier lector o investigador interesado en estas
pruebas; a este respecto, en el capítulo anterior se comentó que sus dos manuales técnicos son
de contenido y diseño heterogéneos, al incluir en ocasiones elementos técnicos muy puntuales,
aspectos de divulgación para el lector lego y otros tópicos que explican la metodología seguida
pero de manera superficial y no asociada directamente con este proyecto.
Otros puntos débiles fueron indicados en los criterios relativos a los referentes, principalmente
con respecto al marco teórico y a la definición de las competencias que, en principio, están aco-

62Las pruebas
ENLACE
para educación media superior
tadas en el marco curricular común de la RIEMS, pero quedaron limitadas en el diseño a unos
cuantos puntos de las competencias disciplinares básicas en dos áreas muy genéricas (Compren-
sión lectora y Matemáticas), como ya se apuntó en el capítulo respectivo. Como consecuencia
de esta definición del perfil del estudiante, se tienen limitaciones en el desarrollo de los puntos
técnicos de validez de constructo, de criterio y de escala, que no se justifican suficientemente.
La mezcla indiscriminada de modelo clásico y de
TRI es un elemento importante que debe corre-
girse, con el objeto de dejar explícitos los puntos que se tratan con cada una de dichas teorías.
Debe insistirse que no se trata de que un proyecto contenga solamente uno de los modelos,
ya que se sabe que pueden combinarse de manera apropiada en forma ecléctica para los fines
propios de la medición o de la emisión de reportes. El problema es que se combinan errónea-
mente los parámetros y la definición de los intervalos de aceptación de los ítems o de la prueba.
Dentro de los puntos señalados en este capítulo está el criterio de rechazo de ítems cuando la
medida logística es superior a +5, cuando en otra parte la prueba se acepta en intervalos de −3
a +3 y en otro sitio se afirma que el diseño y la revisión solo aceptan ítems de 20% a 80% de
dificultad en modelo clásico (que corresponde con un intervalo logístico de −1.38 a +1.38). No
está clara la aceptación por criterio de ajuste al modelo (fit) y en cambio se utiliza la correlación
punto biserial como posible criterio de revisión.
No se dispone de datos métricos de las subescalas (Comprensión lectora y Matemáticas), ni del
error de medida general de ellas, salvo una media general en porcentaje de aciertos para cada
subescala, lo cual puede fundamentarse en el hecho de que la
TRI solo produce medidas de
cada persona dependientes del conjunto de reactivos, pero no se enfoca a producir el error de
medida general de la prueba. Si se admite este argumento, entonces no es aceptable que falte
la validación del error en los puntos de corte de todas las pruebas (solo se tienen en algunas),
los cuales son obligatorios en la
TRI una vez determinada la función de información.
Respecto de los puntos de corte, los manuales técnicos no siempre reportan el dato (cuando
se reporta es con un abuso en el número de decimales, simulando una precisión inexistente),
con una posible argumentación con base en una cierta consistencia observada en las diversas
aplicaciones. Esto, a su vez, conduce a una incongruencia debido a que dichos puntos debieron
haberse revisado en el momento de cambios en las pruebas en 2011, en lugar de optar por
mantenerlos constantes.
La carencia de estudios de diversas fuentes de sesgo, de funcionamiento diferencial de los ítems
o de funcionamiento diferencial por grupos de personas, no apoya a la revisión de las pruebas e
impacta lo que se afirma en los capítulos relativos a la influencia de factores culturales, así como
a las consecuencias que puede tener esta prueba.
La falta de evidencias sobre los bancos de ítems, y el no disponer de sus inventarios consideran-
do la clasificación temática, la complejidad y los valores métricos, no permite juzgar acerca de
su calidad. Igualmente se dispone de muy escasa información sobre los sistemas informáticos
de almacenamiento de los ítems y de la generación de pruebas.

63
3 Atención a la diversidad
Este documento reporta la revisión de la prueba ENLACE-MS desde la perspectiva
de validez cultural. La validez cultural se define como el grado en que el diseño, el proceso de
desarrollo y el contenido de una prueba toman en consideración la forma en que factores cul-
turales, lingüísticos y socioeconómicos no relacionados con los constructos de interés influyen
en la manera en que los estudiantes interpretan el contenido de los ítems y la forma en que
responden a ellos (Solano-Flores y Nelson-Barber, 2001).
Enfoques convencionales en el tratamiento de la diversidad cultural y lingüística en evaluación
del aprovechamiento escolar se basan en examinar las características de los ítems una vez que
un instrumento está a punto de alcanzar su fase final de desarrollo. Tal es el caso de los aná-
lisis de sesgo o de las revisiones de sensibilidad que, desde la perspectiva de validez cultural,
son necesarios pero insuficientes para asegurar una evaluación justa y válida en una sociedad
multicultural.
A diferencia de tales enfoques convencionales, los enfoques basados en el concepto de validez
cultural se ocupan de examinar cómo la metodología empleada para desarrollar las pruebas
toma en cuenta la diversidad cultural y lingüística de la población objetivo. El desarrollo de un
marco muestral poblacional que considere los principales sectores socioeconómicos, étnicos y
lingüísticos de la población estudiantil y la inclusión de muestras representativas de esos seg-
mentos poblacionales en el piloteo de pruebas son ejemplos sencillos y claros de las acciones
que pueden tomarse en el desarrollo de una prueba con el fin de asegurar la validez cultural de
ese instrumento.
Para analizar la validez cultural de las pruebas
ENLACE-MS, los autores de este informe revisaron
la documentación proporcionada por el C
ENEVAL y la SEP sobre dichas pruebas y efectuaron el
microanálisis de una muestra de los reactivos de Comunicación (Comprensión lectora) y Mate-
máticas seleccionada aleatoriamente. El microanálisis de reactivos se define como la evaluación
integrada de los aspectos gramaticales, pragmáticos (contextuales) y semióticos que influyen en
la probabilidad de que los alumnos entiendan los reactivos como se espera que los entiendan
(Solano-Flores y Trumbull, 2003). Como resultado de este análisis, a menudo emergen cuestio-
nes de contenido o aspectos técnicos de la estructura del ítem, que no pueden ser detectados
con los procedimientos convencionales de revisión de ítems.
La documentación analizada incluyó principalmente los manuales técnicos de las pruebas,
los cuestionarios de contexto, las pruebas operativas, los documentos de especificaciones y
los reportes de estudios especiales comisionados para analizar distintos aspectos técnicos de
ENLACE-MS. Debido a que esa prueba y algunos de sus documentos técnicos de apoyo son
renovados en su totalidad cada año, en la revisión efectuada por los autores se dio prioridad a
la versión de la prueba y a la documentación más reciente.

64Las pruebas
ENLACE
para educación media superior
La prueba ENLACE-MS tiene una aplicación anual y contiene un total de 60 reactivos de Ma-
temáticas y 50 reactivos de Comunicación que se administran en secciones alternas. En el caso
de Comunicación, están organizados como grupos de reactivos que se presentan al estudiante
después de y en relación con un pasaje literario. Cada pasaje literario corresponde a una de
cuatro formas de comunicación (por ejemplo, argumentativa o apelativa).
La muestra aleatoria de reactivos microanalizados estuvo conformada por 15 reactivos perte-
necientes a las cuatro secciones de Comunicación y 20 pertenecientes a las dos secciones de
Matemáticas.
En la evaluación de
ENLACE-MS se tomaron en consideración doce criterios de validez cultural:
Marco conceptual de la prueba; Especificación de las poblaciones; Estrategia para considerar
diversidad cultural, lingüística y socioeconómica; Especificación de ítems; Profesionales involu-
crados en el desarrollo de los ítems; Representación de poblaciones diversas en las muestras de
estudiantes piloto; Validación cognitivo-cultural; Revisión, Análisis de sesgo; Estudios de gene-
ralizabilidad; Tiempos y calendarios; y Mecanismos de corrección.
Este reporte está organizado en secciones de acuerdo con tales criterios.
1. El marco conceptual de la prueba toma en consideración cómo la efectividad en el
aprendizaje, la enseñanza y la evaluación de un contenido están influidos por la ex-
periencia sociocultural del estudiante y su familiaridad con la lengua y la variedad
dialectal en que se administran las pruebas.
Las pruebas
ENLACE-MS están organizadas de acuerdo con una estructura general que com-
bina niveles de dominio y tipos de proceso cognitivo. En el caso de Comunicación, los tipos de
proceso cognitivo son: extracción, interpretación (desarrollo de la comprensión, desarrollo de la
interpretación), reflexión y evaluación (de la forma, del contenido). En el caso de Matemáticas,
los tipos de proceso cognitivo son: reproducción, conexión, y reflexión (C
ENEVAL, 2012). La
organización de las dos áreas de contenido por tipo de proceso cognitivo permite el desarrollo
de una matriz de muestreo para la generación sistemática de reactivos.
Desafortunadamente, la documentación disponible no presenta una discusión detallada de las
bases conceptuales y teóricas de los tipos de conocimiento considerados. En ausencia de tal
discusión, los aspectos epistemológicos relacionados con el lenguaje y con el pensamiento ma-
temático no están tratados con profundidad. En otras palabras, aunque existe una conceptuali-
zación de los contenidos evaluados, no existe un documento formal que proporcione un marco
conceptual de la prueba ni de cómo diversos aspectos lingüísticos y culturales influyen en la
comunicación o en el pensamiento matemático.
2. Como parte del desarrollo de la prueba, se establecen las características diversas de
la población objetivo, que consideran la diversidad cultural y lingüística del país, y los
múltiples contextos y escenarios culturales y ambientales.
El cuestionario de contexto para estudiantes de
ENLACE-MS incluye una pregunta que también
aparece en el cuestionario de contexto empleado en
ENLACE-B, sobre la condición lingüística

65Atención a la diversidad cultural
de los padres (si su lengua es diferente del español). Sin embargo, el cuestionario no recaba in-
formación sobre la lengua específica de los padres, cuando ésta no es el español. Adicionalmen-
te, el cuestionario no incluye preguntas sobre la primera lengua de los propios estudiantes. Se
infiere implícitamente que un alumno de educación media superior es monolingüe en español.
El cuestionario no permite obtener información sobre el grado de bilingüismo que los alumnos
en este nivel pueden tener.
Tal limitación contrasta con las preguntas sobre el dominio del idioma inglés incluidas en el
cuestionario en relación con las competencias comunicativas que presentan los estudiantes de
media superior en relación con el uso de nuevas tecnologías. La importancia que puede tener el
dominio de dos o más idiomas para los estudiantes mexicanos se limita al uso del inglés como
herramienta para acceder a herramientas informáticas y no también como una habilidad cogni-
tiva que favorece un mejor desempeño escolar.
El mismo cuestionario recaba información sobre las condiciones socioeconómicas de los estu-
diantes. Se les pregunta sobre su estado civil, su condición laboral, su trayectoria escolar previa,
los ingresos de sus familias, y el acceso a bienes y a nuevas tecnologías. También se indaga
sobre su experiencia en el ámbito escolar, la relación con profesores y compañeros, y sus expec-
tativas para el futuro. Sin embargo, no se obtiene información sobre la trayectoria escolar de los
padres o sobre la estructura familiar (Prueba
ENLACE Cuestionario para alumnos de Educación
Media Superior 2013).
Los cuestionarios para profesores y directivos contienen preguntas sobre la modalidad del plan-
tel (existen un gran número de modelos para la educación media superior en México), el ta-
maño de la localidad y las actividades preponderantes en esa localidad. Las variables tratadas
consideran la ubicación de los planteles en zonas rurales, urbanas, o semiurbanas, y el tipo
de perfil laboral de las familias de los estudiantes (por ejemplo, primaria, rural; secundaria, de
manufactura; terciara, de comercio y servicios). Aunque existen preguntas sobre el perfil aca-
démico de los docentes, el cuestionario no incluye otras sobre dominio de lenguas extranjeras
(véase Prueba
ENLACE Cuestionario para directivos de Educación Media Superior 2012; Prueba
ENLACE Cuestionario para profesores de Educación Media Superior 2012).
La información sobre el perfil de los estudiantes, la modalidad educativa y el tamaño de la lo-
calidad permitieron que en dos estudios sobre ganancia educativa se pudieran efectuar análisis
desagregados por esos factores (Informa Ganancia Educativa 2010-2013
MS, CENEVAL; Resul-
tados para Preparatoria
ENLACE 2009, IFIE). Dicha información es muy útil para el desarrollo de
políticas educativas inclusivas. Desgraciadamente, la organización del cuestionario no refleja la
existencia de un diseño a priori del instrumento que considere la diversidad sociodemográfica
del país.
Entre los resultados de los dos estudios aludidos es particularmente de interés el hecho de que,
aunque se analizan diferentes procesos de enseñanza-aprendizaje, no se consideran variables
relacionadas con diversidad cultural o género que en muchos sistemas de pruebas se toman en
consideración.
La validez cultural no incluye aspectos de discapacidad; sin embargo, ésta es una forma de di-
versidad poblacional. Desde esta perspectiva, cabe mencionar que, aunque la evaluación no se
enfocó a la discapacidad, los documentos analizados no consideran a la población con discapa-
cidades. Aunque el manual técnico establece que no se contempla la aplicación de
ENLACE-MS

66Las pruebas
ENLACE
para educación media superior
a estudiantes discapacitados o que no sean usuarios de lenguas diferentes del español, debe
tenerse en cuenta que la mayoría de los sistemas de evaluación abordan de una u otra manera
los retos de evaluar válidamente a las poblaciones con discapacidades.
A continuación se presenta el análisis realizado en 2009 con los resultados sobre habilidad
lectora y Matemáticas de
ENLACE-MS realizados por IFIE. A pesar de que en la sección introduc-
toria se menciona región y tamaño de localidad, tales variables no se consideran al analizar los
resultados de los alumnos, a quienes se les compara simplemente en términos de los promedios
de calificación al nivel de plantel.
¿Cuál fue el resultado de...? / Diferencia es tudiante-preparatoria
Índice: insuficiente: 50, elemental: 65, bueno: 80, excelente: 100.
Resultados ENLACE 2009
-20 0 20 40 60 80 100
Insuficiente
Elemental
Bueno
Excelente
Índice
10
37
48
5
72
6
34
47
13
76
-4.0
-3.2
-0.9
8.2
3.3
Diferencia Estudiante-
preparatoria
Estudiante
Preparatoria
-20 0 20 40 60 80 100
Insuficiente
Elemental
Bueno
Excelente
Índice
14
39
43
5
71
10
36
44
9
73
-3.2
-3.1
1.4
4.9
2.4
Diferencia Estudiante-
preparatoria
Estudiante
Preparatoria
Habilidad lectora Habilidad Matemática
En la investigación realizada en 2013 por CENEVAL se presentan los resultados sobre ganan-
cia educativa a nivel global, comparando el desempeño de la misma cohorte generacional en
tercero de secundaria (2010) y en tercero de media superior (2013). Después se reanalizan los
resultados por tipo de habilidad (lectura y Matemáticas) y por modalidad educativa, así como
por entidad federativa.
Sin embargo, los análisis sobre modalidad educativa y región no consideran la información con-
textual relevante para el subsistema indígena, a pesar de que se colecta en los cuestionarios de
contexto. Esta omisión sorprende porque el reporte muestra que la mayor ganancia educativa
se encuentra en bachilleratos técnicos agropecuarios y otros tipos de modalidades tecnológicas
y en entidades con altos porcentajes de población indígena como Chiapas. Estos estudiantes
siguen, en promedio, por debajo del promedio de alumnos provenientes de entidades con poca
presencia indígena y con mayores proporciones de población urbana.

67Atención a la diversidad cultural

DIRECCIÓN GENERAL ADJUNTA DE PROGRAMAS ESPECIALES
DIRECCIÓN DE PROGRAMAS PARA LA ADMINISTRACIÓN PÚBLICA

18

encuentran por debajo de la media del Resto de la población. Esto es importante ya que,
además de ofrecer una ganancia educativa a los alumnos, los planteles pertenecientes a
los subsistemas y tipos de bachillerato deben proporcionar herramientas para disminuir la
proporción de alumnos que se encontraba por debajo de la media al comenzar su
educación media superior.

3.1 Resultados nacionales
Las figuras 3 y 4 muestran la evolución del desempeño en Español/ comprensión Lectora
y Matemáticas, a nivel nacional, de la cohorte de alumnos que respondió la prueba
ENLACE 3° de Secundaria en el 2010 y la prueba ENLACE MS en 2013. Como se
aprecia en las gráficas, la media de las puntuaciones incrementó notablemente (línea
verde) lo que refleja una mejora general en el desempeño de los estudiantes y permite
afirmar la existencia de una ganancia educativa en las dos áreas que evalúa de la
prueba.


Figura 3. Ganancia Educativa nacional ENLACE
3° de Secundaria/Español vs. ENLACE
MS/Comprensión Lectora.

DIRECCIÓN GENERAL ADJUNTA DE PROGRAMAS ESPECIALES
DIRECCIÓN DE PROGRAMAS PARA LA ADMINISTRACIÓN PÚBLICA

19


Figura 4. Ganancia Educativa nacional ENLACE
3° de Secundaria/Matemáticas vs. ENLACE
MS/Matemáticas.





(CENEVAL 2013:18 -19)
DIRECCIÓN GENERAL ADJUNTA DE PROGRAMAS ESPECIALES
DIRECCIÓN DE PROGRAMAS PARA LA ADMINISTRACIÓN PÚBLICA

73


3.5.1 Comentarios a los resultados por subsistema
Los resultados del estudio permiten afirmar que, en general, existe ganancia educativa en los alumnos
sin importar el subsistema en el que cursaron la educación media superior.
Los resultados del estudio y de los comparativos por subsistema muestran muchas y diferentes
tendencias ya que en algunos casos las medias de desempeño son mejores en los subsistemas en
contraste con el Resto de la población; en otros, las medias de los subsistemas son menores al Resto
de la Población; y en ocasiones son iguales en el 2010 pero diferentes en 2013 y a la inversa.
Es importante destacar los resultados de los alumnos que pertenecen a los subsistemas del CEDART,
DGB, IPN y de escuelas particulares ya que son quienes presentan una media de desempeño mayor
que el Resto de la población tanto en Español/Comprensión Lectora como en Matemáticas.
Los subsistemas en donde en el 2013 se encuentra un menor porcentaje de alumnos por debajo de la
media de desempeño del Resto de la población, en contraste con el 2010 en el área de Comprensión
Lectora, son CECyTE y CEMSAD ya que porcentaje disminuye un 3.4% y 3.7% respectivamente. En el
área de Matemáticas destacan los subsistemas de DGETA, CECyTE y DGETI con una disminución de
4.2%, 5.7% y 8.5% respectivamente.
Por otra parte, los subsistemas en donde se presenta un incremento en el porcentaje de alumnos que
en 2013 se encuentran por debajo de la media de desempeño del Resto de la población en contraste
con 2010, en el área de Comprensión lectora, son los alumnos que cursaron sus estudios en las
universidades autónomas, en instituciones particulares y en el IPN con 5.1%, 5.2% y 15.3%
respectivamente. En el área de Matemáticas resaltan los resultados de los alumnos que pertenecen a
los subsistemas de CEMSAD, PREFECO, Telebachilleratos, y CEDART con 6.2%, 6.2%, 10.3% y
14.9% respectivamente.








(CENEVAL 2013:78)

DIRECCIÓN GENERAL ADJUNTA DE PROGRAMAS ESPECIALES
DIRECCIÓN DE PROGRAMAS PARA LA ADMINISTRACIÓN PÚBLICA

138


3.6.1 Comentarios a los resultados por entidad federativa
Los resultados del estudio permiten afirmar que, en general, existe ganancia educativa para los
alumnos sin importar la entidad en la que se encuentra la escuela donde cursaron sus estudios de
media superior.
Los resultados del estudio y de los comparativos por entidad muestran diferentes tendencias al observar
el crecimiento en la ganancia educativa y el comportamiento de las entidades federativas en contraste
con el porcentaje de alumnos que se encuentran por debajo de la media del Resto de la población en
las dos áreas que evalúan las pruebas.
Cabe destacar los resultados de los alumnos que cursaron la educación media superior en los estados
de Aguascalientes, Distrito Federal, Durango, Jalisco y Querétaro ya que la media de desempeño de los
alumnos es mayor al Resto de la población tanto en Español/Comprensión Lectora como en
Matemáticas. En el otro extremo se encuentran los alumnos que cursaron el nivel medio superior en las
entidades de Chiapas, Guerrero y Tabasco en donde la media del desempeño es menor que la del
Resto de la población.
En lo referente a las entidades federativas en donde en el 2013 se encuentra un menor porcentaje de
alumnos por debajo de la media de desempeño del Resto de la población, en comparación con el 2010,
destacan los estados de Baja California y Michoacán en donde el porcentaje de alumnos en
Comprensión lectora disminuye 12.9 y 15.1%, y en Matemáticas 17.4% y 22% respectivamente. En
contraste se encuentra el Distrito Federal, Tlaxcala, Quintana Roo y Aguascalientes en donde el
porcentaje de alumnos que se encuentran por debajo de la media de desempeño del Resto de la
población aumenta de 2010 a 2013 en un 6.9%, 7%, 8% y 20.9%, respectivamente en el área de
Comprensión Lectora. En este mismo caso pero para el área de Matemáticas destacan los alumnos de
las entidades de Nuevo León, Tlaxcala, Nayarit y Aguascalientes con 6.0%, 6.2%, 8.1% y 10.9% de
aumento en el porcentaje de alumnos por debajo de la media, respectivamente.
Es importante señalar el caso particular del estado de Oaxaca en donde la cantidad de alumnos que se
integró al estudio de ganancia educativa no alcanza el 1% de población entre ellas cabe destacar el
estado de Oaxaca que apenas cuenta con el 0.06 de representatividad nacional, esto debido a que en
2010 no aplicó la prueba de ENLACE 3° Secundaria (se cuenta apenas con la información de 349
alumnos). Al comparar sus resultados se observa que para el área de Comprensión Lectora, en 2010 su
(CENEVAL 2013:138)

68Las pruebas
ENLACE
para educación media superior
La investigación sobre ganancia educativa debería incluir variables de contexto más allá de las
mencionadas. Ello permitiría evaluar si los alumnos egresados de media superior que vienen
de comunidades indígenas o rurales se desempeñan mejor o peor que otros estudiantes de su
misma cohorte, lo que permitiría determinar la influencia de factores como ocupación o esco-
laridad de los padres.
3. Se hace uso de referentes teóricos y conceptuales sobre cultura y lengua y se estable-
cen procedimientos para tomar en consideración la diversidad, cultural, lingüística y
socioeconómica del estudiantado mexicano.
En la información revisada sobre
ENLACE-MS se explicitan los criterios para la selección de los
reactivos que se aplicarán en los pre-tests, pero no se hace mención al diseño de la muestra po-
blacional a la que se aplican. En consecuencia, resulta difícil saber si en el proceso de desarrollo
de la prueba se considera la diversidad lingüística y cultural de México.
Según datos del censo realizado en 2010 (
INEGI, 2010), precisamente el grupo poblacional
entre los 15 y los 20 años de edad es el más numeroso entre los hablantes de lengua indígena
a nivel nacional. En información que los documentos examinados proporcionan sobre la estruc-
tura de las pruebas y su administración, como es el caso de la nota técnica que se reproduce a
continuación, hace falta un perfil de los estudiantes a quienes se les aplican las pruebas:
Con este objetivo, a lo largo de tres años el pre-test se ha dividido en 8 formas que
presentan los reactivos necesarios para conformar pruebas operativas de hasta 220
reactivos: 50 para Comunicación (Comprensión lectora), 60 de Matemáticas, 50 para
Humanidades y Ciencias Sociales, y 60 de Ciencias Experimentales. Además, el diseño
del pre-test incluye una fracción de reactivos adicionales con la finalidad de asegurar
que todos los reactivos de la siguiente prueba Operativa tengan parámetros adecuados.
Cada forma del pre-test cuenta con entre 30 y 32 reactivos que pueden ser contestados
en una sola sesión e intercalan el orden de presentación de los campos disciplinares me-
diante una técnica de contrabalanceo (Figura 1).

Diseño de ensamble del Pre-test aplicado de 2010 a 2012

69Atención a la diversidad cultural
Diseño de ensamble del pre-test para la aplicación 2013
1
Como los reactivos utilizados en la aplicación 2010 y 2011 son diferentes a los de 2012,
una forma de colocarlos en la misma escala es aplicándolos en un mismo periodo, por
ello para la aplicación de 2013, el ensamble del pre-test fue sujeto a modificaciones.
Aunque el orden de presentación de los contenidos sigue siendo el mismo, el número
de formas de pre-test se duplicará para incluir los reactivos nuevos de Comunicación
(Comprensión lectora) y Matemáticas que servirán para conformar la prueba Operativa
de 2014, y dos conjuntos diferentes de reactivos de Humanidades y Ciencias Sociales, y
otros dos de Ciencias Experimentales.
Se contará con un total de 16 formas, 8 de ellas incluirán los reactivos de Ciencias que se
presentaron en el pre-test aplicado en 2011 mientras que las otras 8 incluirán los reacti-
vos de Ciencias que se utilizaron en 2012.
Figura 2 Diseño de ensamble del Pre-test para la aplicación 2013
La modificación del ensamble del pre-test en 2013 permitirá colocar los reactivos de
Humanidades y Ciencias Sociales y de Ciencias Experimentales en la misma escala, y adi-
cionalmente permitirá realizar estudios comparativos del desempeño de los alumnos que
contestaron los campos disciplinares de Ciencias a lo largo de los años.
1
Este ajuste en el ensamble se determinó después de conocer el dictamen del Consejo Técnico (sesión del 15 de
noviembre) en cuanto a mantener la aplicación operativa de en los dos campos disciplinares: Comunicación
(Comprensión lectora) y Matemáticas.
(Nota Técnica
ENLACE Media Superior, 2013)

70Las pruebas
ENLACE
para educación media superior
En el Manual para docentes y directivos ENLACE Media superior 2014 realizado por CENEVAL
(pág. 12) se especifica lo siguiente:
Población objetivo
La prueba está dirigida a los alumnos de la República Mexicana inscritos en los planteles
que manifiesten interés en participar y apoyar en la aplicación de la prueba. Los estudian-
tes deben cursar su último ciclo de bachillerato (cuatrimestre, semestre, año, etcétera)
en modalidad escolarizada, en los diferentes tipos de bachillerato (general, tecnológico
y bivalente). Las instituciones pueden ser tanto de sostenimiento público como privado.
Debido a sus características técnicas, la prueba no está considerada para aplicarse a
alumnos con necesidades especiales o con una lengua diferente al español.
El análisis referido en el documento correspondiente no considera tipo y grado de bilingüismo.
Como ya se mencionó, una premisa parece ser que los alumnos de este nivel educativo son
plenamente competentes en español (sin mencionar si ésta es o no su lengua materna) y que
las pruebas no requieren algún tipo de consideración de las características socioculturales de
los estudiantes. Lo anterior contrasta con la información que se recaba en el cuestionario de
contexto, tanto para alumnos como para profesores y directivos, en relación con tópicos como
condición lingüística de los hogares, tipo de ocupación, ingresos, tamaño de localidad y trayec-
toria educativa de los estudiantes.
4. Los documentos que establecen los tipos y formatos de los ítems dan lineamientos para
asegurar que la información gráfica y contextual incluida en los ítems sea familiar para
la mayoría del estudiantado y reflejen una amplia variedad de contextos culturales.
La estructura de
ENLACE-MS establece un número de reactivos por cada proceso cognitivo y su
cruce con cada tipo de habilidad, tanto para Comunicación como para Matemáticas. Sin em-
bargo, los documentos revisados (por ejemplo, C
ENEVAL, 2012) no proporcionan una tipología
de los ítems y tampoco ofrecen descripciones detalladas de su estructura.
Una causa de esta limitación parece ser la manera en la que se entiende lo que es un conjun-
to de especificaciones de ítems. Por ejemplo, en el documento de la Dirección de Programas
Específicos, Dirección de Programas para la Administración Pública de C
ENEVAL (véase archivo
electrónico,
ENLACE-MS especificaciones RIEMS.pdf), las especificaciones de los ítems se pre-
sentan en tablas como las siguientes:
Tal nivel de especificación es insuficiente, pues no se consideran las características estructurales de los ítems.

71Atención a la diversidad cultural
La comparación de las pruebas aplicadas en los distintos años escolares permitió corroborar
que, a pesar de que no existe la formalización abstracta de las estructuras y características de
los distintos tipos ítems, cada ítem de un año determinado tiene otro paralelo en la pruebas de
otros años. Dicho de otra manera, cada reactivo funciona como el templete de otro reactivo
para el año siguiente (véase, Prueba
ENLACE, 2012, 2013, 2014). Tal correspondencia permite
una constancia en la complejidad de los reactivos a lo largo del tiempo.
A pesar de tal correspondencia, y debido a la falta de un documento riguroso de especificaciones
de los reactivos, no existe el nivel de precisión suficiente para que los desarrolladores de prue-
bas puedan tener un control firme de las características textuales, gráficas y contextuales de los
ítems. Por ejemplo, no se proporcionan especificaciones sobre la manera en que los temas de los
pasajes usados como materiales de estímulo para los reactivos de Comunicación han de reflejar
una amplia variedad de contextos culturales. O cuando menos, no se encontró evidencia de un
procedimiento sistemático para muestrear las distintas temáticas de los materiales de estímulo.
Una limitación relacionada con esta problemática es que no parece haber reactivos ancla que
permitan la realización de comparaciones del desempeño de los estudiantes a lo largo de los
años. El uso de reactivos ancla es práctica estándar y debiera realizarse rutinariamente. En el
Manual Técnico
ENLACE Media Superior (CENEVAL 2014) se argumenta que no es posible usar
reactivos ancla debido a que la
SEP requiere que el contenido de la prueba se haga público
anualmente. Sin embargo, no hay razón aparente que impida que haya reactivos ancla que se
apliquen año con año y que sean excluidos del conjunto de reactivos que se hacen públicos.
Los microanálisis realizados como parte de esta evaluación (ver anexo I) no reflejan que los auto-
res de los reactivos hayan considerado la pertinencia de las temáticas de los textos utilizados para
evaluar el área de Comunicación. Los contenidos usados como pasajes son significativos (es decir,
presentan situaciones que son familiares) para estudiantes del medio urbano y, en un caso, solo
para aquellos prevenientes de clases medias altas. La misma observación se aplica a algunos de
los reactivos de Matemáticas, que no parecen reflejar la realidad de la mayoría de los estudiantes
de México ni consideran las posibles variaciones en los registros del español por región.
5. Los equipos a cargo de desarrollar ítems son multidisciplinarios; además de ex-
pertos en contenido incluyen a especialistas en el área de cultura (antropólogos,
lingüistas) y maestros de minorías culturales y lingüísticas y de escuelas rurales y
nivel socioeconómico bajo.
Aunque en algunos documentos aparecen largas listas de los participantes en el desarrollo de
las pruebas, tales listas tienen la función de dar crédito a los participantes pero no documen-
tan el proceso. Más específicamente, los documentos no proporcionan información detallada
acerca de las especialidades de los profesionales que participaron en dicho proceso, ni de su
contribución profesional o el tiempo (por ejemplo, número de horas) que le dedicaron. Tam-
poco se encontró evidencia de que en el proceso de desarrollo de la prueba hayan participado
especialistas en disciplinas como la lingüística y la antropología.
6. Las muestras de estudiantes con los que se pilotean versiones preliminares de la
prueba incluyen submuestras representativas de las minorías culturales, lingüísticas
y socioeconómicas del país.

72Las pruebas
ENLACE
para educación media superior
La revisión de la documentación disponible reveló que no hay evidencia de que las pruebas se
hayan piloteado con muestras representativas de grupos culturales, lingüísticos y socioeconó-
micos diversos. Esta limitación está relacionada con la falta de un marco muestral poblacional
adecuado que considere los principales grupos socioeconómicos, étnicos y lingüísticos del país.
En la información disponible solo se incluyen referencias generales a la modalidad educativa
y al tamaño de localidad. Como ya mencionamos anteriormente, a pesar de que en los cues-
tionarios de contexto se incluye información sobre la condición lingüística de la familia y su
perfil ocupacional, tal información no se retoma en relación con el diseño del pre-test o con
la configuración de las muestras de estudiantes. A continuación reproducimos la información
contenida en el manual técnico más reciente:
8.1 Diseño muestral
El diseño muestral que se utiliza en la aplicación de
ENLACE-MS permite contar con los
datos de un subconjunto representativo de la población que se somete a la prueba ope-
rativa, el cuestionario de contexto y, mediante un esquema matricial, al pre-test. Las con-
diciones de seguridad y la logística son responsabilidad de evaluadores con experiencia
que trabajan para la
DGEP-SEP (estándar 13.10). Los datos de la muestra se utilizan, por
un lado, para realizar los estudios relacionados con variables de contraste y, por otro, para
los análisis estadísticos necesarios en la equiparación de las pruebas de un año a otro,
definir los puntos de corte y llevar a cabo diversas investigaciones de interés para la
SEMS.
En 2011 la muestra a la que se aplicó la prueba operativa y el cuestionario de contexto
estuvo conformada por 262  087 alumnos inscritos en 2,081 escuelas seleccionadas. Para
2012, se contó con la participación de 294  116 alumnos de 2,072 planteles. Por su parte, la
muestra del pre-test de 2011 se conformó por 139  476 alumnos y la del 2012 por 136  572.
Para el diseño muestral y las posteriores interpretaciones de los resultados, es importante
considerar los niveles de desagregación en los que se trabajaron los resultados de
ENLA-
CE-MS. En la Tabla 11 se pueden observar dichos niveles, y en el Anexo C se describe con
detalle el procedimiento para calcular el tamaño de la muestra.
Manual técnico ENLACE Media Superior CENEVAL 2014: 64- 65

73Atención a la diversidad cultural
8.2 Diseño de equiparación
Desde sus inicios en 2008, la prueba
ENLACE-MS tiene contemplado el uso del método
de equiparación horizontal para colocar en las misma escala las pruebas año con año.
Este método implica realizar procedimientos empíricos para establecer una relación esta-
dística entre los puntajes de dos versiones de una prueba. Dicha relación puede utilizarse
para expresar los puntajes de una prueba en términos de los puntajes de otra, para de
esa manera, garantizar que se califica con base en la misma escala (estándar 4.13).
La equiparación requiere de un diseño de recolección de datos y de una regla para
transformar los puntajes de una versión a los puntajes de otra. En relación con el primer
aspecto, lo usual en los exámenes estandarizados es que cada aplicación operativa inclu-
ya reactivos ancla que permitan mantener las escalas mediante los procesos de equipara-
ción y calificación de los instrumentos (Downing y Haladyna, 2006). Como se ha venido
señalando, en el caso de la prueba
ENLACE-MS no es posible incluir reactivos ancla en
las versiones operativas puesto que, por cuestiones de transparencia, la
SEP solicita que
cada año se hagan públicos. Para lograr que las escalas de año con año sean equipara-
bles, se recurre a un diseño de recolección de datos que consiste en aplicar dos pruebas
en el mismo periodo: la prueba operativa y el pre-test. Ambas pruebas siguen las mismas
condiciones de diseño y construcción, es decir, que además de regirse por la metodolo-
gía del C
ENEVAL, que implica apegarse a las normas y estándares institucionales, utilizan
la misma estructura y especificaciones para la elaboración de reactivos. Lo anterior busca
garantizar que los reactivos midan lo mismo.
Debido a que en un año los alumnos que contestan las pruebas operativa y pre-test son los
mismos, es posible situar los parámetros de los reactivos de ambas pruebas en la misma mé-
trica y como los reactivos que integran el pre-test conforman la operativa del año siguiente,
ambas pruebas comparten reactivos que constituyen los insumos para colocar en una escala
común los puntajes de los alumnos que contestan las pruebas en los diferentes años.
El diseño que permite equiparar las pruebas operativas de uno y otro año mediante la
aplicación del pre-test se puede ver gráficamente en la Figura 6.
DEh>dE/KE>D/^hWZ/KZ
67
Figura 6. Esquema de aplicación para la equiparación de la prueba ›Ä½ƒ‘›ÃÝXvo.PµŒ‰µ‰Œ-
]Œ‹µvµvu]u}‰Œ]}}‰o]]vu]v]šŒo‰Œµ}‰ŒŸÀiµvš}}vo‰ŒššX
]všPŒvšouµšŒ}vššo‰Œµ}‰ŒŸÀǵvo(}Œuo‰ŒššX>GZ‹µ
ovo}µŒv]oo}]v]v‹µo}ŒŸÀ}‹µo}}v(}ŒuvµŸo]Ìv‰Œ]všPŒŒo‰Œµ
}‰ŒŸÀo]Pµ]všy}
8.2.1 Procedimiento de equiparación
3DUDUHDOL]DUODHTXLSDUDFLyQHQWUHODVYHUVLRQHVGHXQDxR\RWURHVQHFHVDULRXWLOL]DUORV
datos de la prueba operativa del año anterior, los del pretest y los de la prueba operativa del
DxRTXHVHGHVHDHTXLSDUDU/DHTXLSDUDFLyQVHUHDOL]DSDUDFDGDXQDGHODViUHDVTXHHYDO~D
ODSUXHEDHVGHFLUVHHTXLSDUDHOiUHDGH&RPXQLFDFLyQ&RPSUHQVLyQ/HFWRUD\OXHJRGH
IRUPDVHSDUDGDVHKDFHODHTXLSDUDFLyQGHOiUHDGH0DWHPiWLFDV
3UHYLRDOSURFHGLPLHQWRGHHTXLSDUDFLyQVHGHSXUDQODVEDVHVGHGDWRV\VHUHDOL]DOD
FDOLEUDFLyQOLEUHGHORVUHDFWLYRV6HHVWLPDQORVHVWDGtVWLFRVGHORVUHDFWLYRVDÀQGHLGHQWLÀFDU
DTXHOORVFRQFDUDFWHUtVWLFDVSVLFRPpWULFDVLQDGHFXDGDVFRUUHODFLyQSXQWRELVHULDOQHJDWLYD\
GLÀFXOWDG
triPD\RUTXHDGHPiVVHUHYLVDQXHYDPHQWHHOFRQWHQLGRVREUHWRGRHOGH
DTXHOORVTXHSUHVHQWDQFRUUHODFLyQSXQWRELVHULDOPHQRUTXH/RVUHDFWLYRVTXHSUHVHQWDQ
SUREOHPDVVHGHMDQIXHUDGHOSURFHVRGHHTXLSDUDFLyQ\GHFDOLÀFDFLyQ
Es importante señalar que existen reactivos del pretest que después de la revisión
FXDQWLFXDOLWDWLYDVXIUHQPRGLÀFDFLRQHVSRUORFXDOVRQGLIHUHQWHVDORVTXHVHLQFOX\HQHQOD
SUXHEDRSHUDWLYD(VWRVUHDFWLYRVTXHFDPELDQHQWUHXQDDSOLFDFLyQ\RWUDVHLGHQWLÀFDQSDUD
GHMDUORVOLEUHVHQHOSURFHVRGHHTXLSDUDFLyQ
8QDYH]LGHQWLÀFDGRVORVUHDFWLYRVTXHVHXWLOL]DUiQHQHOSURFHVRVHOOHYDQDFDERODV
VLJXLHQWHVGRVIDVHVSDUDFRORFDUORVUHDFWLYRVGHXQDxR\RWURHQODPLVPDHVFDOD
Manual técnico ENLACE Media Superior CENEVAL 2014: 66-67

74Las pruebas
ENLACE
para educación media superior
Debe decirse, sin embargo, que el Manual para Docentes y Directivos (CENEVAL, 2014), estable-
ce claramente que “(d)ebido a sus características técnicas, la prueba no está considerada para
aplicarse a alumnos con necesidades especiales o con una lengua diferente al español.” (pág.
12). Aunque establece una forma de discernir a qué estudiantes no se les debe aplicar la prueba,
tal aseveración requiere de una mayor elaboración.
7. El desarrollo de la prueba incluye entrevistas cognitivo-culturales para investigar si
estudiantes de diversos grupos culturales, lingüísticos y socioeconómicos interpretan
de igual manera el contenido de muestras representativas de los ítems de la prueba.
No se encontró evidencia de que se efectúen sistemáticamente entrevistas cognitivas con el
propósito de aportar evidencia de validez cognitiva. Debe anotarse aquí que el uso de entrevis-
tas cognitivas como forma de validación, existe como práctica en el desarrollo de pruebas desde
hace más de dos décadas. La información recabada es parte de la evidencia de validez de una
prueba que no necesariamente tienen que ver con cultura.
Mucho menos se encontró evidencia de que se efectúen entrevistas cognitivo-culturales que
examinen la manera en que las interpretaciones de los estudiantes de los reactivos están influi-
das por factores lingüísticos y culturales. La importancia de las entrevistas cognitivo-culturales
no se debe subestimar. Cada vez existe más evidencia de que los procedimientos tradicionales
de validación no son sensibles a los aspectos lingüísticos y culturales que influyen en la forma
en que los estudiantes pueden interpretar los ítems de una prueba.
8. Existe un proceso de revisión con jueces que considera fuentes de sesgo cultural,
lingüístico y socioeconómico en muestras representativas de los ítems de la prueba.
La documentación revisada no proporciona información detallada del proceso de desarrollo y
revisión de los ítems. Por ejemplo, no se presenta información sobre los procesos que los revi-
sores siguen para codificar o evaluar las características de los ítems.
Tampoco se encontró documentación de un procedimiento sistemático en el desarrollo de prue-
bas que especifique información como el procedimiento de revisión o el número de iteraciones
de revisión. La mayoría de los sistemas de pruebas en el mundo tienen documentos que norman
tales actividades.
Tampoco se identificó evidencia de que se consideren distintos tipos de revisión de aspectos
tales como contenido, estilo, cuestiones lingüísticas o posibles fuentes de sesgo cultural. No
se argumenta aquí que tales actividades no se efectúen, lo que se señala es que no hay do-
cumentación de que se efectúan sistemáticamente, de acuerdo con procedimientos formales
establecidos. La información concerniente a los procesos de revisión de ítems se menciona
superficialmente en los diversos documentos disponibles, pero no de manera integrada en un
solo documento.

75Atención a la diversidad cultural
9. Se efectúa análisis DIF de una muestra representativa de ítems para diversos grupos
focales: estudiantes de distintos grupos indígenas y zonas geográficas, de nivel so-
cioeconómico bajo y de zonas rurales.
No se encontró alguna indicación de que se hayan efectuado los análisis apropiados para exa-
minar el funcionamiento diferencial de los ítems en distintos grupos poblacionales definidos por
factores étnicos, culturales, socioeconómicos o de género.
Los estudios técnicos comisionados se ocupan principalmente de equiparamiento. Esta limi-
tación es importante. El análisis de sesgo es una pieza importante en la calidad del desarrollo
de pruebas a gran escala. Como se dijo anteriormente, es necesario pero no suficiente como
actividad relevante a la validez cultural; sin embargo es indispensable en cualquier sistema de
pruebas. Estos estudios se conducen de manera rutinaria en cualquier sistema de evaluación.
Cabe mencionar que con frecuencia, la cantidad de ítems de una prueba hace imposible realizar
estudios de sesgo (por ejemplo, basados en el análisis
DIF) con todos los ítems de una prueba.
Sin embargo, se acostumbra examinar muestras de ítems (por ejemplo, por área o subárea de
contenido) y de poblaciones (por ejemplo, por tipo de etnicidad). Este tipo de trabajo sistemáti-
co de análisis de sesgo no se refleja en los documentos examinados.
Con base en los microanálisis realizados, resulta evidente la importancia de considerar en el
futuro análisis de sesgo que incluyan no solo factores culturales y de diversidad lingüística, sino
también factores regionales y socioeconómicos.
10. Se efectúan análisis de generalizabilidad para determinar la solidez de las genera-
lizaciones de calificaciones obtenidas con el mismo conjunto de ítems para dis-
tintos grupos de estudiantes definidos por grupo étnico y lingüístico, localidad y
nivel socioeconómico.
No se encontró evidencia alguna de que se hayan efectuado estudios de generalizabilidad
para examinar confiabilidad y validez con respecto a lengua, o para comparar la generalizabi-
lidad de las medidas de desempeño académico entre distintos grupos culturales, lingüísticos
y socioeconómicos.
Los sistemas evaluativos no efectúan estudios de generalizabilidad como parte de sus pro-
cedimientos rutinarios. Sin embargo, la importancia de tales estudios para un país con alta
diversidad lingüística y cultural como México radica en el hecho de que permiten identificar la
proporción de error de medida que puede atribuirse a facetas (factores) asociados a esa diver-
sidad. Realizar tales estudios permitiría determinar cómo la magnitud de ese error de medida
puede minimizarse mediante el ajuste de los tamaños de las muestras de los distintos tipos de
ítems incluidos en las pruebas.

76Las pruebas
ENLACE
para educación media superior
11. Los tiempos y calendarios para realizar las actividades que tienen como objetivo to-
mar en consideración la diversidad cultural, lingüística y socioeconómica son razona-
bles y factibles.
No se encontró evidencia en los manuales técnicos ni en el manual para profesores y directivos
de que se prevea la necesidad de ajustar tiempos o calendarios de aplicación de las pruebas en
función de la geografía o las condiciones climáticas de las diferentes regiones del país. Tal omi-
sión puede afectar el cumplimiento puntual de ciertas actividades para estudiantes minoritarios
o que viven en zonas rurales o remotas.
Debido a sus características técnicas, la prueba no está considerada para aplicarse a alumnos con necesidades especiales o con una lengua diferente al español. Manual para
docentes y directivos
ENLACE-MS 2014, CENEVAL: 12
En el estudio sobre ganancia educativa 2010-2013 (C
ENEVAL 2013), mencionado anteriormente,
se menciona que no se incluye información sobre el estado de Oaxaca. Sin embargo, el estudio
no aclara las razones por las que no se aplicaron las pruebas en dicha entidad, que concentra al
23% de los hablantes de lengua indígena de México según datos del
INEGI (2010).
Es importante señalar el caso particular del estado de Oaxaca en donde la cantidad de alumnos que se integró al estudio de ganancia educativa no alcanza 1% de población;
cabe destacar el estado apenas cuenta con el 0.06 de representatividad nacional, esto
debido a que en 2010 no aplicó la prueba de
ENLACE 3° Secundaria (se cuenta apenas
con la información de 349 alumnos). Al comparar sus resultados se observa que para el
área de Comprensión lectora, en 2010 su media se ubicó por encima de la media del
resto de la población, y en 2013 se ubicó por debajo. Esta tendencia provocó que la
proporción de alumnos por debajo de la media del resto de la población aumentara en
4 puntos porcentuales.
Informe Ganancia Educativa 2010-2013 CENEVAL: 138 -139.
12. El desarrollo de las pruebas incluye mecanismos de corrección y mejora con base en
la información obtenida con la validación cognitivo-cultural, la revisión, los análisis
de sesgo y los estudios de generalizabilidad.
La documentación revisada no reveló que exista un procedimiento para detectar y corregir fallas
en los instrumentos, tales como la eliminación de ítems con sesgo. Ninguno de los documentos
disponibles o los reportes de las investigaciones realizadas considera estrategias y mecanismos
de corrección de sesgo por factores como el género, la edad, los antecedentes escolares, la
condición lingüística del hogar o el perfil laboral del estudiante y su familia. Tal omisión resalta
debido a que los cuestionarios de contexto recaban información sobre tales factores.

77Atención a la diversidad cultural
En los documentos analizados tampoco se menciona algún tipo de mecanismo de corrección
de sesgo que considere la modalidad educativa o la región o el tamaño de la localidad en que
se ubica un plantel determinado en el que se apliquen las pruebas.
Como lo muestra el microanálisis de los reactivos seleccionados aleatoriamente, se identificaron
diversas fuentes potenciales de sesgo lingüístico y cultural en esos reactivos. Esas fuentes de
sesgo podrían identificarse y corregirse con un mecanismo formal de revisión y de corrección
de sesgo potencial.
Cabe mencionar que, aunque hay algunos reactivos de matemáticas en los que el microanálisis
no reveló la existencia de características lingüísticas que indebidamente pongan en desventaja
a grupos minoritarios, esos son reactivos con poco texto y reactivos que evalúan niveles de
conocimiento declarativo básico.

78
4 Aspectos relativos
a las aplicaciones
Como se ha reiterado a lo largo del informe, la validez de toda evaluación estandarizada
de la educación y particularmente, la de sus resultados, está estrechamente vinculada con la
calidad de la aplicación de los instrumentos, sus procesos previos y posteriores.
Las aplicaciones censales con control a cargo del personal de la escuela y reporte individual de
resultados, como
ENLACE-MS, conllevan importantes retos para los líderes del proyecto, prin-
cipalmente relacionados con lograr la mayor uniformidad posible en la implementación de los
estándares previstos, tanto para el pre-test como para la prueba operativa.
Aunque
ENLACE-MS haya sido concebida como de bajo impacto, el diagnóstico que brinda al
estudiante en términos de sus fortalezas y debilidades en el desarrollo de competencias discipli-
nares básicas reviste de gran relevancia. Igualmente, la posibilidad de retroalimentar a maestros,
planteles educativos y padres de familia y proporcionar elementos que contribuyan a la mejora
del sistema educativo mexicano, depende en gran medida de la calidad de la aplicación.
En este capítulo se desarrollan los mismos grupos de criterios con los que se analizaron
ENLACE
y E
XCALE, ya que se consideran factores críticos para el éxito de todo proyecto de evaluación.
Los grupos de criterios que se trabajarán son:
Antes de la aplicación
• Selección de la muestra
• Planeación de las aplicaciones
• Selección y capacitación del personal de aplicación
Durante la aplicación
• Minimización de carga, motivación, no respuesta y fraude
• Procedimientos para el control de calidad de las aplicaciones
Después de la aplicación
• Preparación del procesamiento de datos
• Procesamiento y verificación de datos
• Notificación de irregularidades
Para la valoración de los criterios, se utilizó información de diferente naturaleza. En primer
lugar se revisaron los documentos electrónicos proporcionados por la Dirección General de
Evaluación de Políticas (
DGEP) al Instituto Nacional para la Evaluación de la Educación (INEE);
también se revisaron los documentos disponibles en la página web de
ENLACE-MS (http://
www.enlace.sep.gob.mx/ms/). Posteriormente se condujo una entrevista a profundidad en una
entidad federativa sobre el proceso de aplicaciones. Esta entrevista proporcionó información y
documentación valiosa para complementar la valoración de los criterios, también fue un insumo
importante para el diseño de un cuestionario en línea dirigido a los responsables de las Áreas

79Aspectos relativos a las aplicaciones
Estatales de Evaluación de todas las entidades federativas. El cuestionario en línea fue respon-
dido en 25 entidades federativas,1 por un total de 31 informantes.2 La información recuperada
se incorporó también en la valoración de los criterios.
Finalmente, es importante mencionar que después de un primer análisis de la información dis-
ponible para cada uno de los criterios, se hizo una solicitud adicional de información a la
DGEP,
que proporcionó documentación adicional y respuestas específicas a las solicitudes planteadas
(
DGEP, 2014b).
CRITERIOS DE VALIDEZ ANTES DE LA APLICACIÓN
Selección de muestra
1. Se cuenta con un listado de escuelas actualizado y confiable, sea para una aplicación
censal o como marco muestral.
El Coordinador Operativo (Titular del Área Estatal de Evaluación (
AEE) responsable de diseñar la
Estrategia de Aplicación en su respectiva jurisdicción) tiene a su cargo la remisión de las bases
de datos a la
DGEP, por ello, la confiabilidad del listado de escuelas dependerá de la precisión
de la información que cada Estado provea y de los procesos de validación de la base de datos
de cada Área Estatal de Evaluación y de la
DGEP.
Es importante mencionar que la conformación de esta base de datos es un desafío importante
para cada una de las entidades federativas, pues no existe una base de datos nacional que in-
tegre la información de los estudiantes de todos los subsistemas y que se actualice de manera
regular, considerando la dinámica propia de los estudiantes de este nivel educativo (en particu-
lar movilidad y deserción).
Esta circunstancia implica que para cada aplicación, las
AEE solicitan a cada subsistema la infor-
mación de los futuros sustentantes, para después integrar una sola base de datos y remitirla a la
DGEP. Aunque después la base de datos es revisada por la propia DGEP y las observaciones son
atendidas por las entidades3 y sus subsistemas correspondientes, al momento de la aplicación se
presentan imprevistos relacionados con la deserción de alumnos o su movilidad entre escuelas.
Un indicador que puede ayudar a emitir un juicio sobre la precisión y actualización de las bases
de datos son la incidencias o irregularidades ocurridas al momento de la aplicación, tales como
errores en el nombre de los alumnos, la Clave Única de Registro de Población (
CURP), la insti-
tución y municipio en que se encuentra, alumnos no registrados, entre otros. Esta información
1
El listado de entidades federativas que dieron respuesta al cuestionario se encuentra en el Anexo 4.1.
2
En algunas entidades más de un informante respondió el cuestionario.
3
El proceso de validación que hace la DGEP incluye contrastar la base de datos recibida por las entidades federativas con
respecto a la base de datos del formato 911; a través de este proceso se identifican, por ejemplo, instituciones edu-
cativas que no hay reportado alumnos en el grado a evaluar; esto puede deberse, según la entrevista a profundidad
realizada en una entidad federativa, a escuelas que hayan dejado de ofertar servicios educativos, o grupos que no se
hayan abierto.

80Las pruebas
ENLACE
para educación media superior
puede recabarse en las actas de entrega, recepción e irregularidades. Aunque no se tuvo infor-
mación a nivel nacional sobre las irregularidades que se presentaron, en el Estado de México se
encontró que, en la aplicación censal de 2014, 380 escuelas de 1  197 reportaron incidencias,
de las cuales las siguientes pueden estar relacionadas con la precisión y actualización de las ba-
ses de datos: ocho escuelas reportaron nombre incorrecto de alumnos; cinco, error en nombre
la institución o municipio; cinco escuelas reportaron
CURP incorrecto de los alumnos; cuatro,
nombre incompleto; cuatro reportaron alumnos no registrados en la lista (
IEEEM, 2014b).
A diferencia de
ENLACE-B, en ENLACE-MS, de acuerdo con la información provista en http://
enlace.sep.gob.mx/ms/aplicacion/, no se aprecian cambios en las tendencias en el censo de
escuelas y estudiantes a lo largo de siete aplicaciones, a partir de lo cual se comprueba que el
comportamiento de la población sujeto de esta evaluación es bastante predecible y por ello las
previsiones que pueden hacerse acerca de la aplicación son más confiables. Dada la escala de la
aplicación, no se anticipan inconvenientes mayores para conformar un censo o marco muestral
técnicamente válido para la aplicación de
ENLACE-MS.
2. Cuando proceda, las muestras se diseñarán utilizando diseños sólidos; los estratos
se definirán con base en argumentos teóricos defendibles.
ENLACE-MS contempla dos aplicaciones que se llevan a cabo simultáneamente, una censal y
otra con una muestra controlada. La primera es llamada versión operativa y la segunda pre-test
o de investigación. La versión operativa ha sido aplicada desde 2008 a todos los estudiantes
que cursan el último grado de educación media superior en “instituciones educativas de carác-
ter público, federal y estatal, en los planteles particulares con reconocimiento de validez oficial
otorgado por la
SEP o por las entidades federativas, en instituciones de carácter autónomo que
lo soliciten y en escuelas particulares incorporadas” (C
ENEVAL, 2013, pág. 61). Por ser ésta una
aplicación censal no cuenta con un diseño muestral.
El pre-test es aplicado a una muestra representativa de la población (C
ENEVAL, 2013, pág. 61).
En el Manual Técnico de las aplicaciones 2011 y 2012 se señala que la muestra pretende atender
estos propósitos: a) aplicar la prueba operativa con un control riguroso, de manera que se ob-
tenga información confiable sobre los valores psicométricos de los reactivos que se usarán para
calificación (C
ENEVAL, 2013, pág. 102); b) realizar la equiparación con la prueba operativa, y así
mantener los puntajes de los alumnos en la misma escala año con año; c) aplicar cuestionarios
de contexto para obtener información sobre las características de los alumnos4; y d) realizar
estudios experimentales (C
ENEVAL, 2013, pág. 101).
De acuerdo con lo anterior, en esta muestra, además de aplicarse la versión operativa, los sus-
tentantes responden un cuadernillo con reactivos a ser incluidos en el año siguiente, un cues-
tionario de contexto, y pruebas experimentales. El cuadernillo es aplicado de manera matricial,
para que los alumnos respondan solo una parte de los reactivos. La cantidad de reactivos y
formas ensambladas es uno de los insumos para el cálculo del tamaño de la muestra.
4
Dentro de estas características se encuentra: edad, situación laboral, hábitos de estudio, contexto socioeconómico,
escolaridad de los padres (C
ENEVAL, 2013, p. 101).

81Aspectos relativos a las aplicaciones
Los dominios de la muestra controlada, desde 2010 son: nacional; nacional por modalidad
de los Centros de Trabajo (bachillerato general; bachillerato técnico; bachillerato tecnológico);
nacional por sostenimiento; y, nacional por nivel de urbanidad. En las aplicaciones de 2008 y
2009, se contemplaban dominios adicionales a nivel estatal,5 sin embargo fueron suprimidos
en las aplicaciones posteriores, debido a la dificultad para conformar muestras representativas
y por lo tanto de contar con información confiable (C
ENEVAL, 2012, 2013). Se considera que
la revisión y modificación de los dominios muestrales fue una decisión acertada, ya que en la
estratificación incluye a las entidades, y por lo tanto toma en cuenta la distribución de los alum-
nos de acuerdo con la modalidad de bachillerato, el tipo de sostenimiento y nivel de urbanidad,
en cada entidad federativa, pero se mantienen solo los dominios, sobre los cuales se pueden
realizar inferencias generalizables de manera confiable.
En los Manuales Técnicos (2008-2010 y 2011-2012) se señala que el muestreo de las aplicacio-
nes fue aleatorio simple estratificado unietápico. Las fórmulas utilizadas para el tamaño de la
muestra determinaron la cantidad de alumnos necesarios para la estimación de todos los reac-
tivos de la prueba (este cálculo estuvo precedido por la cantidad de alumnos necesarios para la
estimación de cada reactivo de la prueba, considerando un error máximo de muestreo de 5%,
un nivel de confianza de 95% y una tasa de no respuesta de 5%). Posteriormente la muestra
de alumnos se distribuyó entre los diferentes estratos de manera proporcional a la cantidad de
alumnos por cada estrato, el total de alumnos en cada modalidad de bachillerato y el total de
alumnos en cada entidad. Finalmente, se hizo una selección de escuelas de forma proporcional
a la cantidad de alumnos, de tal manera que las escuelas con mayor matrícula tienen más pro-
babilidad de ser seleccionadas.
La descripción anterior deja ver que en este diseño se seleccionan dos tipos de unidades: es-
cuelas (macro) y alumnos (micro). Sin embargo solo se determina el tamaño muestral de los
alumnos; el de las escuelas, depende de la distribución de los alumnos en cada estrato y del
tamaño de la matrícula. Este procedimiento no corresponde a un muestreo aleatorio simple,
y no considera “la naturaleza anidada de las unidades en la población” (Gaviria Soto y Castro
Morera, 2005, pág. 79), es decir, la distribución de unidades micro dentro de las macro. Esto
parece requerir que la fórmula para calcular el tamaño de la muestra incluya algún ajuste para
respetar la selección por conglomerados que se ha efectuado, lo que además, incrementará el
tamaño de muestra de las unidades micro y las macro.
Es importante también que se aclaren algunas imprecisiones sobre el diseño muestral. De acuer-
do con la información descrita en el Manual Técnico 2011-2012 (C
ENEVAL, 2013, pág. 63), se
entiende que todos los alumnos seleccionados en la muestra responderán tres instrumentos: a)
la prueba operativa de
ENLACE-MS; b) La Forma n del pre-test; y c) un cuestionario de contexto
(ver Figura 5). Esta comprensión coincide con las fórmulas que se describen en el Anexo C del
mismo manual, pues el tamaño de la muestra depende de la cantidad de reactivos que tenga la
versión pre-test, el número de cuadernillos o formas en las que se encuentren ensamblados, y
el número de apariciones en los cuadernillos (C
ENEVAL, 2013, págs. 105–106). De hecho, en la
Tabla C1 del mismo anexo se presenta la muestra de escuelas y alumnos resultante para las apli-
caciones 2011 y 2012 (2 081 y 2 072 escuelas; 262 087 y 294 116 alumnos, respectivamente).
Sin embargo, en el octavo apartado del Manual Técnico se mencionan dos muestras: una para
la aplicación de la prueba operativa y cuestionario de contexto, y otra para el pre-test:
5
Estatal; estatal por modalidad de los Centros de Trabajo; estatal por tipo de sostenimiento; estatal por nivel de urbanidad.

82Las pruebas
ENLACE
para educación media superior
“En 2011 la muestra a la que se aplicó la prueba operativa y el cuestionario de contexto
estuvo conformada por 262,087 alumnos inscritos en 2,081 escuelas seleccionadas. Para
2012, se contó con la participación de 294,116 alumnos de 2,072 planteles. Por su par-
te, la muestra del pre-test de 2011 se conformó por 139,476 alumnos y la del 2012 por
136,572.” (C
ENEVAL, 2013, pág. 65).
El tamaño de muestra de la prueba operativa señalado en la cita es justamente el que se des-
cribe en el Anexo, derivado de la aplicación de las fórmulas en las que se incluye información
sobre los reactivos y cuadernillos de la versión pre-test. Por otro lado, el tamaño de muestra del
pre-test señalado en la cita no se explica en ninguno de los documentos.
3. Se cuida que el conjunto de sujetos a los que se aplica la prueba coincida con el que
se planificó.
De acuerdo con los manuales para los diversos roles de la aplicación, “las hojas de respuestas
están diseñadas ex profeso e impresas con los datos generales de la escuela y personalizadas
con los nombres de los alumnos” con lo cual se asegura el cumplimiento de la normativa pre-
vista durante la operación de campo.
De otra parte, en el Formato para el Control de la Aplicación en el Aula, los aplicadores registran
la asistencia de cada alumno en cada sesión, de manera que se cuenta con información suficien-
te para verificar que los evaluados coinciden con la población objetivo del proyecto.
Adicionalmente, en las condiciones de aplicación se explicita que “Solo los alumnos sustentan-
tes, el Aplicador y un Padre de familia supervisor podrán permanecer en el aula, y nadie deberá
salir de ésta durante la aplicación” con lo cual se coadyuva el esfuerzo de cumplir con el este
criterio de validez.
Cabe señalar que si durante la aplicación se presentan alumnos que no fueron incluidos en las
listas de registro de sustentantes, se hace una anotación en el acta de irregularidades, pero
estos alumnos no presentan la prueba. Se considera que esta condición también contribuye a
cumplir con este criterio de validez.
ttEn aplicaciones muestrales el manual precisa los pasos para seleccionar la muestra, si se ma-
nejarán aulas intactas o submuestras de alumnos en cada aula; la forma de manejar escuelas
de reemplazo si las hay y los porcentajes aceptables de exclusiones y no respuesta.
Para el caso de la aplicación en las escuelas seleccionadas para la muestra controlada por la
DGEP, el respectivo asesor comisionado por dicha entidad será el responsable de la organización
y coordinación de dicha aplicación, aunque las
AEE están a cargo de notificar a las escuelas
seleccionadas que formarán parte de dicha aplicación.
Dentro de la documentación provista se encontraron las previsiones de orden general acerca del
muestreo. No se precisa cómo se lleva a cabo la aplicación en cada plantel, aunque se infiere
que en cada escuela seleccionada se hace una aplicación a aulas intactas. No se da información
sobre escuelas de reemplazo y porcentajes aceptables de exclusiones y no respuesta.

83Aspectos relativos a las aplicaciones
ttEn aplicaciones censales el manual precisa el porcentaje admisible de faltantes y qué se hace
en ese caso.
La participación de las instituciones educativas y de los alumnos es voluntaria, por ello no se
establece un porcentaje admisible de faltantes con respecto a ambos tipos de unidades.
No obstante lo anterior, cuando la cantidad de alumnos que presentan la prueba es inferior a
80% de los programados, en los reportes de los resultados de la escuela (cartel) se incluye la
siguiente nota: “En esta escuela la diferencia entre los alumnos programados a evaluar y los
alumnos que presentaron la prueba es mayor al 20 por ciento”.
Aunque se añade una anotación al respecto en los reportes por escuela, no son claras las impli-
caciones para el análisis e interpretación de resultados. Sería conveniente que estas implicaciones
se hicieran explícitas, y que se promovieran análisis adicionales sobre las características de los
alumnos sustentantes y las razones por las que no presentaron la prueba el resto de los alumnos.
4. Se verifica que la muestra obtenida concuerde con la planificada dentro de márgenes
aceptables.
En los manuales no se encontró información sobre los márgenes aceptables de muestra obteni-
da con respecto a la planificada. Los márgenes previstos al igual que los reemplazos de escuelas
en la muestra deben especificarse.
ttSe documentan en detalle los pasos para la selección de la muestra.
Los pasos para la selección de la muestra están indicados en los Manuales Técnicos (C
ENEVAL,
2012, 2013).
El procedimiento de selección de las escuelas de la muestra solo se precisa en el Manual Téc-
nico 2011-2012. Como se señaló en el criterio 2, es necesario aclarar el origen de los tamaños
de muestra diferentes para la prueba operativa controlada y el pre-test que se enuncian a lo
largo del documento, también es necesario revisar el diseño muestral aplicado, pues dado que
primero se seleccionan escuelas y posteriormente alumnos, parece más conveniente utilizar un
diseño por conglomerados que considere la naturaleza anidada de estas unidades. Es necesario
proveer información adicional sobre la distribución de la muestra en los estratos y dominios.
En el Manual Técnico 2008-2010 se describe solo el cálculo del tamaño de la muestra de alum-
nos, y la fórmula empleada para distribuir a los alumnos en los diferentes estratos (C
ENEVAL,
2012, págs. 106–108). También se da información sobre la cantidad de escuelas y alumnos
seleccionados para la aplicación muestral (C
ENEVAL, 2012, pág. 110), pero no se señala cómo
fueron seleccionadas las escuelas y alumnos, tampoco cómo se distribuyeron finalmente entre
los estratos y dominios.
ttHay una verificación de la muestra por una instancia externa.
Los responsables del diseño de las muestras y la selección de las escuelas de las diferentes apli-
caciones han variado, como se ve en la siguiente tabla; sin embargo, solo se alude a un proceso

84Las pruebas
ENLACE
para educación media superior
de validación del diseño muestral en la aplicación del 2009, en la que el INEE validó la selección
de las escuelas hecha por el C
ENEVAL.
Aunque por parte de la
SEP se pide a quien diseña la muestra que asegure su calidad (DGEP,
2014b), convendría que de manera sistemática se contemplara la validación del diseño muestral
y la selección de las diferentes unidades (micro y macro unidades) por una instancia distinta a
quien se responsabilice por el diseño.
Cuadro 4.1
Año de
aplicación
Responsable de diseño muestral
Responsable
de validación
2008 INEE No se precisa
2009
Se utilizó el mismo diseño muestral de 2008,
pero C
ENEVAL hizo la selección de escuelas.
INEE
2010
Investigaciones Sociales, Políticas y de Opinión Pública,
S.A. de C.V. (INVESPOP).
No se precisa
2011
Se utilizó el mismo diseño muestral que en 2010.
DGEP-SEP estuvo a cargo de la selección de escuelas.
No se precisa
2012
Se utilizó el mismo diseño muestral que en 2010.
INVESPOP verificó pertinencia del diseño y seleccionó la muestra.
No se precisa
ttHay encuesta o sistema de aseguramiento de la calidad de la muestra.
En los documentos entregados no se encontró información específica sobre el aseguramiento
de la calidad de la muestra.
Se identificaron algunos procedimientos relacionados con este subcriterio en el “Manual para
el Coordinador de la Aplicación”, la “Guía para el Aplicador”, y el “Manual para el Coordinador
Regional”. En específico, se pide que el aplicador verifique que se entrega la cantidad de mate-
riales (exámenes y hojas de respuesta) destinada al grupo que atenderán, además de registrar
la asistencia de los alumnos a cada una de las sesiones en el Formato para el Control de la
Aplicación en Aula. Se pide también que completen los datos solicitados en el Formato para el
Control de la Aplicación en el Aula, y los cotejen con los materiales entregados a cada alumno.
Planeación de las aplicaciones
5. Se planifica todo lo necesario para estandarizar la aplicación, con formas y materiales
que aseguren comparabilidad de los datos.
ttHay manuales de aplicación, probados en campo, que precisen las actividades a desarrollar
por cada participante; se describen las variaciones aceptables.
Hay manuales impresos para cada participante, cuya estructura y contenido incorporan prácti-
cas generalmente aceptadas para este tipo de aplicaciones. Los roles están claramente delimi-
tados e incluyen previsiones apropiadas para cada caso.

85Aspectos relativos a las aplicaciones
ttHay un cronograma detallado de todos los pasos del proceso.
La línea de tiempo en la que transcurre el proyecto se presenta de manera general en la docu-
mentación provista, lo cual es suficiente para los actores principales del proceso. No obstante,
para poder retroalimentar internamente el proceso de planeación de las aplicaciones, conven-
dría disponer de información más detallada.
Es importante mencionar que en el cuestionario en línea se preguntó a los responsables de las
AEE sobre la precisión del cronograma de actividades, la gran mayoría de los informantes (29
de 31, de 25 entidades federativas) afirmaron que el cronograma detalló con precisión todos
los pasos del proceso a seguir. El resto de los informantes señaló desconocer el programa de
actividades.
ttSe identifica a personal de las escuelas que tendrán que ver con la aplicación (directores,
maestros) para contar con su cooperación.
A diferencia de
ENLACE-B, en ENLACE-MS, se contrata personal externo para coordinar la apli-
cación en cada una de las escuelas (coordinadores de aplicación) y aplicadores para cada grupo.
Los coordinadores de aplicación son seleccionados por el coordinador operativo, en el caso de
la aplicación censal, o por el asesor de la
DGEP, para la muestra controlada.
Los directores de cada uno de los planteles son considerados como “corresponsables de que
la aplicación se apegue a la normatividad” (
SEP, 2014, pág. 3). Los directores son notificados
con antelación, por el coordinador operativo, conjuntamente con los enlaces colaborativos y
coordinadores regionales y coordinadores de aplicación para asegurar su disponibilidad. Adi-
cionalmente, el respectivo asesor de la
DGEP responde por la selección de los coordinadores de
aplicación para la muestra controlada externamente.
En el Manual para Docentes y Directivos de la aplicación 2014 se señala que “[l]a logística de
distribución y aplicación de la prueba está a cargo de la
DGEP-SEP” (pág. 29), y se especifica
que para la aplicación 2014 se recurriría de manera excepcional a directores y docentes “para
repartir los materiales de aplicación y recolectar hojas de respuesta” (pág. 29), pero esta fun-
ción de los docentes y directores no se menciona en otros manuales (C
ENEVAL, 2014).
6
Las funciones de cada rol en la aplicación se especifican en los respectivos manuales, que están
disponibles en formato impreso y para descarga de la página de la
SEP.
Para valorar el cumplimiento de este criterio, sería conveniente contar con el reporte de las
escuelas que no fueron notificadas sobre la aplicación. Aunque no se proporcionó un reporte
nacional donde se clasifiquen las incidencias, se encontró que el seguimiento diseñado por
Estado de México a 81 planteles que participaron en la aplicación 2014 (de un total de 1 376),
solo cuatro planteles afirmaron no haber sido notificados oportunamente sobre la aplicación.
7

6
A través del cuestionario en línea se encontró que la mayoría de las entidades que lo respondieron no recurrieron a los
directores para realizar estas funciones, y solo en tres casos los docentes participaron en la repartición de materiales y
recolección de hojas de respuesta.
7
La muestra seleccionada por la entidad para hacer el monitoreo de la aplicación, incluyó planteles educativos fede-
rales, estatales y autónomos, de sostenimiento público y privado, de los diferentes subsistemas y modalidades de
educación media superior. Se visitaron planteles de 26 municipios (de un total de 125), y el mayor número de escuelas
se encontró en el municipio de Toluca.

86Las pruebas
ENLACE
para educación media superior
En el reporte de incidencias de otras entidades, se advierte que la falta de notificación no es un
fenómeno extendido, por ejemplo, en Quintana Roo nueve escuelas, de un total de 151 que
participaron la aplicación no fueron notificadas; en Oaxaca y Chihuahua solo una escuela no fue
notificada, de un total de 663 y 333 escuelas, respectivamente.
ttSe fijan requisitos de confidencialidad-seguridad de material y respuestas.
De acuerdo con el Protocolo de Seguridad de los Materiales de Evaluación provisto, “El Coor -
dinador de Aplicación será el responsable de trasladar a la escuela asignada la(s) caja(s) con los
materiales de aplicación cerradas y selladas con su etiqueta de seguridad.”
Igualmente, se vincula de manera activa a los padres de familia como supervisores, a efectos
de validar que todos los alumnos presenten las pruebas en las mismas condiciones. Adicional-
mente, los observadores externos verifican el cumplimiento de las normas durante la aplicación.
Con lo anterior se cuenta con previsiones suficientes para el manejo de los materiales de la
aplicación operativa. No obstante lo anterior, para el caso del pre-test y teniendo en cuenta la
escala de dicho componente del proyecto, podría considerarse una operación logística indepen-
diente de distribución y recolección de materiales que asegure su llegada el día de la aplicación
a cada escuela, de manera que se minimicen los riesgos para la integridad de los materiales.
Esto tiene un impacto financiero, pero convendría por mayor seguridad de los ítems a ser apli-
cados en un futuro.
En cuanto al retorno de los materiales, el proceso se documenta mediante un acta, que es
remitida vía correo electrónico a la
DGEP. Para aprovechar de mejor manera esta información y
controlar y cualificar este proceso, es conveniente que dicha práctica migre hacia formatos para
lectura óptica o escáner, que alimenten bases de datos y eliminen la digitación.
ttHay procedimientos de aseguramiento de la calidad de la aplicación.
En los diversos manuales se incorporan procedimientos para aseguramiento de la calidad de la
aplicación.
Para medir el nivel de apego a los procedimientos y formular recomendaciones, se requeriría
contar con informes consolidados de aplicación en los que se expliciten las principales desvia-
ciones y el tratamiento dado, de manera que en cada ciclo se aproveche sistemáticamente la
experiencia adquirida en las aplicaciones previas.
En el cuestionario en línea, se solicitó a las entidades que añadieran los reportes de la aplicación.
Se encontró que cada entidad define la manera de sistematizar las incidencias en el proceso, y
por lo general la captura inicial de incidencias se hace de manera abierta, para posteriormente
llevar a cabo la clasificación. La
DGEP proporciona un formato general para reportar el proceso
de aplicación (ver anexo 4.2), sin embargo, en este formato también se reporta de manera
abierta la problemática de la aplicación. Convendría que se definieran las categorías más rele-
vantes de incidencias que se busca prevenir, para que éstas formen parte de un seguimiento
preciso por parte de las entidades.

87Aspectos relativos a las aplicaciones
Selección y capacitación del personal de aplicación
6. Se cuenta con manuales que precisan todo lo relativo al personal a cargo de la reco-
lección de datos, en todos los niveles.
ttHay criterios para reclutar y entrenar aplicadores y apoyos.
Dentro de las funciones del coordinador regional está “Reclutar, seleccionar y capacitar a Coor-
dinadores de Aplicación y Aplicadores”. No se encontraron previsiones de aplicación general
acerca del perfil del personal.
La
DGEP, durante los preparativos para la aplicación, sugiere al coordinador operativo de la enti-
dad federativa, que los coordinadores y los aplicadores cumplan, cuando menos, con lo siguiente:
a) Poseer el bachillerato terminado.
b) Experiencia en la conducción de grupos y en la aplicación de instrumentos de evaluación.
c) Disponer de tiempo para recibir la capacitación y durante el periodo de aplicación.
d) Edad mínima de 18 años.
e) No tener relación laboral con el gobierno federal, estatal y/o municipal.
f) Capacidad de organización y facilidad de palabra.
g) Que conozca las zonas donde se encuentran los centros educativos.
Cada entidad elabora una Estrategia Operativa para la aplicación. Conforme al “Instructivo para
la elaboración, ejercicio y comprobación del gasto operativo” (
DGEP, 2014a), se indica que la
Estrategia Operativa debe incluir dentro de uno de sus apartados la descripción del perfil que se
solicitará para los coordinadores de aplicación y aplicadores. Sin embargo, el perfil de los apli-
cadores puede variar entre entidades. Por ejemplo, en la Estrategia Operativa para la aplicación
de
ENLACE-MS 2014 del Estado de México, el octavo apartado define el perfil deseable de los
coordinadores de aplicación y aplicadores, en éste se encuentran las siguientes características:
“[t]ener una edad mínima de 21 años; comprobar estudios universitarios o equivalentes; no
laborar en la escuela que se le asigne; de preferencia, tener experiencia en la conducción de
grupo y en la aplicación de instrumentos de evaluación; disponer de tiempo para ser capacitado
en días previos a la aplicación de los instrumentos de evaluación; y, disponer de tiempo para
los días de la aplicación” (
IEEEM, 2014a, pág. 13). En el Estado de México se señalaron solo los
dos últimos rasgos como indispensables. Por otro lado, en Tamaulipas la Estrategia Operativa
solo define el perfil del Coordinador de Aplicación que comprende: a) preparación mínima de
educación media superior, pasante de licenciatura de
UPN o Normal, profesionistas sin empleo
y docentes jubilados; b) capacidad de sugerir cambios; c) iniciativa para proponer opciones de
trabajo y plantear soluciones a los problemas que se presenten durante el desarrollo; d) capa-
cidad para organizar equipos de trabajo; actitud de respeto, compañerismo y responsabilidad.
Teniendo en cuenta lo anterior, se requiere estandarizar los criterios de selección del personal
para todos los roles y asegurar su cumplimiento mediante monitoreo externo.
ttSe recluta y capacita a suficiente personal de reemplazo.
No se encontró información explícita sobre el particular, aunque a través de la información
recuperada en el cuestionario en línea se encontró que algunas entidades sí recurren al recluta-

88Las pruebas
ENLACE
para educación media superior
miento y capacitación de personal de reemplazo tanto para coordinadores de aplicación como
aplicadores.
Las entidades que no lo llevan a cabo señalan que se debe a dos razones: una de ellas es que
el reclutamiento y capacitación de personal de reemplazo no está considerado dentro del gasto
operativo, y, por otro lado, la experiencia que han tenido en aplicaciones previas les ha mostra-
do que no es un rubro esencial.
A partir de lo anterior, parece necesario que se estandarice la tasa de personal de reemplazo
por cada rol y asegurar que se aplique.
ttLa capacitación incluye oportunidad de practicar con los instrumentos.
No se encontraron previsiones sobre el particular, sin embargo en los manuales se apunta que
las cajas con los instrumentos solo serán abiertas en cada una de las escuelas durante el día de
la aplicación, por lo que se asume que no hay oportunidades de practicar con los instrumentos
originales, lo cual es apropiado.
No obstante lo anterior, las carátulas deben ser conocidas con antelación por parte del personal
de aplicación, a efectos de facilitar sus labores.
En el cuestionario en línea se preguntó si los coordinadores regionales, coordinadores de apli-
cación y aplicadores tuvieron oportunidad de practicar con los instrumentos de aplicaciones
anteriores, carátulas y hojas de respuestas. Se encontró que estas prácticas se implementan en
la mayoría de las entidades. Quienes reportan no hacerlo, señalan que esto se debe principal-
mente al arribo tardío de los materiales de capacitación en su entidad y la falta de materiales
diseñados específicamente para la práctica. En una entidad señalaron que a pesar de que no
cuentan con este tipo de materiales, recurren a mostrar una imagen en presentaciones electró-
nicas elaboradas para la capacitación.
Es necesario que estos procesos se estandaricen de tal manera que el desempeño de cada una
de las figuras no se vea influenciado por las variaciones en los procesos de capacitación defini-
dos en cada entidad.
ttLa formación de capacitadores y/o el entrenamiento del personal que asegurará la calidad
del proceso se maneja centralmente o, en todo caso, se cuidará de forma que se asegure su
adecuado funcionamiento.
El coordinador operativo, con el apoyo del coordinador regional dispone lo pertinente para la
implementación del proyecto. En cada entidad se define la manera en la cual se realiza la capa-
citación de los coordinadores de aplicación y aplicadores, de acuerdo con sus necesidades. Las
principales orientaciones que brinda la
DGEP en este proceso son, por un lado, que los docu-
mentos normativos y operativos constituyan el eje de la capacitación (
DGEP, 2014b)8 y por otro,
que todo el personal que participe en la aplicación sea capacitado con anterioridad.
En el cuestionario en línea se preguntó por la duración de la capacitación a coordinadores de
aplicación y aplicadores. Por lo general, la capacitación de estas figuras dura entre dos y cuatro
8
Los documentos normativos y operativos comprenden: Guía para el Aplicador; Guía para Padres; Normas operativas;
Manual para el Coordinador de Aplicación y; Manual Coordinador Regional.

89Aspectos relativos a las aplicaciones
horas, pero hubo entidades que reportaron que la capacitación duró una hora, mientras en
otras se impartió hasta en siete horas. Estas variaciones, y otras relacionadas con las actividades
en que se involucre a los participantes en cada una de las entidades podrían llevar a diferencias
importantes en la manera en la cual se llevan a cabo los procesos.
El uso de la tecnología podría apoyar de manera importante esta etapa del proyecto, propen-
diendo por su mayor estandarización.
ttSe llevan registros de las sesiones de entrenamiento de aplicadores.
No se encontró información sobre el particular. A efectos de proponer mejoras, se requiere dis-
poner de una tipificación de las dudas recurrentes, con el propósito de enriquecer el proyecto
con un listado de preguntas frecuentes con respuestas adecuadas y de aplicación general.
ttSe monitorean las actividades en campo por personal de la instancia central y/o externo, y
se registran problemas detectados.
La
DGEP designa un monitor por entidad federativa con funciones de seguimiento, atención y
solución de problemas antes, durante y después de la aplicación. En desarrollo de sus activida-
des, el monitor compila información general acerca de los materiales, preparativos, número de
escuelas participantes, razones para no aplicación y demás novedades que se presentan en la
entidad federativa asignada. Sin embargo, las escuelas en las cuales se concentra el trabajo de
este monitor son las que pertenecen a la muestra controlada.
El monitoreo específico de las actividades en campo, habría que efectuarlo en una muestra
aleatoria de escuelas no avisada de antemano, durante la aplicación, a efectos de establecer el
apego a los procedimientos, detectar desviaciones y proponer mejoras para siguientes ciclos.
Por otro lado, en cada entidad existe el rol de supervisor de las aplicaciones, ejercido por los
padres de familia, a quienes en la guía respectiva se les informa acerca de sus funciones y de
su deber de comunicar toda irregularidad al director de la escuela o al coordinador de la apli-
cación. Adicionalmente, los observadores externos velan por el cumplimiento de las normas.
En la aplicación se requiere que por escuela se complete el “Acta de Entrega, Recepción e Irre-
gularidades”. En esta acta se registra el material que se recibió y el que se utilizó; se agrega un
recuadro donde se registran las irregularidades ocurridas en la escuela y se pide que se añada
la forma en que se resolvieron. Si bien se considera que ésta es una manera de monitorear
la aplicación, puede ser insuficiente y no asegurar que los aspectos que interese que se de
seguimiento sean observados. Es importante mencionar que en las entidades pueden decidir
realizar sus propios procesos de monitoreo. Tal es el caso del Estado de México en donde se
define una muestra de escuelas que será visitada y los aspectos a los que se dará seguimiento.
En la aplicación de 2014 estos aspectos fueron: notificación oportuna sobre la aplicación; re-
cepción completa de materiales de aplicación; suficiencia de tiempo para organizar actividades
de aplicación; disponibilidad de espacio seguro para resguardo de materiales; claridad sobre
procedimientos a seguir; convocatoria a padres de familia como supervisores del proceso de
aplicación en aula; participación de observadores externos; respeto a calendario de aplicación;
adecuación del ambiente externo para la aplicación. También se añade un espacio para que se
describan otras irregularidades presentadas.

90Las pruebas
ENLACE
para educación media superior
Teniendo en cuenta lo anterior, se hace necesario conocer un compilado de los reportes de los
supervisores y observadores externos, a efectos de analizarlos y formular recomendaciones.
ttSe hacen ejercicios de retroalimentación y revisión de materiales y procesos que recojan la
experiencia del personal en campo.
No hay información al respecto. Es fundamental conocer el resultado de estos ejercicios, para
formular planes de mejora, incluyendo aportes de todos los roles de la aplicación.
Análisis del cumplimiento de los criterios
de validez antes de la aplicación
Se encontró información suficiente para fundamentar la valoración de la mayoría de los crite-
rios y subcriterios. Las únicas excepciones estuvieron relacionadas con los procedimientos de
selección de la muestra controlada, los registros de las sesiones de entrenamiento, y ejercicios
de retroalimentación y revisión de materiales y procesos que recojan la experiencia del personal
en campo.
De manera general, en la valoración de estos criterios se hicieron evidentes algunas necesidades
con respecto a la muestra controlada: revisar y precisar la manera en la cual se define el diseño
muestral y el tamaño de la muestra; precisar los márgenes aceptables entre la muestra progra-
mada y obtenida; la validación del diseño y selección de la muestra por una instancia externa;
la documentación y actualización de los procedimientos.
Con respecto a la planeación de las aplicaciones, una de las áreas de mejora que se encuentra
es la estandarización del perfil requerido para reclutar al personal que participa en la aplicación;
de procedimientos de capacitación; y de seguimiento a la notificación de las escuelas y la apli-
cación en campo.
CRITERIOS DE VALIDEZ DURANTE LA APLICACIÓN
Minimización de carga, motivación, no respuesta y fraude
7. Se fijan límites realistas sobre la carga de responder pruebas y cuestionarios de con-
texto para que no sea excesiva tomando en cuenta los sujetos.
ttSe utilizan los resultados de la aplicación piloto para revisar que los estimados de carga sean
realistas y aceptables.
A través del pre-test se obtiene toda la información estadística requerida para la aplicación
operativa que se llevará a cabo el año siguiente.
ttSe simplifican los procedimientos y se describen en forma clara y cuidadosa, siempre buscan-
do minimizar la carga para los sujetos.

91Aspectos relativos a las aplicaciones
Los procedimientos que deben seguir lo alumnos son simples y se encuentran apropiadamente
estandarizados.
ttEn los cuestionarios de contexto para estudiantes se evita preguntar datos que se pueden
obtener de otras fuentes.
Se indaga por las características personales de los alumnos y de su entorno escolar y familiar
que solo pueden ser obtenidos a partir de la aplicación de este instrumento. Sin embargo, la
extensión del instrumento podría representar una carga para los alumnos; la aplicación del 2013
comprendió 134 reactivos. Es fundamental analizar la pertinencia de este instrumento y el uso
dado a la información recolectada.
ttSe agenda la aplicación en horarios convenientes para los sujetos.
La aplicación se lleva a cabo durante la jornada escolar y se anuncia a todos los actores del
proceso con antelación suficiente y por diversos medios.
La última aplicación de la prueba coincidió con la entrega de documentación de aspirantes de
ingreso al Instituto Politécnico Nacional, lo cual representó un inconveniente para que aquellos
alumnos interesados en ingresar a dicha institución presentaran la prueba. Aunque desde la
DGEP negociaron con el IPN que quienes presentaran la prueba podrían entregar en contra-
turno o en días posteriores la documentación, hubo alumnos que prefirieron no asistir los días
de la aplicación. De esto no se tiene una documentación específica; se obtuvo la información a
través de las entidades.
8. Se busca motivar a sujetos para que no respondan preguntas a la ligera.
Se informa ampliamente a los sujetos de la evaluación acerca de los propósitos del estudio y
cómo se utilizarán sus datos.
En las guías y manuales provistos se informa a los diversos actores del proceso que

ENLACE ofrece información específica a padres de familia, estudiantes, maestros, directi-
vos, autoridades educativas y sociedad en general para mejorar la calidad de la educación,
promoviendo la transparencia y rendición de cuentas.
Proporciona un diagnóstico académico del estudiante a nivel individual.
Está alineada al marco curricular común, en particular a las competencias disciplinares bási-
cas de los campos de Comunicación (Comprensión lectora) y Matemáticas.”
Adicionalmente, informa acerca de las limitaciones del proyecto así “No permite derivar
conclusiones sobre el sistema de Educación Media Superior, los subsistemas, las escuelas,
los docentes ni sobre el desempeño de las entidades federativas.”
Los alcances y limitaciones del proyecto están claramente establecidos y se comunican consis-
tente y ampliamente.

92Las pruebas
ENLACE
para educación media superior
9. Se desarrollan procedimientos para lidiar con la no-respuesta o el rechazo a respon-
der a la prueba y se entrena al personal de aplicación para seguirlos.
La guía del aplicador incluye el siguiente texto para ser leído a los alumnos al inicio de la sesión:
“ES IMPORTANTE COMENTARLES QUE LOS RESULTADOS DE LAS PRUEBAS NO AFECTARÁN
SUS CALIFICACIONES; SIN EMBARGO, POR SER UNA EVALUACIÓN DE RELEVANCIA NA
-
CIONAL, LES PIDO QUE PONGAN TODA SU ATENCIÓN EN CADA PREGUNTA Y TRATEN DE
HACER SU MEJOR ESFUERZO.”
De esta manera se considera satisfecho este criterio.
10. Se desarrollan procedimientos para lidiar con la copia o cualquier otra forma de frau-
de y se entrena al personal de aplicación para seguirlos.
En los siguientes documentos se precisa el propósito de la prueba
ENLACE-MS como un diag-
nóstico individual de los alumnos de este nivel educativo y, la importancia de no permitir la
copia: Protocolo de Seguridad de los Materiales de Evaluación; Manual para el Coordinador
Regional; Manual para el Coordinador de Aplicación; Guía para el Aplicador; Guía para Padres.
No se proporciona información a los aplicadores sobre comportamientos de los estudiantes que
pueden indicar que se está dando la copia; o las medidas que deben tomar ante el incumpli-
miento de esta normatividad.
No se aplican algoritmos de detección de fraude. Si bien la prueba está catalogada como de
bajo impacto, es altamente recomendable que se detecte técnicamente el impacto de eventua-
les conductas inapropiadas sobre la aplicación y el procesamiento de los resultados.
Procedimientos de control de calidad en las aplicaciones
11. Se manejan procedimientos para asegurar la calidad de las aplicaciones.
ttSe recluta y entrena a monitores que lleven a cabo actividades de control externo de calidad,
observando la recolección de datos en un subconjunto de los sitios.
El proyecto tiene prevista la participación de observadores externos, a quienes se invita a verifi-
car el cumplimiento de las normas durante el proceso de aplicación. No hay un proceso previo
de entrenamiento, aunque en los manuales se sugiere que los directores se reúnan con los
padres de familia y observadores externos una semana antes de la aplicación.
De acuerdo con la información recolectada en el cuestionario en línea, solo en cinco entidades
federativas (de las 25 que respondieron el cuestionario) participaron observadores externos.
Dos de estas entidades señalaron que hubo observadores externos en la mayoría de las escuelas
(90% o más); en las otras tres entidades, no contaron con registro. Finalmente, es importante

93Aspectos relativos a las aplicaciones
señalar que solo en una de las cinco entidades se implementó un proceso de capacitación para
estas figuras.
En algunas entidades federativas, las
AEE contemplan la realización de procesos de monitoreo.
En algunos casos el personal que funge como monitor forma parte de dichas áreas.
Conviene que se estandarice el proceso de reclutamiento y capacitación de observadores ex-
ternos, de tal manera que se pueda dar seguimiento a aspectos comunes de la aplicación para
recuperar información que contribuya a la mejora de los procesos.
ttSi no es viable se hacen entrevistas presenciales o por teléfono de control de calidad con
aplicadores y demás personal involucrado en la aplicación.
Junto con los responsables directos de la aplicación, los supervisores y observadores externos
controlan la calidad de la aplicación.
ttSe hace revisión de control de calidad en una muestra aleatoria de los datos recolectados
para asegurar llenado completo y correcto.
No se encontró información sobre el particular en la documentación provista.
ttSe resumen los resultados de cada etapa de aplicación para monitorear el estatus de las
actividades y para identificar y corregir causas de problemas de calidad.
No se encontró evidencia explícita acerca de la identificación de la causa de los problemas de
calidad ni de la estrategia abordada para superarlos.
Análisis del cumplimiento de los criterios de validez durante la aplicación
Se encontró información suficiente para valorar la mayoría de los criterios y subcriterios relacio-
nados con esta etapa del proceso de aplicaciones. La única excepción fue con respecto a los
procedimientos de revisión de la información recolectada en campo para asegurar que haya
sido registrada adecuadamente.
Se observa como una fortaleza la definición de procedimientos simples para el personal que
participa en la aplicación de la prueba; también con respecto a la motivación de alumnos para
responderla y al manejo de la no respuesta.
A través de la valoración de estos criterios se hizo evidente que existe suficiente información
para generar indicadores acerca de la aplicación que podría ser aprovechada para sistematizar,
monitorear y elevar la calidad de la implementación en ciclos posteriores. No obstante, no se
encontró un listado de las situaciones típicas que se presentan ni el tratamiento dado a ellas.
Por otro lado, se halló que la participación de algunas figuras tiene grandes variaciones entre
entidades, en particular los observadores externos. Es importante avanzar en la definición de
su perfil y funciones, de tal manera que puedan estandarizarse y llevar a un seguimiento similar
en las entidades del país.

94Las pruebas
ENLACE
para educación media superior
Es fundamental seguir avanzando en la estandarización de los procesos asociados a la aplicación.
CRITERIOS DE VALIDEZ DESPUÉS DE LA APLICACIÓN
Preparación del procesamiento de los datos
12. Hay manuales que detallan los aspectos a cuidar para crear archivos de datos según
normas internacionales: cómo introducir los datos; asignar identificadores a alum-
nos-maestros-escuelas; variables a incluir, códigos válidos, de datos faltantes o res-
puestas no aplicables; formato de datos, estructura de archivos, limpieza, entre otros.
En los Manuales Técnicos y otros documentos proporcionados no se incluye información sobre
el procesamiento de datos. En el Manual Técnico 2008-2010 se precisa que la lectura y califi-
cación es responsabilidad de la
DGEP-SEP, la que a su vez, entrega la base de datos a CENEVAL
para la validación de los resultados (C
ENEVAL, 2012, pág. 53).
Se revisó un documento proporcionado por la
DGEP, relacionado con el procedimiento de lec-
tura óptica. En él se detalla la secuencia de etapas que comprende este proceso, las actividades
dentro de cada etapa y sus responsables. Sin embargo, no se definen normas relacionadas con
la creación y cuidado de archivos. Por otro lado, la última actualización de estos documentos
fue en el año 2005, cuando aún no se realizaban aplicaciones de
ENLACE; aunque por las co-
municaciones sostenidas con la
DGEP se entiende que son de aplicabilidad para esta evaluación,
convendría que fueran actualizados y complementados con normas que lleven al cumplimiento
de este criterio.
13. Se cuenta con personal calificado para manejar los datos y se le entrena en todos los
aspectos de su trabajo, asegurando que esté familiarizado con los procedimientos
aceptados y que comprende la importancia de recolectar y capturar la información
con el cuidado necesario para que los análisis se hagan sobre información de la mejor
calidad posible.
El manejo de las bases de datos está a cargo de las áreas de Integración de la información,
Lectura óptica y Calificación (
DGEP, 2014b).
En el área de integración de la información se adelanta la gestión de datos requerida para cál-
culo de presupuesto, impresión de materiales y logística.
El área de lectura óptica se divide a su vez en tres subáreas: Recepción, Lectura óptica y Valida-
ción. El personal de recepción tiene a su cargo recibir el material aplicado y organizar las hojas
de respuestas, actas y formatos utilizados. El personal de lectura óptica genera los archivos con
las respuestas de los alumnos. El área de validación confronta los archivos de la lectura contra
los de impresión de materiales y verifica las novedades que se hayan podido presentar, con
apoyo de la imagen de las hojas de respuestas y software específico.

95Aspectos relativos a las aplicaciones
El personal de calificación es el responsable de llevar a cabo la calibración de los reactivos así
como de la calificación propiamente. Igualmente, genera las bases de datos para la publicación
de resultados de alumnos y escuelas, así como los reportes y estadísticas relacionadas.
De acuerdo con la información provista, el personal involucrado en el manejo de bases de datos
cuenta con perfiles técnicos y experiencia acordes a los requerimientos.
En relación con el entrenamiento que recibe el personal de estas áreas, la información propor-
cionada por la
DGEP precisó solo la relacionada con la que es impartida por los proveedores de
servicios informáticos para la lectura óptica (
DGEP, 2014b). Este tipo de capacitación admite que
el personal de la
DGEP desarrolle las aplicaciones que permitan la integración de bases de datos.
Convendría que el perfil profesional y la capacitación necesaria para el personal de estas áreas
fuera incluida en documentación oficial.
14. Se llevan a cabo procedimientos para maximizar la calidad de las bases de datos que
concentran los resultados de la aplicación. Se asegura que:
No se encontró documentación oficial que describa los procedimientos para maximizar la cali-
dad de las bases de datos. Sin embargo, en la información provista por la
DGEP se precisó que
la calibración y calificación se llevan a cabo paralela e independientemente en
DGEP y CENEVAL.
Este procedimiento permite que se detecten diferencias, se verifiquen y corrijan, bien sea en el
dato propiamente o en el software utilizado (
DGEP, 2014b).
ttLa estructura de los datos se apegue a la de los instrumentos.
En los Manuales Técnicos y otra documentación proporcionada no se encuentran registrados
los procedimientos que permitan verificar que la estructura de la base de datos se apegue a los
instrumentos.
En la comunicación establecida con la
DGEP se confirmó la realización de esta verificación, pero
no fue provista documentación oficial adicional. Es conveniente que estos procesos se docu-
menten de tal manera que se promueva su utilización en las diferentes aplicaciones, se valore
de manera continua su adecuación y suficiencia y se promueva su complementación y mejora.

ttLos datos tengan suficientes redundancias para permitir el control de calidad.
En los documentos proporcionados no se incluye información con respecto a este subcriterio.
Las bases tengan identificadores únicos consistentes para que los alumnos y escuelas y, en su
caso, maestros o directores, puedan relacionarse.
En las guías y manuales para el Coordinador Regional, Coordinador de Aplicación y el Aplica-
dor, se señala que cada hoja de respuesta tiene un folio único para los alumnos, y se pide que
el aplicador, en primera instancia verifique que el folio que está registrado en el Formato para el
Control de la Aplicación en el Aula coincida con el que se encuentra en los materiales entrega-

96Las pruebas
ENLACE
para educación media superior
dos a los alumnos, ya que las hojas de respuesta se encuentran prellenadas con la información
de los alumnos y sus escuelas.
Existen procesos técnicos preestablecidos y redundantes para asegurar la unicidad de los folios.
Las hojas de respuestas se remiten personalizadas en la gran mayoría de casos. Para las escuelas
de las que no se dispone de información de sus alumnos, se asigna la cantidad de hojas de res-
puestas correspondiente a la matrícula existente y luego de la aplicación, la autoridad educativa
local envía la información faltante.
ttSe lleven a cabo verificaciones aleatorias de submuestras de las bases de datos para verificar
que se cumplan con los puntos anteriores.
No se proporcionó información al respecto.
ttSe documenten todas las actividades de preparación de los datos.

Se cuenta con procesos y procedimientos preestablecidos para la preparación de los datos, de
acuerdo con la norma técnica aplicable.
Procesamiento y verificación de los datos
15. Hay procedimientos para asegurar que la lectura de respuestas y todos los pasos del
procesamiento y verificación de los datos son confiables.
En nota técnica de C
ENEVAL a DGEP se describen los procedimientos de análisis de reactivos que
se implementan en las pruebas piloto, pre-test y operativa para verificar su calidad psicométrica,
así como el cumplimientos de los lineamientos técnicos institucionales y de contenido.
ttDurante la lectura de los datos se hacen dobles verificaciones en forma sistemática para
garantizar la confiabilidad del proceso.

Los Manuales Técnicos y otros documentos proporcionados no incluyen información con respec-
to a la lectura de los datos y las verificaciones para garantizar la confiabilidad de este proceso.
ttEn caso de que la lectura de datos se haga en forma descentralizada se asegura que se cum-
plan los estándares en todos los sitios.
La lectura se hace centralmente por la
DGEP, y después se entrega al CENEVAL para su valida-
ción.
ttSe revisa que la estructura de las bases se apegue a la acordada, las variables en rangos
válidos y los identificadores sean únicos e íntegros.
Los documentos entregados no especifican los procedimientos de validación y limpieza de las
bases de datos.
ttSe contrastan archivos de datos con instrumentos y cuestionarios.

97Aspectos relativos a las aplicaciones
Los documentos entregados no incluyen información al respecto.
ttSe calculan estadísticas analíticas para cada ítem.
En los manuales técnicos se precisa que antes de realizar el procedimiento de equiparación se
depuran las bases de datos y se hace una calibración libre de reactivos. Lo anterior incluye la
estimación de los estadísticos de cada reactivo para identificar aquellos con características psi-
cométricas inadecuadas. (C
ENEVAL, 2013, pág. 67).
ttSe calculan estadísticas descriptivas para todas las variables para revisar que no haya valores
extremos o faltantes; si hay se reportan para revisión.
Los documentos entregados no especifican los procedimientos de validación y limpieza de las
bases de datos.
ttSe documentan todos los pasos del proceso.
Los Manuales Técnicos no reportan información sobre el procesamiento de los datos.
Notificación de irregularidades
16. La coordinación del estudio deberá ser notificada de cualquier inconsistencia en los
datos. Toda modificación que resulte de la resolución de inconsistencias deberá ser
aprobada y documentada.
Existen formatos para el reporte de anomalías, pero no se conoce un documento que las con-
solide y permita cualificar el proceso.
Análisis del cumplimiento de los criterios de validez
después de la aplicación.
Aunque se encontró información suficiente para valorar la mayoría de los criterios y subcriterios
relacionados con esta etapa del proceso de aplicaciones, su revisión mostró que ésta no ha
sido sistematizada y registrada en documentación oficial. Justamente la sistematización y docu-
mentación de procedimientos relacionados con la preparación de los datos y su manejo, de tal
manera que se maximice la calidad, es una de las áreas de oportunidad más importantes que se
encontraron. Esto también parece ser necesario con respecto a la documentación de las carac-
terísticas profesionales y de capacitación que debe tener el personal que maneja la información.
CONCLUSIONES GENERALES
En la valoración de estos criterios se identificaron fortalezas relacionadas con la definición de
procedimientos para la aplicación en campo. Las áreas de oportunidad más importantes que se

98Las pruebas
ENLACE
para educación media superior
reconocen son la precisión de algunos procedimientos, su estandarización y documentación.
Esto fue principalmente evidente con respecto al reclutamiento y capacitación del personal que
participa en la aplicación. También parece ser necesario con respecto a la preparación de los
datos y su manejo antes de que se proceda al análisis y reporte de la información.
Por otro lado, parece necesario generar procedimientos y herramientas estandarizadas para
dar seguimiento a los procedimientos previos, durante y posteriores a la aplicación en campo.
Si bien, cada entidad federativa diseña su propia estrategia operativa, a partir de su situación
particular, la
DGEP expide el “Instructivo para la elaboración, ejercicio y comprobación del gasto
operativo” (
DGEP, 2014a), en el que se establece que las entidades deben enviar sus estrategias
operativas, incluyendo las previsiones del caso sobre personal, capacitación, remuneración y
asuntos conexos. Esta información podría aprovecharse para generar estrategias operativas es-
tandarizadas, implementables en tipologías de estados con características afines, de forma que
además de controlar los costos, la experiencia adquirida apoye la construcción de conocimiento
en la materia, independientemente del responsable del momento. Lo anterior apoyaría a elevar
la calidad de las aplicaciones.
Se recomienda la incorporación de algoritmos de detección de fraude, aunque la prueba sea
de bajo impacto, a efectos de asegurar técnicamente la calidad de la medición, toda vez que
sus resultados son puestos al servicio de la comunidad educativa y debe enfatizarse en la trans-
parencia. Para los casos en los que se detecte fraude, podría estudiarse la aplicación de una
medida administrativa como la no publicación de resultados para una escuela específica.

99
5 Validez de usos y consecuencias
OBJETIVO Y MARCO CONCEPTUAL
En este apartado se presentan los resultados de un análisis detallado de la evidencia
disponible relativa a los usos y consecuencias de la prueba
ENLACE-MS (Evaluación Nacional de
Logro Académico en Centros Escolares de Educación Media Superior). Este aspecto se enfoca
en la evidencia de que se dan usos apropiados y previstos a los resultados de la prueba, que
estos usos están teniendo los efectos y consecuencias previstas, y que por el contrario no se
están dando usos inapropiados y que conlleven consecuencias negativas.
La noción de validez relativa a usos y consecuencias de las pruebas (con frecuencia denominada
validez consecuencial) combina un amplio rango de consideraciones teóricas, psicométricas, y
prácticas, y su aplicación en casos particulares es un tema en constante evolución que se discu-
te activamente en la literatura especializada (Lissitz, 2009). En este trabajo se conceptualiza la
validez consecuencial de manera amplia, y no ceñida a un modelo de medición particular. Esto
se refleja en el convenio de ejecución entre
INEE y UAA que incluye en este apartado la forma
en que se difunden los resultados de las pruebas, los análisis de factores asociados y el uso que
se hace de dichos resultados, así como las consecuencias que ha traído consigo su utilización
en el sistema educativo mexicano.1 Dado que este estudio se conceptualiza primordialmente
desde la perspectiva de la política educativa, se considera que el uso de la prueba determina
directamente su significado y consecuencias (Welner, 2013), sin importar necesariamente si
esto corresponde a la definición especifica de validez dentro de algún modelo conceptual o
psicométrico. Sin embargo, es importante diferenciar la evaluación del uso de un instrumento
en el contexto de una política educativa que se busca aquí, de la evaluación general del impacto
social de esta política en un sentido amplio, que un estudio de validez no pretende abordar.
CRITERIOS DE VALORACIÓN
Los criterios de valoración que se proponen se basan en los estándares de AERA, APA y NCME
(1999) que ofrecen los lineamientos profesionales más ampliamente establecidos a nivel inter-
nacional. Adicionalmente se incluyen elementos de los estándares del Educational Testing Servi-
ce (2000) que además de la calidad de la prueba atienden lo relativo a equidad y consecuencias
(Standards for Quality and Fairness); y los del Centro Nacional de Evaluación para la Educación
1
El “análisis de factores asociados” se entiende aquí como un monitoreo de patrones y tendencias a nivel sistémico
para propósitos de investigación, o toma de decisiones sobre programas o políticas—a diferencia de análisis a nivel del
individuo que pertenecen al tema de validez de constructo.

100Las pruebas
ENLACE
para educación media superior
Superior de México (CENEVAL, 2000) que además tocan lo relativo a comunicación de resulta-
dos y capacidad de interpretación. Finalmente se incluye una publicación reciente del Banco
Mundial que considera factores que inciden en distintos tipos de usos (Kellaghan, Greaney y
Scott Murray, 2009). De estas tres fuentes se sintetizaron una serie de criterios que se engloban
en cuatro aspectos de validez de uso y consecuencias, a saber: 1) Soporte para interpretaciones,
usos y consecuencias previstas; 2) Acceso equitativo y capacidad de interpretación y uso; 3)
Comunicación que facilite la buena interpretación de los resultados, y 4) Interpretaciones, usos
y consecuencias imprevistas. En la elaboración de este reporte se definieron inicialmente 16 cri-
terios específicos que luego se redujeron a 11 para eliminar redundancias y alinear las distintas
fuentes de evidencia más directamente a los criterios.
Tabla 5.1 Criterios de valoración: validez relativa a usos y consecuencias
A. Soporte para interpretaciones, usos y consecuencias previstas
1. Se presentan argumentos lógicos o teóricos y evidencia empírica que respalde los usos y consecuencias
previstas. Se evita sugerir usos o beneficios de la prueba si no tienen un apoyo teórico o empírico.
2. Se documenta y evalúa el grado en que se producen las consecuencias previstas y/o deseables de la prueba.
B. Acceso equitativo y capacidad de interpretación y uso
3. Los resultados de las pruebas se reportan en plazos razonables y se proveen mecanismos de difusión
y acceso para todas las partes involucradas sin discriminación.
4. Se apoya a instituciones y usuarios para desarrollar la capacidad necesaria para la adecuada interpretación
y utilización de los resultados.
C. Comunicación que facilite la buena interpretación de los resultados
5. Se informa a los usuarios sobre los propósitos y características de la prueba, lo que puede o no medir,
y los usos y consecuencias previstas. Se ofrecen ejemplos e información suficiente sobre la interpretación
deseable (o correcta) de los resultados.
6. Se utiliza lenguaje claro y preciso sin jerga técnica innecesaria; se explican términos técnicos en lenguaje
claro y comprensible para una audiencia general.
7. Se ofrece un marco normativo para evaluar el desempeño de los examinados. Se describe el perfil
y características de la población de referencia.
8. Se ofrece información para minimizar la posibilidad de interpretaciones incorrectas. Se notan limitaciones
y errores comunes de interpretación al comparar diferentes pruebas, años, dominios, grupos, o niveles
de agregación. Se usan categorías precisas que no den lugar a estigma.
D. Interpretaciones, usos y consecuencias imprevistas
9. Se advierte sobre usos para los que no existe suficiente evidencia de validez (aunque no se pueden prever
todos los usos o interpretaciones inapropiadas, se busca identificar y acotar los más factibles o probables).
10. Se documenta la existencia de usos o consecuencias imprevistas (ya sean adecuadas/positivas,
o inadecuadas/negativas).
11. Cuando existe evidencia confiable de usos inapropiados, éstos se investigan en grado y detalle adecuado.
Si estos usos persisten, se informa a los usuarios y se intenta tomar acciones correctivas.
Fuente: Adaptado de AERA/APA/NCME (1999), ETS (2000), CENEVAL (2000)
Es importante señalar que aunque estos criterios reflejan aspectos concretos de calidad técnica
de la prueba, a diferencia de aspectos psicométricos u operativos, estos no se pueden evaluar
directamente en términos cuantitativos o procedimentales exactos. Por el contrario, la evalua-
ción de criterios aquí requiere juicios de grado basados en evidencia teórica y empírica, que se
refieren a características que no necesariamente son observables de manera directa y confia-
ble, y que ocurren en el contexto complejo de un sistema de pruebas de gran alcance que se
usa para propósitos específicos. Es evidente, por ejemplo, que el grado de escrutinio técnico
necesario es mayor en el caso de una prueba de alto impacto que implica consecuencias serias
para los sujetos implicados, que en una prueba diagnóstica sin consecuencias (
AERA, APA,
NCME, 1999).

101Validez de usos y consecuencias
Igualmente compleja es la evaluación de usos o consecuencias no propuestas fuera del control
del desarrollador. En el contexto de una prueba nacional del tipo y alcance de
ENLACE-MS,
el organismo desarrollador responsable de satisfacer los criterios de calidad que se delinean
es el sistema educativo federal en conjunto, no solo el C
ENEVAL como institución encargada
de los aspectos técnicos de desarrollo de la prueba. Las acciones de otros actores del sistema
educativo tales como asociaciones civiles, prensa, o incluso gobiernos estatales, se consideran
y evalúan como externos al órgano desarrollador. En todos los casos, la asignación de respon-
sabilidad es de perspectiva amplia y descriptiva, y considera parámetros realistas referidos al
contexto nacional y experiencias en otros sistemas a nivel internacional (Cizek, Bowen y Church,
2010; Nichols y Williams, 2009).
Por último, como en los otros capítulos de este reporte el análisis que se presenta aquí trata
de distinguir entre aspectos básicos o primarios considerados como mínimos o indispen-
sables en cualquier sistema de medición educativa de esta dimensión, y aspectos que se
consideran adicionales o ideales, que representan objetivos de calidad que se deben buscar,
pero no son indispensables para una operación mínimamente apropiada (dentro de ciertos
parámetros y contexto).
TIPOS DE USOS DE LA PRUEBA
La prueba ENLACE-MS busca generar información sobre las capacidades para la vida de los
egresados de educación media superior, apoyando la retroalimentación individual para padres,
maestros y escuelas, y la mejora del sistema educativo (Manual
ENLACE-MS, pág.18). Para el
análisis de la prueba
ENLACE-MS es importante destacar que esta es de carácter voluntario
para las escuelas. Según el manual para docentes y directivos, “la prueba está dirigida a los
alumnos de la República Mexicana inscritos en los planteles que manifiestan interés en par-
ticipar y apoyar en la aplicación de la prueba” (pág. 12). Se trata de una prueba diagnóstica,
objetiva, estandarizada, y de bajo impacto (pág. 14) para los estudiantes, dado que no influye
directamente la trayectoria escolar de los sustentantes. La tabla V.2 sintetiza los usos y objetivos
previstos por los diseñadores de la prueba
ENLACE-MS en el manual técnico 2011-12, el manual
para docentes y directivos (publicado en 2014), y la página web de la prueba (www.enlace.sep.
gob.mx/ms/). La tabla resume usos y consecuencias que involucran a tres usuarios primarios: 1)
alumnos y padres de familia, 2) docentes y directores, 3) autoridades educativas y organismos
evaluadores (pág. 14).
Una precisión necesaria se refiere a la clasificación de usos como adecuados o previstos: nues-
tro reporte no pretende ofrecer un juicio cualitativo sobre el valor teórico de los diversos usos
propuestos y posibles de
ENLACE-MS, o si estos son adecuados o deseables en un sentido social
más amplio. La distinción es necesaria por motivos técnicos y prácticos, al permitir delinear res-
ponsabilidades para desarrolladores y usuarios de la prueba. En primera instancia los desarrolla-
dores son responsables principalmente de aquellos usos que ellos mismos han propuesto para
la prueba (y, como se verá más adelante, también en cierto grado por la prevención, detección
y corrección de usos que injustificados o inadecuados).
Finalmente es importante mencionar que una prueba puede ser “bajo impacto” (pág. 14) para
los estudiantes y al mismo tiempo serlo de alto impacto o consecuencias para docentes, es-

102Las pruebas
ENLACE
para educación media superior
cuelas, municipios o estados, y sistemas o subsistemas educativos, según los tipos de usos y
consecuencias reales que se asocien en la práctica a los resultados agregados. En el caso de
ENLACE-MS, el manual técnico sugiere que la prueba se usa primordialmente con enfoque
diagnóstico. Sin embargo los oficiales presentes en la reunión de este comité señalaron que
la prueba es una herramienta importante para influir en la política educativa del país, específi-
camente al permitirles “mandar mensajes focalizados a los subsistemas” (Hernández, reunión
Junio 6, 2014). Similarmente, la evidencia en este reporte sugiere que aunque los estados no
utilizan los resultados de la prueba
ENLACE-MS como parte de sistemas formales de rendición
de cuentas a nivel alumno, docente, o escuela, en algunos casos si se están desarrollando meca-
nismos de uso de los resultados de mayor consecuencia a nivel estatal (véase criterios A1 y A2).
Tabla 5.2 Usos y consecuencias previstos de
ENLACE-MS.
Alumnos y padres de familia
+ Generar información diagnóstica para cada alumno (pág. 27)
+ Ofrecer a los estudiantes retroalimentación personalizada (pág. 30)
+ Apoyar las estrategias de estudio, y secuencias didácticas individuales (pág. 74)
Docentes y directivos
+ Proveer información útil para el plantel y los profesores (pág. 27)
+ Identificar áreas de oportunidad para la planificación e instrucción en aula (pág. 30)
+ Conocer contenidos y procesos que provocan errores en el alumnado (pág. 74)
+ Apoyar planificación de campañas y actividades internas (pág. 85)
+ Ofrecer línea de base para comparar resultados de aplicaciones posteriores
y establecer el efecto de acciones educativas (pág. 86)
Investigadores educativos
+ Realizar investigaciones sobre los factores asociados al logro (pág. 86)
Autoridades educativas
+ Caracterizar el nivel de logro de planteles y entidades federativas (pág. 86)
+ Proveer elementos que contribuyan a la mejora del sistema educativo (pág. 27)
+ Fomentar la rendición de cuentas del sistema educativo a la sociedad (pág.17)
Fuente: Manual técnico ENLACE Media Superior 2011-2012 (CENEVAL, 2013)
FUENTES DE EVIDENCIA Y ANÁLISIS
Los 11 criterios de valoración que se presentan en la tabla 5.1 proveen el marco conceptual para
el análisis de los aspectos teóricos, psicométricos, y prácticos de
ENLACE-MS, sus usos previstos
e imprevistos, y las consecuencias que se derivan de estos. Evaluar el grado en que una prueba
se usa en las formas previstas y produce resultados esperados requiere colectar y sintetizar
información y evidencia de diverso tipo (cuantitativo y cualitativo), origen (C
ENEVAL, SEP, INEE,
prensa, entrevistas, observación directa, y otros), y granularidad (de nivel individual, o agrega-
dos por aula, escuela o estado). Esta variedad de información normalmente no está disponible
en forma sintética en ningún documento o base de datos, y su análisis va más allá del uso de
modelos psicométricos avanzados.
Este estudio busca ofrecer una síntesis cualitativa que refleje la cantidad y calidad de evidencia
disponible de varias fuentes, respecto a los criterios de valoración propuestos. Dada la naturale-
za de las preguntas de investigación, y las limitaciones en la cantidad y calidad de información

103Validez de usos y consecuencias
disponible que documenta usos y consecuencias de ENLACE-MS, se buscó profundizar el análi-
sis con información proporcionada por actores involucrados directamente en el uso de resulta-
dos de la prueba, además de revisar la documentación, manuales, reportes, y otros materiales
y estudios especiales disponibles. En particular, el equipo de investigación de la
UAA recogió
información adicional de cuatro fuentes:
• Información de usos y consecuencias a nivel estatal, con una encuesta de actores in-
volucrados en la administración y uso de las pruebas
ENLACE-MS en 20 estados de la
republica
• Entrevistas con autoridades y personal clave involucrado en el diseño de mecanismos,
programas y políticas basadas en las pruebas
ENLACE-MS, en una muestra de cuatro
subsistemas educativos nacionales, y cuatro estados seleccionados para representar un
rango de niveles de logro (tres de estos no se incluyen en la muestra de 20 que cubre la
encuesta);
• Literatura especializada que da cuenta de investigaciones/evaluaciones de programas o
políticas en base de los datos de
ENLACE-MS;
• Revisión de cobertura en prensa, y organismos de la sociedad civil.
La tabla 5.3 sintetiza las fuentes de información que sirven de base para los análisis y considera-
ciones siguientes, organizadas según los criterios de valoración ofrecidos en la tabla 5.1.
Tabla 5.3 Fuentes y tipos de evidencia empleadas por criterio de valoración.
* Ver tabla A en Apéndice y Referencias
Criterio Tipo de evidencia
A.
Interpretaciones, usos y consecuencias previstas
1. Evidencia y respaldo
2. Monitoreo t Manual Técnico ENLACE-MS 2013
t Estudios especiales y literatura especializada*
t Encuesta y entrevista con personal de entidades
t Estadísticas de uso de portales de resultados
B. Acceso equitativo, y capacidad de interpretación y uso
3. Reporte / acceso a resultados
4. Capacitación y apoyo t Manual Técnico ENLACE-MS 2013
t Documentos de apoyo (presentaciones y talleres de actualización de resultados)
t Manual para docentes y directivos 2014
t Encuesta y entrevista con personal de entidades
C. Comunicación que facilite la buena interpretación de los resultados
5. Reportes informativos
6. Lenguaje adecuado
7. Marco de referencia
8. Limitaciones / errores comunes t Manual Técnico ENLACE-MS 2013
t Reportes de resultados para grupos de usuarios en página SEP/ENLACE-MS (30/7/2014)
t Otros contenidos, datos, y documentos en página web SEP/ENLACE-MS (30/7/2014)
D. Interpretaciones, usos y consecuencias imprevistas
9. Advertir sobre usos inapropiados
10. Documentar esos usos
11. Acciones respecto a ellos t Manual Técnico ENLACE-MS 2013
t Estudios Especiales y Literatura Especializada*
t Encuesta y entrevista con personal de entidades
t Cobertura de medios y ONG

104Las pruebas
ENLACE
para educación media superior
REVISIÓN DE LA EVIDENCIA DISPONIBLE POR CRITERIO DE VALORACIÓN
A. Soporte para interpretaciones, usos y consecuencias previstas
1. Se presentan argumentos lógicos o teóricos y evidencia empírica que respalden los
usos y consecuencias previstas. Se evita sugerir usos o beneficios de la prueba si no
tienen un apoyo teórico o empírico.
2
El manual técnico 2013 y el manual para docentes y directivos 2014 detallan los propósitos,
usos, y audiencias previstas de la prueba
ENLACE-MS. Estos manuales hacen mención repetida
de los objetivos que busca la prueba, y las consecuencias benéficas que se esperan para los
diversos actores (alumnos, maestros, directores, autoridades). Sin embargo, los manuales y ma-
teriales que los acompañan, así como otros disponibles en el portal web, no describen los usos
específicos previstos con cada tipo de usuario. Los argumentos de uso y consecuencias espera-
das se describen en términos generales y un tanto superficiales, y no se sustentan directa o indi-
rectamente en argumentos lógicos o evidencia teórica o empírica. Declaraciones frecuentes de
corte general (por ejemplo: “se busca proveer información útil”) no ofrecen una base concreta
para entender cómo se deben y no se deben usar los resultados de la prueba en la práctica. Si se
revisa la totalidad de materiales y documentos disponibles es posible entrever con mayor clari-
dad a qué tipo de usos particulares se refieren estas afirmaciones generales. En el resto de este
reporte tomamos como base nuestra lectura sintética de los materiales, según se resume en la
Tabla 5.2. Sin embargo, una primera limitación importante a notar es la falta de una sección en
el manual que condense, explicite y fundamente el modelo lógico de la prueba
ENLACE-MS y
los usos y consecuencias esperados con cada grupo de usuario y que sirva de guía para usuarios
y evaluadores. Por ejemplo, el manual para docentes y directivos propone que los cuatro niveles
de dominio que se utilizan ofrecen información “muy útil para conocer las tareas y contenidos
que el estudiante domina y, revisando los niveles superiores, aquellos en los que debe mejorar”
(pág. 46). Aunque es difícil disputar una afirmación de corte tan general, es importante notar
que el órgano desarrollador debe ofrecer evidencia concreta para respaldar cada uso y beneficio
propuesto. Este tipo de uso pedagógico es uno de los más prominentes en
ENLACE-MS, que
se dice pretende informar la práctica docente mediante el análisis y diagnóstico de fortalezas y
debilidades de los alumnos. Sin embargo, la documentación no especifica el modelo lógico y
los mecanismos concretos de uso, y nuevamente ofrece solo afirmaciones generales (por ejem-
plo: puede informar programas de tutoría a nivel aula y escuela) que dificultan evaluar su valor
formativo o diagnóstico para estudiantes, padres, o docentes.
Más aún, en la práctica este tipo de uso pedagógico se enfrenta a dos limitaciones importantes.
La primera es función del diseño del sistema de consulta de resultados, que no provee informa-
ción al nivel del aula sino de la escuela, por lo que un docente tendría que consultar los resul-
tados individuales de cada uno de sus alumnos y condensarlos en un diagnóstico del grupo. La
segunda es función del diseño mismo de una prueba de egreso, que por diseño es de valor limi-
tado para la intervención pedagógica, puesto que los sustentantes no siguen en la escuela para
2
Este criterio se refiere a los usos y consecuencias previstas de la prueba ENLACE-MS que se describen en el Manual
Técnico 2013 y materiales que lo acompañan, y que se sintetizan en la Tabla 5.2. Para análisis de reportes específicos
de resultados dirigidos a distintos tipos de usuarios ver análisis de criterios 5 a 8.

105Validez de usos y consecuencias
recibir esta intervención el año siguiente. Por tanto, un docente que pretenda utilizar la prueba
ENLACE-MS se enfrentaría a un proceso relativamente arduo de colección de información, para
generar manualmente reportes para cada una de sus aulas con precisión y validez inciertos,
sobre grupos de estudiantes distintos a los que deberá enfocar su trabajo el siguiente año. El
reporte automatizado a nivel de la escuela que ofrece el sistema de consulta es aún de menor
relevancia para informar la práctica docente, puesto que ni siquiera refleja el aprendizaje de los
estudiantes con que trabajo cada docente sino el agregado de todos los alumnos en la escuela.

En la práctica todo lo anterior limita los usos pedagógicos posibles a acciones prescriptivas
generales como por ejemplo el uso de secuencias didácticas para desarrollar las competencias
que mide la prueba, y el uso de ejercicios tipo
ENLACE-MS para la evaluación de aula. Existe
incluso una cierta confusión en el manual del docente en cuanto de los usos específicos que
se esperan, ya sea para apoyar la práctica docente a futuro, o la reflexión del estudiante en el
presente. El manual en cierta forma deja al maestro y al alumno la tarea de discernir el valor y
la relevancia de los resultados:
Asimismo, se sugiere al docente que aproveche las sesiones de meta-aprendizaje para
hacer énfasis en los propósitos y alcances de la prueba; los estudiantes deben comprender
el valor que tendrá para ellos recibir sus resultados cuando hayan terminado la
EMS si los
aprovechan como fuente para conocer sus áreas fuertes y las de oportunidad. (Manual
para docentes, pág. 45)
Otras acciones recomendadas incluyen reuniones al interior de cada escuela para fortale-
cer los procesos de enseñanza y su aplicación al mundo real (http://enlace.sep.gob.mx/ms/
docs/2009/Dr.Alfonso_Aguilar.ppt) y otras de tipo aún más general cómo la promoción de la
lectura (pág. 48).
El manual y materiales que lo acompañan no presenta evidencia psicométrica que sustente la
fiabilidad del uso diagnóstico basado en subpuntajes ya sea a nivel individual o agregado a
nivel de aula. Este tipo de uso diagnostico requiere evidencia de la calidad de la información
esto usualmente implicaría calcular, reportar, y promover el uso adecuado de un indicador de
precisión escalado ( error estándar) en cada área y nivel de agregación. En cambio, el manual
técnico ofrece solo coeficientes de confiabilidad alfa para puntajes globales a nivel de alumno.
Es importante notar que estos coeficientes no reflejan la precisión de los puntajes que se propo-
ne utilizar (subpuntajes por área agregados a nivel aula o escuela), si no la proporción teórica de
varianza del error en puntajes globales desagregados al nivel del alumno. Estos coeficientes por
tanto son de poca o nula relevancia para informar el grado de adecuación de los usos propues-
tos. La alta confiabilidad de un puntaje global no garantiza la confiabilidad de todos los sub-
puntajes generados (Brennan, 2005; Haberman, 2008), mientras que la baja confiabilidad de
un subpuntaje a nivel individual no significa que el promedio por aula no es confiable (Brennan,
1995). Finalmente, un índice de confiabilidad relativamente alto a cualquier nivel agregación
no garantiza un error estándar e intervalos de confianza que justifiquen las interpretaciones y
diferenciaciones prácticas que se pretenden (Crocker y Algina, 2004).
Finalmente, el manual no explora en detalle el valor de
ENLACE-MS como instrumento para
establecer una línea base para comparar aplicaciones posteriores y establecer el efecto de pro-
gramas y políticas. Aunque el escalamiento y equiparación cuidadosos a través de los años
permiten el seguimiento de tendencias en los niveles más altos de agregación, el uso a nivel de
programas o escuelas individuales presenta complicaciones metodológicas importantes(no se

106Las pruebas
ENLACE
para educación media superior
trata de datos longitudinales de una misma cohorte, sino de datos transversales de cohortes
sucesivas de estudiantes). El manual no presenta ejemplos concretos de usos evaluativos que
se consideran pertinentes o justificados, ni ofrece ninguna reflexión o evidencia que permita
contextualizar o evaluar el uso general propuesto.
En este sentido, es importante también notar que desde la perspectiva de la autoridad, según
se detalla en la documentación disponible, y se afirmó en la reunión de junio de 2014), un
objetivo de la prueba implícito en el propósito más general de “rendir cuentas a la sociedad”
es el de comparar escuelas y sistemas de distinto tipo (considerada importante dada la amplia
variedad de planes de estudio existentes antes e incluso después de la última reforma). Aunado
a la falta de información sobre la precisión de los puntajes que se discutió anteriormente, la falta
de información sobre los mecanismos y procedimientos de comparación propuestos con base
en los resultados de la prueba (entre alumnos y aulas, pero en teoría primordialmente entre
escuelas y subsistemas) genera por lo menos dudas sobre la adecuación de este tipo de usos.
Por un lado se invita al uso diagnóstico de los resultados por parte de docentes y directivos para
conocer fortalezas y debilidades de alumnos y escuelas, y se reportan tablas por ejemplo, de
resultados de una escuela comparando con los resultados de otras escuelas de su estado, mu-
nicipio y localidad con similares características. Por otra parte, se prohíbe explícitamente “hacer
comparaciones entre alumnos, entre escuelas o entre subsistemas”, y sigue el texto, “los únicos
comparativos que pueden ser de utilidad son los que haga cada entidad con ella misma año con
año” (pág. 15). No se aclara que no son las comparaciones en sí, sino interpretaciones y con-
clusiones holísticas sobre la calidad escolar o docente que se deben evitar. En esta línea parece
dudosa también la recomendación de hacer únicamente comparaciones año con año, dadas
las complicaciones metodológicas descritas anteriormente. Las comparaciones descriptivas se
deben permitir si se pretende un uso formativo por docentes y escuelas. Responder a preguntas
como “¿Qué hizo la escuela A este año para alcanzar mejores resultados que la escuela B, aun
cuando la primera trabaja en un contexto menos favorable que la segunda?” o “¿Por qué este
pequeño grupo de alumnos tuvo resultados más bajos que el promedio de mis estudiantes?”
es fundamental para el uso diagnostico propuesto pero implica por necesidad una comparación
de resultados.
Se debe también enfatizar que si el sistema de reporte entrega resultados que invitan una com-
paración (por ejemplo, si se pueden bajar los resultados de todas las escuelas de un municipio
y localidad en una tabla juntos, o si se reportan resultados por estado, donde en una misma
lámina se muestran los resultados de todos los estados) entonces resulta poco convincente
decir al mismo tiempo en los manuales que no se pueden usar los resultados para hacer com-
paraciones: por ejemplo, en el manual para docentes y directivos dice que no se deben “hacer
comparaciones entre estados […] Los datos por entidad son importantes solo para conocer la
distribución de los estudiantes […] y así comparar con los resultados que el mismo estado ob-
tenga año con año” (pág. 44).
El uso diagnóstico de los puntajes por parte del maestro también se basa en supuestos sobre
la sensibilidad instruccional (instructional sensitivity ) de la prueba, es decir, el grado en que
esta es capaz de reflejar diferencias en la calidad (o incluso cantidad) de enseñanza a que está
expuesto un estudiante en un periodo determinado. De forma más general, este supuesto está
implícito en la idea de influenciar el aprendizaje a través de mejoras en la práctica docente que
es parte fundamental del modelo lógico de
ENLACE-MS. Sin embargo, en el manual técnico
no se ofrecen argumentos explícitos, ni evidencia que justifique el supuesto de que la prueba
es sensible a (capaz de reflejar) variaciones en la práctica docente. Lo que es más, en el manual

107Validez de usos y consecuencias
para docentes y directivos se indica que la “sensibilidad a la instrucción” de la prueba ENLACE-
MS es “media/baja” (pág. 13), lo que en principio presenta un problema fundamental para los
usos pedagógicos previstos por parte de los docentes.
A nivel de estudiante, llama la atención que la prueba se aplica en abril del último grado de
educación media superior, y se reporta no antes de junio del mismo año. Esto significa que
los estudiantes conocen sus resultados cuando ya han terminado su trayectoria escolar y es-
tán por empezar una nueva etapa de su vida, una que involucra un grado mucho mayor de
especialización, ya sea en educación superior o en el campo laboral. Resulta poco convincente
entonces afirmar que los resultados de la prueba motivarán al estudiante a “buscar por sí mis-
mo herramientas que le ayuden a mejorar sus habilidades.” (pág. 14, manual para docentes y
directivos). Un modelo lógico subyacente basado en la responsabilidad individual y acciones de
mejora basados en información diagnóstica presupone en principio que la información llega al
sustentante en tiempo y oportunidad, y con i recursos y pautas de retroalimentación adecuadas
que le permitan emprender ese esfuerzo. En contraste, los resultados de la prueba por un lado
se entregan cuando los sustentantes han concluido su educación, con información muy limita-
da para el sustentante (el manual de la prueba establece que “
ENLACE-MS no distribuye guías
para el sustentante, ya que se busca desterrar las prácticas de preparación para los procesos
evaluativos que dejan de lado la formación constante y las actividades de autoaprendizaje para
la resolución de problemas, congruentes con el enfoque por competencias”). Como resultado,
el uso más extendido de la prueba a nivel del alumno es precisamente el contrario: se han ex-
tendido sistemas que buscan expresamente practicar la resolución de ítems “tipo
ENLACE” para
mejorar los resultados en la prueba.
En síntesis, nuestro análisis de la documentación revela fundamentalmente una falta de alinea-
miento entre los usos propuestos de la prueba
ENLACE-MS y los cuerpos de evidencia teórica y
empírica que el organismo desarrollador ofrece para sustentar estos usos.
2. Se documenta y evalúa el grado en que se producen los usos y consecuencias previs-
tas y/o deseables de la prueba.
Una primera conclusión que se deriva de la sección anterior (y de la Tabla 5.2) es que la prueba
ENLACE-MS busca primordialmente cumplir objetivos de tipo informativo y diagnóstico, con un
enfoque particular en los alumnos y sus familias por un lado, y docentes y directivos por otro. En
lo que respecta a las autoridades educativas, el manual especifica también usos de
ENLACE-MS
de corte descriptivo e informativo, sin consecuencias directas para maestros, planteles, o subsis-
temas educativos; el único uso sumativo que se menciona es el fomentar la rendición de cuentas
a la sociedad. Finalmente, el manual menciona a los investigadores como grupo de usuarios,
para que “detecten factores (económicos, sociales, de infraestructura, de enseñanza aprendi-
zaje, entre otros) asociados al nivel de logro de las distintas muestras de población” (pág. 86).
Para evaluar este criterio buscamos evidencia de desarrollo de mecanismos e iniciativas que se
encaminen a y faciliten el monitoreo y la investigación de los usos y consecuencias previstas de
ENLACE-MS. Tal esfuerzo trasciende a investigadores, instituciones u organismos particulares,
y se concibe de forma más amplia como un área de corresponsabilidad y oportunidad para
colaboración entre desarrolladores de pruebas e investigadores. La documentación disponible
refleja algunos esfuerzos aislados de seguimiento de los usos de la prueba, pero no un siste-

108Las pruebas
ENLACE
para educación media superior
ma de monitoreo sistemático. En este sentido, a manera de documentación se nos hizo llegar
únicamente un breve documento de tipo informal e interno producido por la coordinación de
asesores de la
SEP, detallando usos que se dan a ENLACE-MS al interior la propia secretaria a
nivel nacional. Aunque el criterio por lo tanto parece no cumplirse en principio, para nuestro
reporte investigamos de manera más general los usos que dan a la prueba los usuarios previs-
tos, sintetizando evidencia de todas las fuentes disponibles, así como información recabada
especialmente para este proyecto (ver Tabla 5.3) con el propósito de informar el trabajo que el
INEE lleve a cabo a futuro en el desarrollo de la siguiente generación de pruebas nacionales. El
análisis que sigue distingue entre cinco tipos principales de usuarios objetivo, a saber alumnos y
padres, docentes y directores, autoridades, investigadores, y sociedad civil.
Padres y alumnos
El modelo lógico implícito en la prueba
ENLACE-MS incluye la participación de hijos y padres de
familia en los esfuerzos de mejora educativa como actores que se involucran directamente en
el aprendizaje de los estudiantes, y en la labor de los maestros y escuelas. Como evidencia de
uso para este grupo se consultaron los manuales y documentación disponible, estadísticas de
acceso al sistema de consultas, y entrevistas con autoridades estatales y de subsistemas. El papel
de la familias que se describe en el manual técnico incluye por un lado, que los padres participen
en comisiones de observación de la aplicación de la prueba (pág. 63), y por otro que estos y
sus hijos utilicen la información útil que se dice genera la prueba para realizar un diagnóstico
individual de fortalezas y debilidades que contribuya a su mejora individual y por consiguiente a
la del sistema educativo. Sin embargo es notoria la falta de detalle y especificidad en cuanto a
los usos esperados por parte de estudiantes y padres en toda la documentación que acompaña
a
ENLACE-MS. El portal internet no ofrece ningún material de apoyo para padres interesados
en utilizar los resultados de su hijos/as; como documento informal de apoyo se ofrece solo
una breve presentación de Power point desarrollada por un organismo externo (Suma por la
Educación, ver http://enlace.sep.gob.mx/ms/docs/2009/Lic.Francisco_Lopez.ppt) que se limita
a repetir el lenguaje del manual técnico, y por lo demás agrega solo exhortos vagos y lugares
comunes varios acerca de la importancia de la evaluación en general, y la labor de los padres
para “orientar el trabajo escolar de los hijos” en particular.
Los cuadros 5.1 y 5.2 muestran respectivamente los reportes por alumno y escuela que genera
el sistema de consultas en Internet, sobre el desempeño en Comprensión Lectora y Matemáti-
cas, tanto a nivel de puntajes globales como por ítem. Es importante considerar la naturaleza
de la información que contiene el reporte y el procedimiento implícito requerido de un alumno
que pretendiera reflexionar sobre esta información para focalizar esfuerzos para la mejora indi-
vidual. Para ello el alumno tendría primero, que valorar su rendimiento absoluto global referido
a los cuatro niveles o bandas de aprovechamiento: Insuficiente, Elemental, Bueno y Excelente. El
estudiante hipotético que se presenta en el cuadro 5.1 es informado de que tiene desempeño
excelente en Comprensión lectora, lo que significa que:
Estableces relaciones entre elementos de información presentados de distinta manera a lo
largo del texto (imágenes, tablas, glosario). Identificas el sentido de enunciados connotati-
vos y retomas elementos implícitos de una narración para inferir posibles motivos y accio-
nes de los personajes. Reconoces la frase que sintetiza el texto. Relacionas el contenido con
información externa para realizar inferencias, establecer hipótesis e identificar premisas,

109Validez de usos y consecuencias
conclusiones o soluciones. Evalúas la pertinencia de recursos como citas y tablas, además
de la estructura en que se organiza un texto para lograr su propósito comunicativo.
Cuadro 5.1 Reporte de resultados por alumno (Lectura y Matemáticas)

110Las pruebas
ENLACE
para educación media superior
Cuadro 5.1 (cont.) Reporte de resultados por alumno

111Validez de usos y consecuencias
Cuadro 5.1 (cont.) Reporte de resultados por alumno

112Las pruebas
ENLACE
para educación media superior
Al mismo estudiante se informa, sobre su Excelente desempeño en Matemáticas:
Realizas diferentes procedimientos matemáticos y los integras para resolver problemas de
la vida real, tales como conversiones, ecuaciones, análisis de gráficas y tablas, entre otros.
Efectúas conversiones y estimaciones para resolver problemas reales. Identificas la gráfica
de una recta a partir de condiciones dadas. Utilizas el teorema de Pitágoras para solucionar
problemas geométricos. Resuelves problemas de mayor complejidad que implican el mane-
jo de figuras, tanto planas como tridimensionales, y las propiedades geométricas de figuras
incompletas. Puedes realizar cálculos a partir de dos funciones lineales o cuadráticas que
se muestran de manera independiente y mediante distintas representaciones (numéricas,
textuales, gráficas, entre otras).
En el otro extremo, un estudiante hipotético con rendimiento insuficiente en Comprensión Lec-
tora recibe la siguiente retroalimentación:
Ubicas elementos informativos como datos, hechos, citas, términos, explicaciones y accio-
nes presentadas de manera explícita en textos argumentativos, expositivos y apelativos.
Haces uso del contexto en que se presenta una palabra para identificar su significado.
Relacionas párrafos de un cuento o de una carta formal para reconocer el vínculo entre el
contenido y la intención comunicativa del autor.
Y uno con rendimiento insuficiente en Matemáticas:
“res capaz de resolver problemas simples donde la tarea se presenta directamente. Efectúas
operaciones básicas con números enteros. Ejecutas operaciones aritméticas con signos de
agrupación. Encuentras equivalencias entre fracciones simples. Resuelves problemas que
requieren identificar figuras planas y tridimensionales, así como las partes que las confor-
man. Localizas puntos en un plano y/o determinas sus coordenadas. Encuentras relaciones
gráficas o algebraicas sencillas entre dos variables y realizas cálculos con base en ello.
Como siguiente paso el estudiante interesado en usar los resultados que ofrece el sistema pue-
de recibir retroalimentación al nivel de cada ítem específico en la prueba. El cuadro 5.2 muestra
el tipo de información que ofrecen estos reportes, indicando al alumno que sus repuestas inco-
rrectas a los ítems 33 y 75 de Matemáticas sugieren las siguientes debilidades:
“El alumno no logra calcular la cardinalidad de un subconjunto para resolver un problema
de la vida cotidiana que involucra razones/relaciones en una población”
“El alumno no logra resolver un problema de la vida cotidiana que implique generar dos
ecuaciones de la forma ax+by=c y calcular el valor de una incógnita”
y respuestas incorrectas a los ítems 102 y 103 de lectura por su parte indican:
“El alumno no logra identificar una acepción de una palabra utilizada por el autor”
“El alumno no logra identificar el propósito de la tabla que se incluye en un texto”

113Validez de usos y consecuencias
Cuadro 5.2 Retroalimentación por ítem (Matemáticas)

114Las pruebas
ENLACE
para educación media superior
Cuadro 5.1 (cont.) Retroalimentación por ítem (Comunicación)

115Validez de usos y consecuencias
Es importante notar que los reportes no ofrecen ninguna información o soporte adicional a los
alumnos o padres, ni contextualizan la retroalimentación que se ofrece en términos de habilida-
des específicas a desarrollar en la vida cotidiana, o menos aún, acciones y direcciones concretas
en que pueden orientarse los esfuerzos de mejora. La retroalimentación que se ofrece es de
tipo genérico y superficial, y no parece ofrecer una base robusta para informar esfuerzos de
mejora individual por parte del alumno en función de su nivel de desempeño, o a nivel de aula
por parte del docente al diagnosticar los niveles de aprendizaje que demuestran los alumnos en
la prueba (esto último sin considerar que los reportes no se refieren únicamente a los alumnos
de cada maestro, si no a la escuela en general).
Como última fuente de información el alumno podría consultar los resultados agregados que
le indican el porcentaje de alumnos que obtuvo puntajes en cada banda de desempeño en su
escuela, su estado, y a nivel nacional (ver cuadro 5.3). El sistema ofrece también un reporte
detallado sobre el desempeño de los alumnos de un plantel en cada ítem individual. El reporte
se presenta en el panel final del cuadro 5.3. Los resultados por ítem reflejan el porcentaje de
alumnos de la escuela que respondieron incorrectamente a cada pregunta. Los ítems se presen-
tan organizados por tema y se diferencia aquellos que fueron respondidos incorrectamente por
menos de 40% de los estudiantes, entre 40% y 60%, y 60% o más. Sin embargo, ni la docu-
mentación de la prueba, ni el reporte mismo ofrecen un argumento que sustente la utilidad de
este tipo de informe, o la manera prevista de uso por parte de alumnos, padres, o docentes. Es
interesante notar que este sistema no hace distinción alguna entre dos ítems hipotéticos que
respondió correctamente 60% y 100% de los alumnos, aunque estos parecen reflejar reali-
dades distintas en el aula. En cambio, dos ítems con porcentajes de 40% y 60% se clasifican
como diametralmente diferentes (dos categorías aparte) aunque estos podrían corresponder a
realidades pedagógicas no muy distantes. Por lo tanto, se puede cuestionar la base sustantiva
y pedagógica para la organización de estos reportes por ítem a nivel de la escuela, y la usencia
de un modelo de uso de los resultados robusto y adecuadamente sustentado.
Finalmente, la información recolectada por medio de encuestas y entrevistas a autoridades es-
tatales, y de subsistemas educativos refleja esfuerzos limitados para fomentar los usos previstos
de resultados por padres y alumnos. Los resultados de la encuesta (ver anexo 5.1) indican que
solo 40% de los estados realiza algún esfuerzo sistemático en este sentido, y de estos solo en
la mitad de los casos se reporta que el acceso a la información es universal y alcanza 100% de
las familias. Además solo dos de 20 estados (10%) indicaron que informar a los alumnos sobre
sus fortalezas y debilidades es un uso prioritario de la prueba en la entidad, y ningún estado
menciona como un uso importante orientar a los padres. Por su parte, ninguno de los cuatro
estados donde se realizaron entrevistas con las autoridades responsables (tres de los cuales no
están incluidos en la muestra de 20 de la encuesta) indica que se entreguen resultados indi-
viduales a los padres, o se promueva su uso a nivel individual. Anecdóticamente se sabe que
muchos estados entregan resultados agregados por escuela o estado a los padres; por ejemplo
en el Estado de México se informa a los padres antes de la aplicación de
ENLACE-MS sobre el
desempeño de los alumnos evaluados el año anterior, y “las metas establecidas en función de
esos resultados” además de sensibilizarlos a “la importancia de su participación en el aprendi-
zaje de sus hijos.” En Veracruz se promueve que los padres organicen círculos de lectura para
mejorar los resultados en la prueba (y el nivel de lectura en general). Independientemente del
posible valor de esfuerzos de este tipo para la mejora educativa, para efectos de este reporte
estos usos no parecen alinearse con el objetivo propuesto de informar a los padres sobre las
fortalezas y debilidades del aprendizaje de sus hijos. De los subsistemas educativos, solo Bachi-
lleres reporto que se informa a los padres de los resultados generales del plantel que atienden
Cuadro 5.3 Reporte de resultados por escuela
(Lectura)

116Las pruebas
ENLACE
para educación media superior
sus hijos. Ninguno de los sistemas reportó esfuerzos sistemáticos de mejora que involucren
entregar información individual a los padres.
Cuadro 5.3 Reporte de resultados por escuela (Lectura)

117Validez de usos y consecuencias
Cuadro 5.3 (cont.) Reporte de resultados por escuela (Matemáticas)
Cuadro 5.3 (cont.) Reporte de resultados por escuela (Ítems)

118Las pruebas
ENLACE
para educación media superior
Cuadro 5.3 (cont.) Reporte de resultados por escuela (Ítems)
La cuadro 5.3 presenta estadísticas de consulta de resultados individuales y de escuelas en el
portal de internet de
ENLACE MS, desagregadas por estado. El proceso de colectar estas es-
tadísticas fue revelador por dos motivos: primero, el desarrollador no ha dado seguimiento a
las estadísticas históricas de acceso y uso por parte de los diversos usuarios de la prueba, por
lo que solo fue posible conseguir estadísticas para la aplicación más reciente (2014); la falta de
datos básicos sobre usos de los que puede colectarse información con gran facilidad refleja una
falta de atención general al cuidado de los usos y consecuencias de la prueba. Segundo y más
importante: las estadísticas disponibles son reveladoras en cuanto reflejan un uso mínimo por
parte de quienes son, en teoría, el grupo más importante de usuarios objetivo: del millón de
estudiantes que sustentó la prueba en abril de 2014 (1 028 956 según datos de la
SEP) solo el 5
por ciento (aproximadamente 54 mil) habían consultado sus resultados en el portal
ENLACE-MS
al inicio del siguiente ciclo escolar. Las estadísticas sugieren en cambio que el uso más extendido
de los resultados ocurre al nivel de la escuela. Casi la totalidad de los planteles del país donde
se administró
ENLACE-MS (14 027 de 14 125) había ya consultado sus resultados al inicio del
siguiente ciclo escolar. Estas tasas de uso evidencian la falta de alineamiento entre los objetivos
expresos de la prueba y los tipos de usos que se dan a esta en la práctica.

119Validez de usos y consecuencias
Cuadro 5.3 Consultas de ENLACE-MS Escuela y Alumno en los Estados
Entidad
Número de Consultas
Por Escuela (C.C.T.)Por Alumno (
FOLIO)
Aguascalientes 96 278
Baja California 507 2 630
Baja California Sur 94 203
Campeche 78 567
Chiapas 345 724
Chihuahua 175 1 343
Coahuila 322 1 516
Colima 186 393
Distrito Federal 775 4 200
Durango 189 626
Edo. de México 2 389 6 564
Guanajuato 676 1 755
Guerrero 263 1 148
Hidalgo 266 1 882
Jalisco 846 3 532
Michoacán 330 1 939
Morelos 232 849
Nayarit 238 454
Nuevo León 277 2 507
Oaxaca 366 2 095
Puebla 1 193 2 420
Querétaro 163 2 024
Quintana Roo 143 1 035
San Luis Potosí 469 490
Sinaloa 218 3 646
Sonora 207 754
Tabasco 91 697
Tamaulipas 279 2 175
Tlaxcala 497 278
Veracruz 1 604 3 273
Yucatán 154 722
Zacatecas 359 1 229
Totales 14 027 53 948
Los resultados de la encuesta indican por último que la consecuencia más común del uso de
ENLACE-MS en los estados, es el motivar a los estudiantes a trabajar más fuerte (75%), así como
la generación de dinámicas de competencia entre alumnos (50%). Por otro lado, 35% de los
estados reporta desmotivación entre los alumnos, y 20% ansiedad y estrés elevados.

120Las pruebas
ENLACE
para educación media superior
Docentes y Directores
El modelo lógico de mejora de
ENLACE-MS ubica explícitamente al maestro como actor prin -
cipal, al uso que hace este de los resultados para mejorar su práctica docente, como el meca-
nismo central de impacto, y a la escuela como el contexto próximo clave donde se promueve y
facilita este esfuerzo de mejora. El desarrollo un manual específico para docentes corrobora el
carácter prioritario de este uso para los desarrolladores. El manual técnico resume así el valor de
la prueba para escuelas y docentes:
La posibilidad de revisar los resultados por escuela representa una ganancia para las mis-
mas y para los docentes, porque cada pregunta se acompaña del porcentaje de estudiantes
que la contestó correctamente, y se menciona la fortaleza o debilidad que los datos evi-
dencian. De este modo, se pueden conocer los contenidos y procesos que provocan más
errores en el alumnado y mejorar la práctica educativa.
Las autoridades del sistema federal presentes en la reunión de junio de este comité señalaron
que el uso de
ENLACE-MS por los maestros para mejorar las competencias representa la mayor
promesa pero también el mayor reto de la prueba. Las entrevistas con autoridades estatales y
de subsistemas también reflejan una variedad de esfuerzos dirigidos a docentes y directores,
tanto de corte formativo como de mayor impacto. Por ejemplo, en la Dirección General de Ba-
chillerato (
DGB) se utilizan los resultados como factor para emitir un juicio valorativo cuantitati-
vo sobre el desempeño del director como gestor del centro escolar (junto a otros indicadores.)
La
DGB también realiza reuniones donde pide a los centros escolares que presenten, implemen-
ten, y en su caso, modifiquen estrategias de mejora basados en sus resultados. Por su parte la
DGETI convoca reuniones en cada estado para presentar y discutir resultados a nivel nacional
y estatal, y ofrece resultados a los directores por plantel y por grupo, para informar la mejora.
Es importante notar que tanto la
DGB como la DGETI describen el uso diagnóstico de pre-tests
o ejercicios piloto con variaciones de versiones liberadas de la prueba que se aplican al inicio
del año escolar o en quinto semestre para identificar a los alumnos con problemas. Este tipo de
esfuerzo eventualmente se extendió por indicación de la Subsecretaría de Educación Media Su-
perior y en principio parece perseguir el tipo de uso diagnóstico de la prueba al que alude el ma-
nual, pero es importante notar que en realidad no es un uso propuesto, sino uno paralelo que
es difícil evaluar con base en los criterios empíricos establecidos en este reporte(no se conocen
el tipo de adaptaciones o variaciones que se hace a las versiones liberadas, las condiciones de
aplicación, las características psicométricas de los ítems y los puntajes resultantes, entre otros).
Igualmente difícil es evaluar las consecuencias de esfuerzos de tutoría dirigidos a alumnos con
problemas derivados de estos ejercicios . Los manuales técnicos y del docente prescriben es-
fuerzos de mejora amplios enfocados al desarrollo de competencias en general, no solo a in-
crementar los puntajes en la prueba
ENLACE. Sin embargo, en la práctica los procesos que se
describen se ajustan más al segundo objetivo que al primero. Según describen autoridades
estatales y de subsistemas, los ejercicios piloto informan materiales y esfuerzos para remediar
deficiencias que involucran a maestros, alumnos, e incluso padres de familia a quienes se pide
intervenir para ayudar a mejorar el rendimiento de sus hijos. Las entrevistas describen esfuerzos
y talleres focalizados en la resolución de ejercicios de exámenes anteriores y que en algunos
casos se identifican específicamente como entrenamiento dirigido a la “resolución de ítems tipo
ENLACE”. Algunos estados/sistemas aplican un segundo piloto (denominado retest) a mediados
de sexto semestre y los resultados pueden llevar a un segundo taller de refuerzo.

121Validez de usos y consecuencias
En el estado de Veracruz y el sistema de Bachilleres se describe un sistema de semaforización
que consiste en un análisis por ítem en Español y Matemáticas, con referencia a los resultados
de
ENLACE, seguimiento a través del tiempo, y énfasis en los ítems que muestran mayor pro-
porción de errores. El análisis se presenta como un semáforo a cada plantel en un dossier con
información detallada para su trabajo en academia para adecuar el trabajo docente(en Veracruz
se realiza una semaforización para cada subsistema, y cada uno de estos es responsable de des-
agregar los resultados por plantel). Este tipo de usos, por ejemplo, academias de matemáticas,
se ajustan más al diagnóstico formativo de bajo impacto que describen los manuales, aunque
enfrentan todavía el problema de relevancia al no permitir todos los estados y subsistemas un
diagnóstico fino a nivel de aula. Es aparente que existe gran variabilidad en el grado de desa-
rrollo, adecuación, y eventualmente éxito de estos esfuerzos entre los estados y subsistemas;
lo que representa un llamado a realizar una evaluación más rigurosa y detallada de implemen-
tación e impacto.
Los resultados de la encuesta con autoridades reflejan esfuerzos generalizados que involucran
a los docentes en el uso de los resultados de
ENLACE-MS. Nótese que 60% de los estados
reporta entregar resultados a los docentes en forma individual, 8 lo hacen en persona y 4 por
medio de impresos. Otros 7 estados reportan acceso a los resultados por medio de Internet,
aunque este parece ser por medio del sistema de consulta nacional que ofrece la
SEP. Por otro
lado, 70% reporta usar los resultados para informar el trabajo y autoevaluación escolar, 50%
indica usarlos prioritariamente para orientar la intervención pedagógica, y 45% para orientar la
capacitación de profesores (en ningún caso se usa para propósitos de evaluación docente). La
información de la encuesta es interesante también en cuanto apunta a conflictos y contradic-
ciones importantes en la operación y consecuencias de la prueba: así, 19 de 20 estados (95%)
señalan que el uso de la prueba representa un apoyo para el docente al diagnosticar las nece-
sidades de sus estudiantes, y 80% indica que esta motiva a los maestros a mejorar su trabajo.
Por ultimo 65% de estados indica que los maestros se centran excesivamente en los contenidos
y formatos de la prueba.
Autoridades
Aunque de carácter voluntario, la participación en la prueba
ENLACE-MS se ha incrementado
considerablemente desde su introducción, y en la actualidad la mayoría de las preparatorias del
país administra la prueba; esto incluye más de 90% de preparatorias públicas, y cerca de 15 mil
privadas. Según afirmaron las autoridades de
SEP presentes en la reunión de junio “ENLACE-MS
es un principio de identidad que permite que muy diversos tipos de instituciones se comparen
en una base común, al punto que las instituciones lo reconocen como un faro”. En esta sección
del reporte se considera (además de la documentación, entrevistas y encuestas) información
proporcionada por la
SEMS que refleja el tipo de esfuerzos emprendidos a nivel nacional (“Ac-
ciones Emprendidas por los Subsistemas Federal y Federal Descentralizado”).
Estos usos incluyen algunos que ya se mencionaron en secciones anteriores referidas a alumnos,
docentes y planteles, como la difusión de resultados en Internet y la publicación en “espacios
concurridos y lugares visibles”; reuniones de discusión de resultados y planes de aprovecha-
miento de la información que arroja la evaluación; talleres de elaboración de reactivos tipo
ENLACE para docentes; difusión del manual Técnico y del Docente; análisis de resultados del
plantel para identificar factores de incidencia y áreas de oportunidad. Se realizan ensayos y

122Las pruebas
ENLACE
para educación media superior
aplicaciones piloto para identificar alumnos en riesgo; y se implementan estrategias dirigidas
específicamente a preparar a los alumnos para la prueba. Las reuniones para padres en parti-
cular buscan su colaboración para sensibilizar a los alumnos sobre la importancia de la prueba,
lo cual apunta a un escalamiento de facto de las consecuencias formales o informales que se
asocian a esta. Además se realizan acciones como concursos académicos con pruebas anterio-
res; selección de alumnos destacados como monitores académicos para apoyar a otros de bajo
desempeño; se integran reactivos de
ENLACE en la enseñanza y evaluación en aula; se elaboran
de materiales didácticos; y se implementan programas de apoyo a la lectura.
Por último, se han extendido los programas P
ROFORDEMS y PROFORDIR de formación de docen-
tes y directivos con énfasis en competencias en lectura y matemáticas, y se ha implementado el
programa Síguele (Sistema de Alerta Temprana) en todos los planteles federales centralizados
y descentralizados, y en 25 sistemas estatales. Este programa incluye por un lado, tutorías para
jóvenes de bajo rendimiento apoyadas por una creciente red nacional de tutores formados es-
pecíficamente para ello, y por otro, un programa más amplio de fomento a la lectura, que busca
desarrollar lectores autónomos apoyando la lectura como actividad básica y cotidiana en todos
los planteles, mediante el rediseño de bibliotecas, adquisición de acervo, uso de tecnologías, y
creación de círculos literarios. Todo lo anterior refleja un esfuerzo muy extenso e importante di-
rigido a la mejora de competencias en lectura y matemáticas, que a todas luces parece deseable
en un sistema educativo en modernización; sin embargo, no es clara la relación de cada esfuer-
zo con los resultados y usos específicos de la prueba
ENLACE-MS, o cuáles esfuerzos podrían
existir con una prueba de diseño diferente o incluso en ausencia de una prueba de este tipo.
En general es importante notar que aunque la documentación y las autoridades entrevistadas se
refieren a la importancia de privilegiar el uso diagnóstico y formativo de la prueba, y evitar usos
indebidos como incentivos o rankings, la evidencia en su conjunto sugiere que en la práctica
este tipo de usos se han ido extendiendo a través del sistema. El manual mismo ya prevé que
los planteles con alto rendimiento promocionen sus resultados (mediante el uso de carteles por
ejemplo), lo que de facto propone una comparación cuantitativa directa y no contextualizada.
En el mismo sentido, las entrevistas con autoridades estatales y de los subsistemas educativos
sugieren que se están extendiendo los esfuerzos de ordenamiento o rankeo con consecuencias
moderadas a altas (Guanajuato,
DGETI). Las autoridades de subsistemas sugieren que los re-
sultados de
ENLACE-MS se utilizan para posicionar a los planteles al interior de los subsistemas
(por ejemplo los colegios de bachilleres realizan un ordenamiento o rankeo de planteles al
interior de cada estado), y a los subsistemas dentro de una gama de oferta educativa. Desde la
SEMS se promueve el establecimiento de acciones mínimas necesarias para afrontar la Prueba
en años subsecuentes, que nuevamente parece reflejar consecuencias más focalizadas y tal vez
mayor impacto de lo previsto. En lo que respecta a consecuencias directas para planteles, se
sabe que algunos estados han comenzado a dar reconocimientos e incluso incentivos importan-
tes a las escuelas de alto rendimiento (Durango o Guanajuato) o a aquellas que reflejen mejora
significativa (Veracruz). Por otra parte es interesante notar que las respuestas de los funcionarios
a la encuesta no reflejan el mismo énfasis en usos de alto impacto. Un porcentaje menor de
estados reporta hacer llegar resultados a autoridades municipales (10%), coordinadores regio-
nales (20%), y supervisores de escuela (15%). Sin embargo una mayoría de estados (70%) indica
utilizar los resultados a nivel del sistema educativo para analizar tendencias y factores asociados,
y otro tanto lo usa para fomentar procesos de autoevaluación y mejora en las escuelas como ya
se indicó anteriormente.

123Validez de usos y consecuencias
Es interesante notar que aunque solamente cuatro estados (20%) reportan utilizar los resulta-
dos de
ENLACE-MS para evaluar políticas y programas educativos (y dos asocian los resultados
a la evaluación de planteles educativos), 17 (85%) indicaron que una consecuencia del uso de la
prueba ha sido una mejor valoración de la calidad de los programas.
El patrón parece claro en el sentido de que las comparaciones y usos de mediano y alto impac-
to, aunque expresamente señaladas como inapropiadas en el Manual Técnico, en la práctica
se están extendiendo en todos los estados. En concreto podría verse como signo preocupante
que aunque los 20 estados encuestados indicaron que la prueba ha resultado en esfuerzos de
análisis y mejora de la enseñanza, 19 de ellos (95%) indicó a la vez haber implementado medi-
das dirigidas a aumentar los puntajes de la prueba (95%), y 75% operacionaliza estos esfuerzos
específicamente en forma de medidas para preparar a los alumnos en las escuelas (75%). El
panorama general, por tanto, sugiere un cambio en el contexto de uso y evaluación de la prue-
ba y tiene implicaciones directas para las propiedades y requerimientos técnicos de la misma:
por ejemplo, los reportes de resultados no consideran el porcentaje de alumnos presentes en
cada escuela/estado/subsistema el día de la aplicación, lo que podría representar una limitación
importante al hacer comparaciones en estos niveles si no se proporciona evidencia que garan-
tice niveles comparables de asistencia y descarte la posibilidad de procesos de eliminación de
estudiantes débiles al interior de las escuelas. Igualmente, no se utilizan algoritmos de copia y
detección de fraude, pero estos se hacen necesarios con una prueba de mayor impacto. Por
último y como se indicaba ya en las secciones anteriores, existe evidencia que hace temer que
se están extendiendo prácticas cuestionables de enseñanza enfocada a reactivos y contenidos
de la prueba, y no a competencias y conocimientos más amplios.
Investigadores
El manual técnico identifica como prioritario que además de difundir los resultados a alumnos,
padres, directores, docentes y autoridades, la información se haga llegar también “a otros eva-
luadores, de modo que se contribuya a la difusión del instrumento y la adecuada interpretación
de sus resultados.” El informar y facilitar la generación de conocimiento por medio de análisis
de “factores asociados” es un objetivo explícito de
ENLACE-MS (y de cualquier prueba de gran
escala de características similares) que a la fecha no se ha cumplido por la falta de mecanismos
y condiciones para facilitar y promover el acceso a la información. Este uso presupone acceso a
información y resultados al nivel del estudiante y la escuela, así como un reporte detallado de las
variables e información adicional contextual disponible (por ejemplo, información del cuestiona-
rio de contexto del alumno y director). El uso por parte de la comunidad académica es de vital
importancia en el caso de una prueba de la escala y alcance de
ENLACE; el análisis riguroso de
los datos ofrece generar información y conocimientos importantes acerca del aprovechamiento
de los estudiantes y los factores que se asocian a este. Sin embargo, en la práctica el manual
asigna a los investigadores un papel secundario y ofrece recursos limitados de uso, limitando la
producción y publicación de estudios.
Lo anterior explica el número tan limitado de estudios publicados o disponibles que utilizan
los resultados de la prueba. El cuadro 5.5 lista un pequeño número de estudios (algunos pro-
porcionados para este reporte por los desarrolladores, y otros encontrados en una búsqueda
en los sistemas google y google scholar.) Estos incluyen tres artículos publicados en revistas
especializadas, tres reportes de investigación de organismos nacionales e internacionales, y dos
reportes desarrollados internamente por C
ENEVAL. Aunque con toda certeza existirán algunos

124Las pruebas
ENLACE
para educación media superior
ejemplos adicionales no detectados en esta búsqueda, y otros que se encuentren en proceso
de desarrollo o publicación (se incluye uno en el recuadro), el resultado es indicación clara de
que el número de estudios académicos y publicaciones científicas sobre —o utilizando las bases
de datos de— la prueba
ENLACE-MS es en general muy reducido. Parece importante por tanto
fortalecer los canales para promover el uso de esta información por parte de los investigadores.
Se evidencia entonces un escaso vínculo de colaboración con el mundo académico, lo que limita
el desarrollo de esfuerzos conjuntos que requiere el cumplimiento de este criterio a mediano
plazo, y que puedan informar las prácticas y políticas educativas como se pretende. Por el
momento, el portal internet no ofrece acceso a las bases de datos primarias de
ENLACE-MS, ni
información para investigadores interesados en utilizarlas para estudios e investigaciones aca-
démicas, evaluación de las propiedades psicométricas de la prueba, evaluación de impacto de
programas y politicas, u otros. Solo se pone a disponibilidad de los investigadores un archivo de
Excel con agregados por escuela de resultados globales. Este tipo de agregado generalmente
no es de mucha utilidad para la investigación empírica rigurosa, que requiere datos a nivel de
estudiantes e ítems individuales.
Cuadro 5.5 Estudios que usan la base de datos de E
XCALE
1
Avitabile and De Hoyos (2014) "The heterogenous effects of information about returns to schooling on
student learning: Evidence from a randomized controlled trial in Mexico", The World Bank, Washington
DC.
2C
ENEVAL (2013), Informe Ganancia Educativa 2010-2013 ENLACE-MS.
3
C
ENEVAL (2012) Evaluación de indicios de competencias disciplinares básicas de ciencias sociales
y ciencias experimentales. Estudio exploratorio de desempeño y análisis de indicadores de competencia
de
ENLACE-MS.
4
Contreras Roldan, S., y Backhoff Escudero, E. (2014) Tendencias en el aprendizaje de la educación media
en México: Una Comparación entre
ENLACE, EXCALE y PISA. Revista Nexos, Octubre 2014.
5
De Hoyos, Espino y García (2012) "Determinantes del logro Escolar en México: Primeros Resultados
Utilizando la Prueba
ENLACE Media Superior", El Trimestre Económico, Fondo de Cultura Económica,
vol. (316), páginas 783-811, octubre.
6
De Hoyos, Attanasio y Meghir (2015, en preparación) Impacto del programa de Becas
EMS
sobre el abandono escolar.
7
Estrada, y Gignoux (2014) Benefits to elite schools and the formation of expected returns to education:
Evidence from Mexico City, Paris School of Economics, Wk.Paper #2014-06.
8
Mancera, Priede, y Serna (2012) El desempeño de los becarios del Programa Oportunidades
en la prueba
ENLACE: cambios entre 2008 y 2011 en educación básica y media superior.
Reporte al programa oportunidades.
9
Martínez, Soto, Silva y Velasco (2013) Efectos de la Infraestructura Básica en los Resultados de la Prueba
ENLACE de la Educación Media Superior Tecnológica Mexicana. Revista Iberoamericana sobre Calidad,
Eficacia y Cambio en Educación, 11(4), 93-107.
10
Rubio y Farías (2013) Efectos escolares en las escuelas de nivel medio superior de la Ciudad de México.
Un estudio de valor agregado. El Trimestre Económico, Fondo de Cultura Económica, vol. 0(318), p 371-399.
Es notoria también la falta de trabajos comparativos o complementarios que usen datos de
ENLACE-MS en conjunto con los de las otras pruebas nacionales que se aplican en este nivel.
Parece clara la necesidad de promover este tipo de estudios y comparaciones para analizar en
mayor detalle los patrones de cambio en los resultados en indicadores derivados de
ENLACE-
MS. Tal comparación podría ofrecer evidencia de validez y alineamiento o, por el contrario, de
patrones de inflación de puntajes, preparación para la prueba, que puedan indicar áreas donde
se requiere refinar la administración y operación del sistema. Se pudo encontrar únicamente
un estudio muy reciente de este tipo, realizado al interior del
INEE que compara ENLACE con

125Validez de usos y consecuencias
EXCALE y PISA (Contreras y Backhoff, 2014). La evidencia de este estudio apunta claramente
a una inflación de los puntajes de
ENLACE-MS, lo que no debería sorprender a la luz de los
esfuerzos extendidos y abiertos de la autoridad y los sistemas por mejorar los resultados de los
alumnos en la prueba.
Entre otros estudios existentes, el informe de ganancia educativa merece mención especial
por la importancia y visibilidad que ha adquirido entre las autoridades federales y estatales, (y
por extensión la prensa y el público en general). Este estudio reporta el grado de desarrollo de
las competencias de los alumnos durante el bachillerato y permite la comparación de tasas de
crecimiento entre estados, sostenimiento, nivel de marginación, subsistemas entre otros. Tanto
las autoridades de la
SEMS como las estatales refieren que los resultados de este estudio se
analizan con cuidado y se utilizan para informar esfuerzos de mejora. Esto refleja la utilidad
y valor de la información que se deriva de estudios de metodología rigurosa, aunque en este
caso no se trata de la prueba
ENLACE-MS operativa, sino de una aplicación muestral controla-
da paralela. Aun así es importante notar que el informe se puede mejorar considerablemente
desde el punto de vista técnico, para presentar un análisis más cuidadoso y sistemático de
las tendencias observadas, y fortalecer la interpretación de las comparaciones que se ofrecen
identificando su grado de precisión estadística. Además es notoria la ausencia de análisis más
finos y detallados que utilicen la información de los cuestionarios de contexto del alumno y la
escuela para comparar los resultados entre grupos de alumnos, salones, y escuelas de perfiles,
características, y contextos diferentes y extraer así información para el diseño e implementación
de esfuerzos de mejora. En cambio, la evidencia anecdótica que se tiene, y los señalamientos de
las mismas autoridades presentes en la reunión de junio de este comité sugieren que el estudio
de ganancia educativa se utiliza desde el punto de vista de la autoridad más como herramienta
de motivación o presión hacia estados y subsistemas (un uso que específicamente proscribe el
Manual Técnico), que como conducto para la generación de conocimiento (un uso que explíci-
tamente se señala como prioritario).
Por último, los resultados de la encuesta y las entrevistas con autoridades estatales confirman
que estas no consideran el análisis de los datos por parte de especialistas e investigadores como
prioritaria, ni en ningún caso la promueven al interior de sus sistemas. En cambio, 70% de los
estados indicaron usar
ENLACE-MS para “analizar tendencias y factores asociados”. Sin em-
bargo, estos esfuerzos y análisis se limitan al monitoreo simple de tendencias y comparaciones
gruesas como las que ofrece el estudio de ganancia educativa.
Prensa
Finalmente, se realizó una revisión sistemática de notas de prensa aparecidas en tres diarios
de circulación nacional desde el año 2011 a la fecha, para detectar artículos relacionados di-
rectamente con las características, resultados o usos de la prueba
ENLACE-MS. Esta búsqueda
produjo una cuarentena de artículos que se consideraron relevantes para su inclusión en este
reporte. Este número es menor que el de la prueba
ENLACE de educación básica, lo que se
explica si se considera el impacto más extenso y directo de aquella en la evaluación docente y
de escuelas. En cambio, el número es considerablemente mayor que el de la prueba
EXCALE,
lo que también se explica dado el bajo impacto y nivel de uso que se reportaba en el informe
correspondiente a esa prueba.

126Las pruebas
ENLACE
para educación media superior
Los artículos y notas recabados referidos a ENLACE-MS se pueden clasificar en tres grupos
principales: El primero incluye la mayoría de los artículos y se enfoca al reporte de los resultados
de la prueba. Entre estos se pueden distinguir aquellos buscan detallar bajos niveles de logro, y
exhibir el mal estado, tendencias negativas, o incluso el fracaso del sistema educativo nacional
o estatal (19 artículos); otro grupo (tres) realiza comparaciones entre estados o subsistemas
educativos (por ejemplo entre escuelas públicas y privadas); el tercer grupo (seis) se enfoca a
reportar esfuerzos exitosos de mejora, identificar escuelas de alto rendimiento, y otros ejemplos
de excelencia.
Otro grupo considerable de artículos (nueve) busca analizar o criticar el sistema de pruebas
EN-
LACE-MS en su conjunto, incluyendo sus contenidos, características operativas y de aplicación,
valor relativa al costo y beneficios obtenidos por alumnos, docentes, escuelas o la sociedad en
general (incluyendo notas que reflejan opiniones y críticas directas de expertos). El último grupo
(cuatro) incluye editoriales y artículos de opinión de expertos que abordan la prueba desde una
perspectiva amplia y enfocada a retos y dilemas de la política educativa.
Por último, un grupo minoritario pero significativo de respondentes en la encuesta de autorida-
des reportó problemas al interior de sus estados, por lo que llamaron injerencia y campañas de
la prensa, organismos y personas de la sociedad civil, quienes han irrumpido en debates sobre
políticas educativas con diversos intereses y grados de conocimiento de la realidad educativa.
B. Acceso equitativo y capacidad de interpretación y uso
3. Los resultados de las pruebas se reportan en plazos razonables y se proveen mecanis-
mos de difusión y acceso para todas las partes involucradas sin discriminación.
La participación voluntaria de escuelas en la prueba
ENLACE-MS ha aumentado considerable-
mente en los últimos años, de 11 mil en 2008 a cerca de 14 mil en 2013. Igualmente el número
de alumnos evaluados se incrementó de 808 mil a más de un millón en ese mismo periodo. A
pesar de esta alta tasa de participación, no parece existir un plan claro y consistente de difusión
de resultados a las familias y estudiantes participantes. Originalmente la documentación de la
prueba proponía entregar a cada familia un diagnostico impreso de los contenidos a reforzar
con sus hijos (y afirmaba que México era el único país de Latinoamérica en hacerlo). Sin em-
bargo el sistema actual no parece contemplar este tipo de distribución universal de resultados
impresos; se realiza en cambio un diagnóstico inicial basado en versiones modificadas de años
anteriores que se administran al interior de cada escuela. Con base en estos resultados se pro-
mueven reuniones de información y sensibilización con padres de familia, en preparación para
la aplicación operativa al final del ciclo escolar.
En cuanto a los resultados de la aplicación anual operativa, los manuales no especifican los
plazos en que se reportarán los resultados de
ENLACE-MS. La documentación alude a la impor-
tancia de entregar resultados oportunamente pero no establece un plazo o fecha específica. La
página web solo menciona las fechas de aplicación 2014 (1-3 abril, 2014). Existe un número de
teléfono de asistencia, pero no se especifican periodos y horarios de atención. Asimismo, las
entrevistas con estados y subsistemas tampoco refieren esfuerzos de difusión universal impresa
en esos niveles; a reserva de que existiera evidencia contradictoria de estados no entrevistados

127Validez de usos y consecuencias
en este reporte, el mecanismo principal de difusión de resultados de ENLACE-MS para padres
y alumnos es el portal internet de la prueba (http://enlace.sep.gob.mx/ms/). Esto implica que
la consulta de resultados requiere acceso a Internet ya sea en casa o dentro del plantel escolar,
(además del número de folio o
CURP del estudiante) lo que en el contexto mexicano puede
limitar grandemente el alcance y utilidad de la información.
Esto parece sugerir que no se considera prioritaria la difusión universal y oportuna de resultados
de la prueba operativa a los egresados o sus familias. La función informativa a nivel individual
se aborda con las pruebas diagnósticas aplicadas al inicio del año, y la prueba operativa se
orienta más específicamente a informar a las autoridades, a las escuelas y en menor medida, a
los docentes.
La documentación disponible no ofrece lineamientos u otra información de apoyo para facilitar
la interpretación y uso de los resultados por parte de los padres, —a excepción de la breve y
limitada presentación que se describió en la sección anterior—. Sin embargo, es posible que
los esfuerzos de sensibilización al interior de las escuelas provean información suficiente para
permitir a los padres interpretar los reportes finales de resultados. Los padres también pueden
acceder a resultados por escuela si conocen la Clave del Centro de Trabajo (
CCT), o alternativa-
mente mediante “Otros criterios de consulta” seleccionando la entidad, municipio, y localidad
de interés y especificando el “nombre de la escuela” como criterio de ordenamiento.
En cuanto a la difusión para docentes y escuelas, como se observó anteriormente, el manual del
docente ofrece orientación muy limitada sobre usos particulares a implementar en el aula, y el
sistema de consultas no ofrece al docente resultados desagregados por aula. La documentación
disponible y las entrevistas realizadas para este reporte refieren amplios esfuerzos de difusión y
uso de los resultados a nivel de la escuela (y en algunos casos el aula). Por tanto las reuniones de
escuela y academias disciplinares parecen constituir el mecanismo más importante de uso para
docentes y directores. Finalmente, el manual técnico 2013 ofrece a las escuelas la posibilidad de
solicitar carteles impresos dirigidos a la comunidad educativa del plantel (pág. 73); no se pres-
criben usos o se ofrecen lineamientos de interpretación de la información pero se deduce que
se busca que las escuelas de alto rendimiento puedan promocionar sus buenos resultados. Este
tipo de uso se puede considerar legítimo, pero en principio también parece contrario en espíritu
a la meta de evitar interpretaciones descontextualizadas, y usos no formativos de la prueba.
4. Se apoya a instituciones y usuarios para desarrollar la capacidad necesaria para la
adecuada interpretación y utilización de los resultados.
La documentación facilitada por C
ENEVAL y SEMS para este reporte detalla el amplio esfuerzo
realizado para apoyar el uso adecuado y efectivo de los resultados de
ENLACE-MS. Este incluye
iniciativas de tipo muy diverso a todos los niveles del sistema. Entre las más importantes se
puede mencionar a nivel de sistema, la realización de visitas promocionales y foros anuales
de interpretación de resultados en los estados; la conformación del Comité de Difusión de la
Prueba
ENLACE-MS; la realización de seminarios y talleres de uso y difusión de resultados con
especialistas; y por último las reuniones estatales anuales para analizar e interpretar resultados,
y derivar planes de mejora a nivel de subsistemas educativos. En cuanto a la utilización de resul-
tados por individuos, el esfuerzo comprende primero imprimir folletos informativos para padres
y dar difusión amplia al manual del docente. En segunda instancia y con mayor importancia, la

128Las pruebas
ENLACE
para educación media superior
aplicación de pruebas PreENLACE es la pieza central que busca permitir a maestros y alumnos
diagnosticar fortalezas y debilidades e informar sus esfuerzos de mejora y la práctica educativa
en general.
A nivel más amplio, el sistema educativo apoya programas de equipamiento de bibliotecas y ca-
pacitación docente que buscan la mejora de competencias reflejadas en los resultados de
ENLA-
CE. Sin minimizar el éxito que representa la simple implementación de esfuerzos de esta escala
y profundidad, los análisis que se presentan en otras secciones de este reporte también generan
cuestionamientos validos sobre las características y mecanismos específicas de algunos de estos
esfuerzos, y su alineamiento con los objetivos y el diseño de la prueba (para mayor detalle con-
sultar criterios 1 al 3 y 5 a 8). Es por tanto importante distinguir entre el uso propiamente dicho
de la prueba y la ejecución de programas de apoyo y desarrollo implementados por la autoridad
educativa (por ejemplo programas de tutoría y desarrollo profesional, o programas de fomento
como Síguele). Estos programas podrían (y seguramente deberían) existir independientemente
de la presencia, características, y usos de una prueba específica.
C. Comunicación que facilite la buena interpretación de los resultados
5. Se informa a los usuarios sobre los propósitos y características de la prueba, lo que
puede o no medir, y los usos y consecuencias previstas. Se ofrecen ejemplos e infor-
mación suficiente sobre la interpretación correcta de los resultados.
Los esfuerzos de comunicación de resultados de la prueba
ENLACE-MS se rigen por un Comité
de Difusión que se formó precisamente para este propósito. En su introducción, el manual
técnico 2013 identifica explícitamente tres grupos de usuarios de resultados de
ENLACE-MS:
a) alumnos y sus padres; b) docentes y directivos de escuelas; c) autoridades educativas a nivel
estatal y nacional. Este análisis por tanto se refiere al grado en que los reportes de resultados fa-
cilitan la adecuada interpretación de los resultados por estos grupos de usuarios, sin necesidad
de recurrir a información adicional disponible en el manual técnico u otras fuentes.
El portal de la
SEP (http://www.enlace.sep.gob.mx/) ofrece para su descarga diferentes infor-
mes de resultados a nivel del alumno, escuela, entidad, y país. Los resultados nacionales y de
entidad se entregan en presentaciones descargables. Además, los datos a nivel escuela de todas
los planteles del país, o de cada estado por separado, están también disponibles para el público
(uno a la vez). Los reportes de resultados que genera la página web no describen las característi-
cas de la prueba, no aclaran lo que ésta mide y no puede medir, ni las decisiones que se pueden
basar en los resultados. Tampoco se presentan usos propuestos de los resultados, ni se incluye
información y sugerencias explícitas para minimizar la incidencia de interpretaciones equivoca-
das o usos inapropiados de los resultados. Se debe notar que esta información sí se ofrece de
forma repetida en los manuales, folletos, y otros documentos informativos tanto impresos como
en la página web. Sin embargo, el manual técnico establece que los informes deben contener
ese tipo de información (pág. 75), y esto no se da en la práctica.

129Validez de usos y consecuencias
Informes de resultados a nivel alumna/alumno
Estos se dirigen explícitamente a padres y estudiantes y tienen el propósito principal de dar a
conocer los temas que requieren reforzamiento, para mejorar así las competencias del estudian-
te en las áreas testeadas. Los estudiantes y padres pueden acceder a la información a través
de la página web de la
SEP, opción “Resultados por alumno ENLACE-MS 2013” ingresando el
número de folio o
CURP. Se ofrecen los resultados de cada alumna/alumno, en comparación
con los alcanzados por alumnos del estado y del país en escuelas con el mismo sostenimiento,
modalidad y grado de marginación. Además, se entregan descripciones de los niveles de des-
empeño. Se pueden consultar todas las preguntas de la prueba con la respuesta elegida por
el estudiante, la opción correcta, y lo que significa en términos de habilidades. Los manuales
presentan esta tarea de revisar los reactivos con su respuesta correcta como el principal objetivo
del reporte individual, para que el sustentante pueda autodirigir su proceso de aprendizaje (Ma-
nual para docente y directivos, 2014, pág. 46; Manual técnico 2013, pág. 75). Sin embargo, se
debe pinchar en cada pregunta por separado y no existe una opción de impresión que contenga
todos los reactivos con sus respuestas correctas y habilidades correspondientes. En un futuro
se podría pensar en un formato que facilite la consulta e incentive este tipo de usos a nivel indi-
vidual. Por otro lado, es destacable que la interpretación y uso de la información recibida para
la mejora individual parece dejarse en gran medida al estudiante mismo, incluso en el sentido
de diagnosticar las áreas y acciones necesarias de mejora (el reporte por alumno sugiere “Te
recomendamos revisar los demás niveles para que conozcas los aspectos que debes mejorar”).
Informes de resultados para docentes y directivos a nivel escuela
Los reportes por escuela incluyen solo resultados numéricos en formato tabla, sin texto adicio-
nal que facilite la interpretación y contextualización (con excepción del texto que describe los
cuatro niveles de desempeño por asignatura), ni información sobre propósitos, y recomenda-
ciones de uso. A través de la página web de la
SEP los docentes y directivos pueden consultar
los resultados detallados a nivel de cada pregunta de la prueba, además de tener acceso a las
pruebas completas. Esta información está disponible a través de “
ENLACE-MS”, “Resultados
2013 por Escuela”, ingresando el
CCT de la escuela. De nuevo, no hay información textual adi-
cional que ayude la correcta interpretación, excepto las descripciones generales de los niveles
de desempeño.
Además de los informes sobre el desempeño de cada escuela, la página web permite acceso
público a una base de datos que contiene los resultados a nivel plantel de cualquier estado, mu-
nicipio, y localidad, ordenado por nombre de la escuela, o bien por niveles de desempeño. Esta
base no se acompaña con ningún documento que permita interpretar y contextualizar los resul-
tados, o conocer las características técnicas de los indicadores y comparaciones que se deriven.
Ni los reportes ni la página web ofrecen ejemplos o apoyo adicional para la interpretación co-
rrecta de los resultados. Por ejemplo, no se dan ejemplos para ilustrar una interpretación con-
creta y adecuada del nivel de logro alcanzado a nivel alumno en la asignatura de matemática, ni
para la comparación que se sugiere entre resultado de un alumno específico y grupo, escuela,
entidad y país. Se evidencia la falta de videos, animaciones, y otros elementos gráficos atracti-
vos y eficientes que podrían ser efectivos para ofrecer ejemplos de buenas prácticas en el uso de
resultados. En el caso de los reportes a los que acceda el docente, estos también podrían incluir

130Las pruebas
ENLACE
para educación media superior
síntesis cualitativas y estudios de caso que puedan justificar y representar adecuadamente los
usos de la prueba.
6. Se utiliza lenguaje claro y preciso sin jerga técnica innecesaria; se explican términos
técnicos en lenguaje claro y comprensible para una audiencia general.
Como en el caso de los criterios anteriores, este se refiere a la manera en que los resultados de
ENLACE-MS se comunican a una audiencia amplia de usuarios, incluyendo a padres y docentes
de aula, por medio de los reportes y materiales correspondientes. Los informes de resultados
por lo general evitan el uso de texto; los resultados se comunican utilizando tablas princi-
palmente. Los niveles de desempeño de la prueba se describen de manera general y usando
un lenguaje que se puede asumir es accesible para maestros y personas familiarizadas con el
ámbito educativo. En otras secciones se cuestionó si los usos implementados son efectivos o
adecuados, y se podría sugerir una combinación de formatos de comunicación para facilitar la
adecuada interpretación de los resultados. Sin embargo, para efectos de evaluar este criterio
los textos disponibles utilizan un lenguaje de nivel técnico bajo y parecen adecuados para este
tipo de lector.
Esta valoración difiere por completo cuando se refiere a la interpretación y uso de los resulta-
dos por parte de alumnos y padres de familia. Persiste la duda de si la mayoría de los padres
puede manejar adecuadamente el portal Internet para acceder a la información disponible a
nivel estudiante y escuela, e interpretarla correctamente para sacar conclusiones concretas y
útiles sobre el desempeño de su hijo. Este grupo de usuarios se enfrenta a un texto que, por el
contrario, es rico en jerga y pobre en descripción, y que es predecible resultara inexpugnable
para muchos. Así, un padre cuyo hijo alcance el nivel tres de logro (bueno) en Lectura recibe la
siguiente retroalimentación:
Identificas enunciados que sintetizan apartados de un texto. Seleccionas y distingues ele-
mentos de información explícitos a lo largo de un artículo de divulgación científica, con
base en un criterio específico (causa-efecto, comparación-contraste, concepto-ejemplo,
problema-solución). Interpretas el significado de una figura retórica. Vinculas información
que aparece en distintas partes del texto para reconocer el tema o asunto central. Recono-
ces la función de recursos discursivos (opiniones, explicaciones que apoyan argumentos y
descripciones) y elementos estructurales para inferir cuestiones implícitas, como la postura
del autor, un contraargumento, el responsable de solucionar el problema planteado en una
carta, entre otros.
Como se mencionó anteriormente es dudoso que el alumno o sus padres puedan interpretar y
usar correctamente esta información para establecer acciones de mejora. En suma, el llamado
a que se hace al alumno (“Te recomendamos revisar los demás niveles para que conozcas los
aspectos que debes mejorar”) elude la responsabilidad del desarrollador y parece inadecuada
o por lo menos insuficiente.
7. Se ofrece un marco normativo para evaluar el desempeño de los examinados. Se des-
cribe el perfil y características de la población de referencia.

131Validez de usos y consecuencias
Dado que ENLACE-MS es una prueba voluntaria es relevante describir la población de referencia
a la hora de conocer el desempeño de escuelas de un estado específico, al entregar información
de comparación a escuelas, y también al entregar resultados para facilitar la comparación a nivel
individual. Los informes de resultados entregan información breve respecto de los marcos de
referencia (niveles de desempeño) para interpretar los resultados
ENLACE-MS. El informe a nivel
escuela solo entrega resultados de comparación a nivel entidad y nacional de escuelas con las
mismas características (sostenimiento, modalidad y grado de marginación) pero no describe la
población de referencia en términos de otras características relevantes. Se ofrece en cambio do-
cumentación adicional bastante detallada que describe los marcos de referencia de cada prue-
ba; esta no se concibe desde la perspectiva de informar a los usuarios (estudiantes, docentes,
directores) y parece más bien presentar el marco conceptual y de política que guía el desarrollo
de la prueba para investigadores, evaluadores, y tomadores de decisiones. Por lo tanto se trata
de apéndices del manual técnico más que de documentos que ayuden a la interpretación de los
resultados por los usuarios.
8. Se ofrece información para minimizar la posibilidad de interpretaciones incorrectas.
Se notan limitaciones y errores comunes de interpretación al comparar diferentes
pruebas, años, dominios, grupos, o niveles de agregación. Se usan categorías precisas
que no den lugar a estigma.
Las autoridades federales y desarrolladores de la prueba refieren un énfasis en las políticas de
difusión y uso dirigido a mantener el enfoque en usos diagnósticos de la prueba, y evitado
expresamente usos considerados indebidos, como ordenamientos o rankings, asignación de
incentivos, etcétera. Estos esfuerzos se reflejan primero en los manuales técnicos y del docente
y otra documentación que los acompaña. Estos detallan los alcances y limitaciones de la prue-
ba y explícitamente identifican los usos permitidos o correctos (por ejemplo, diagnóstico de
fortalezas y debilidades a nivel de alumnos y escuelas) y advierten contra usos no justificados o
incorrectos (como comparaciones entre escuelas o subsistemas).
En los informes de resultados para alumnos y escuelas se comunican los resultados en referencia
al marco criterial base por un lado, y por otro, en comparación con los resultados de alumnos y
escuelas del mismo estado, grado de marginación, modalidad y sostenimiento. No se entrega
información para otros subgrupos que podrían resultar relevantes, por ejemplo, por sexo, per-
tenencia a grupos indígenas, o nivel socioeconómico dentro de las escuelas. Como se mencionó
anteriormente, tampoco se justifica o discute la selección de estas variables para formar los sub-
grupos dentro de los que se reporta a las escuelas. Tampoco se ofrecen a los alumnos ejemplos
de errores comunes de interpretación a evitar; peor aún, no se ofrece este tipo de ejemplos
a los docentes, aunque en principio parecen muy útiles para evitar que se tomen decisiones
injustificadas en el aula.
La página web ofrece algunos contenidos (por ejemplo, sobre las características de la prueba,
y preguntas frecuentes) que aclaran algunas interpretaciones incorrectas y errores comunes,
o comentan limitaciones de los datos. También se insiste en ser cauto respecto de las conclu-
siones que se pueden sacar con base en los datos sobre la calidad educativa. Sin embargo,
no hay ninguna mención de estos temas en los informes mismos; No se aclara porque sería

132Las pruebas
ENLACE
para educación media superior
inadecuada una comparación entre estados o subsistemas con una prueba de corte censal y
criterial, por ejemplo.
D. Interpretaciones, usos y consecuencias imprevistas
9. Se advierte sobre usos para los que no existe suficiente evidencia de validez (aunque
no se pueden prever todos los usos o interpretaciones inapropiadas, se busca identi-
ficar y acotar los más factibles o probables)
Como se mencionó en secciones anteriores, los resultados de la encuesta y el grueso de la
evidencia disponible sugiere que se están incrementando el uso de la prueba
ENLACE-MS para
propósitos que no se prevén o incluso expresamente se proscriben en el manual técnico. La
información en el cuadro 5.6 presenta puntos que se reiteran en el manual técnico 2013 en las
páginas 74, 78, 84, 85 y en el manual para los docentes y directivos. Por ejemplo, dice que “el
personal del C
ENEVAL también hace énfasis en los alcances y limitaciones de la prueba, en todos
los comités que se organizan durante el desarrollo y mantenimiento de la prueba, pidiendo a
los participantes que socialicen la información para evitar malos usos de los datos y garantizar la
validez de las interpretaciones de la misma evaluación (estándar 5.10).” (pág. 74)
Cuadro 5.6 Usos indebidos de
ENLACE-MS
El diseño y propósitos de la prueba ENLACE-MS se limitan a la emisión de un diagnostico
general para el sustentante, por lo que es inadecuado derivar conclusiones acerca de
la
EMS, los subsistemas, las escuelas o el desempeño de las entidades federativas. Es
importante hacer hincapié en los alcances y limitaciones de la prueba ya que utilizar los
resultados de la evaluación para fines contrarios ocasionaría interpretaciones carentes de
validez (estándar 1.1). La prueba
ENLACE-MS no sirve para hacer comparaciones entre
alumnos, entre escuelas o entre subsistemas; solo responde a los propósitos para los
que fue creada (proporcionar un diagnóstico individual, elementos que contribuyan a la
mejora del sistema educativo y retroalimentación para maestros, planteles y padres de
familia). Las decisiones que se tomen a partir de los resultados deben considerar cuida-
dosamente el contexto de la evaluación y las condiciones de cada escuela, por lo que no
es válido sacar conclusiones sobre el mejor o peor subsistema, plantel o plantilla docente.
Fuente: Manual Técnico, 2013, pág. 30-31
El manual para docentes y directivos hace mención del entrenamiento de preguntas ENLACE-
MS como un uso no deseado (pág. 45). También se menciona la autopromoción de la escuela
usando los resultados de la prueba como un uso no adecuado, “porque la valoración de es-
cuelas requiere de la suma de más y diferentes metodologías de medición. El hecho de que sea
posible consultar los resultados de cada escuela no implica que deban compararse entre ellos,
tanto porque cada centro tiene sus condiciones particulares en cuanto a número de alumnos,
tipo de sostenimiento, modalidad, etcétera, como porque los resultados positivos o negativos

133Validez de usos y consecuencias
pueden deberse a multitud de variables que no están relacionadas con la calidad del plantel en
sí” (pág. 85).
Sin embargo, existe en la página web la posibilidad de hacer una consulta para el “ordena-
miento de escuelas por nivel de dominio”. Por ejemplo, para un municipio o una localidad se
da una lista de las escuelas con sus respectivos resultados, en forma de una tabla simple, con
información adicional sobre el turno, sostenimiento, modalidad y grado de marginación, pero
sin haberlas controlado. Esta tabla permite la comparación entre las escuelas de una misma
localidad o municipio sin haber controlado por la influencia de variables de contexto. O sea,
se permite justamente la comparación que en el manual técnico 2013 se había explícitamente
prohibido (ver pág. 75).
10. Se documenta la existencia de usos o consecuencias imprevistas (ya sean adecuadas/
positivas, o inadecuadas/negativas).
Como se mencionó anteriormente a nivel nacional se dan una gran variedad de usos a los
resultados de la prueba
ENLACE. Sin embargo, hasta donde tenemos conocimiento, no se
realiza un monitoreo sistemático de usos o consecuencias previstas o imprevistas, ni se busca
sistemáticamente evidencia para evaluar el grado en que usos y/o consecuencias podrían ser
inadecuadas o perniciosas. La evidencia disponible sugiere, en cambio, que algunos de los usos
que expresamente se identifican como inapropiados en la documentación de la prueba se están
extendiendo en los estados, subsistemas, y escuelas, a medida que la prueba adquiere mayor
visibilidad y se promueven indirectamente usos de mayor impacto en los estados. Más aún,
en algunos casos los esfuerzos y prácticas implementadas, incluso a nivel federal, parecerían
contravenir directamente los lineamientos de uso establecidos en los manuales de la prueba.
Concretamente se pueden mencionar dos ejemplos de uso que se promueven abiertamente y
contrastan con el espíritu o incluso la letra del manual técnico de
ENLACE-MS: uno concierne a
la promoción y comparación de escuelas, y el otro a las prácticas de enseñanza enfocadas a los
contenidos de la prueba.
La iniciativa para proporcionar carteles impresos a las escuelas que los soliciten para que difun-
dan y promocionen sus resultados a su comunidad parece directamente contraria en espíritu a
la llamada explícita en el manual técnico a evitar la autopromoción de las escuelas, porque esta
generalmente va en detrimento de una valoración y comparación contextualizada de escuelas
y sistemas.
Asimismo, los grandes esfuerzos desarrollados para ofrecer tutoría y otro tipo de asistencia e
intervención orientada a remediar las deficiencias detectadas en los alumnos en las pruebas
Pre
ENLACE, parecen contravenir en principio los llamados del manual para evitar rutinas de
preparación, práctica, o enseñanza enfocada a incrementar los resultados de la prueba. La
documentación de la prueba alude con frecuencia a la importancia de privilegiar los usos más
amplios y formativos. En la práctica, sin embargo, el grueso de la evidencia de entrevistas con
autoridades e incluso los documentos impresos consultados sugieren que es precisamente este
tipo de uso (uno mucho más delimitado y dirigido específicamente a mejorar los puntajes de
la prueba) el que se está extendiendo más rápidamente, de la mano de políticas o inercias de
promoción y uso de resultados de mayor impacto directo o indirecto para escuelas y subsiste-
mas. En las entrevistas en algunos casos se alude —y en otros expresamente se acepta— que

134Las pruebas
ENLACE
para educación media superior
se enfocan los esfuerzos en practicar ítems de ENLACE para mejorar el rendimiento en la prue-
ba. Asimismo, la
SEMS promueve expresamente mecanismos de uso como el sensibilizar a los
padres y alumnos sobre la importancia de la prueba, talleres para alumnos sobre resolución de
reactivos tipo
ENLACE, detección y tutoría a alumnos con bajo desempeño en la prueba Pre-
ENLACE y otros varios que, en el mejor de los casos, no parecen contribuir a los objetivos de la
prueba, o incluso pueden estar en oposición directa a estos.
11. Cuando existe evidencia confiable de usos inapropiados estos se investigan en grado
y detalle adecuado. Si estos usos persisten se informa a los usuarios y se intenta tomar
acciones correctivas.
Evidentemente no se espera que el equipo técnico encargado del diseño psicométrico y de
contenidos de la prueba pueda corregir usos inapropiados que están lejos de su alcance o
conocimiento, o que involucran actores políticamente poderosos, y en ausencia de recursos
materiales y humanos, herramientas legales, y voluntad política para tomar medidas correctivas.
Sin embargo, es importante recordar que el actor responsable se define en este estudio de
forma más amplia. En concreto, la
SEP y la SEMS controlan en gran medida tanto el desarrollo
como el uso de la prueba y por tanto tienen un gran alcance en teoría para establecer y promo-
ver usos adecuados y consistentes con los esperados, y monitorear, limitar y corregir los que no
lo sean. La evidencia disponible apunta a la necesidad de un esfuerzo de reflexión importante
que considere los usos previstos y deseables de la prueba y los contraste con los usos que se
extienden en la práctica en las escuelas, e incluso los que el sistema está promoviendo directa
o indirectamente con sus diversas iniciativas y políticas.
CONCLUSIÓN
Este capítulo presenta un análisis de la documentación disponible de la prueba ENLACE-MS,
así como materiales adicionales proporcionados por la autoridad educativa (
SEP) y el organismo
desarrollador de la prueba (C
ENEVAL), y por ultimo encuestas y entrevistas con autoridades
estales que constituyen el mecanismo principal de uso de los resultados. El análisis muestra
patrones contradictorios y en algunos casos preocupantes de uso de la prueba en relación con
sus objetivos y diseño. En primera instancia encontramos que la documentación se limita a de-
tallar el proceso de desarrollo de la prueba (por ejemplo generación, revisión y piloteo de ítems,
especificaciones) pero no refleja un esfuerzo paralelo por ofrecer fundamento teórico, lógico,
o práctico para los usos propuestos. La documentación disponible acusa una gran falta de cla-
ridad y especificidad en cuanto al marco teórico de la prueba, y sobre todo en relación con los
objetivos que esta persigue, y los mecanismos de uso que se proponen para lograr estos objeti-
vos. Es aparente la falta de alineamiento entre el modelo lógico y objetivos de la prueba por una
parte, y su diseño, implementación y uso dentro del sistema educativo, por la otra. Falta soporte
lógico para los usos propuestos de tipo formativo a nivel del estudiante individual y su familia,
dado que esta prueba se aplica al final de la educación media superior, cuando los alumnos ya
poco pueden hacer para mejorar sus conocimientos y habilidades: un alumno que buque utilizar
los resultados, se enfrenta además a la falta casi total de soporte que le permitiera informar
reflexiones y esfuerzos de mejora. Al nivel de los docentes, la documentación acusa una falta

135Validez de usos y consecuencias
casi completa de información sustantiva y técnica que fundamente y guíe los usos formativos
a nivel de aula y escuelas que se proponen. Por otro lado los mecanismos de comunicación de
resultados impiden por definición tales usos, ya que la información se hace llegar a los docentes
al inicio del año escolar siguiente y agregada al nivel de la escuela, con lo que no es posible
conocer el desempeño último de los alumnos que estuvieron bajo su supervisión.
En síntesis, el escenario que se presenta en esta sección hace difícil imaginar que la retroali-
mentación que ofrece el sistema pueda en efecto derivar en procesos significativos de reflexión
y mejora a nivel de estudiantes, familias, o docentes individuales. Por lo tanto no sorprenden
las estadísticas de acceso y otras evidencias empíricas reflejan un bajísimo interés de quienes
en teoría son los usuarios principales de la prueba. Aunque no son sorpresivos, los resultados
si apuntan a un problema estructural en el diseño de la prueba. El usuario/autoridad (
SEP) y el
desarrollador deben considerar la fundamentación misma del modelo lógico de
ENLACE-MS
en lo que respecta al uso por parte de alumnos y docentes puesto que parece evidente que
los supuestos de uso más que desalineados, están fundamentalmente en contraposición con la
realidad operativa de una prueba cuyos resultados se conocen cuando los estudiantes ya han
finalizado sus estudios, y que no llegan a 95% de los usuarios.
Se encontró también una falta casi total de seguimiento sistemático de usos y sobre todo de
las consecuencias de la prueba. En la práctica, la información sugiere que se están extendiendo
a gran velocidad usos que se basan en la comparación de resultados a nivel de las escuelas y
subsistemas educativos. La evidencia que se recabó en este estudio por medio de la encuesta y
entrevistas con autoridades estatales ofrece evidencia amplia de usos no previstos para los que
no hay justificación técnica o que expresamente se identifican como perniciosos en el manual,
como lo son las comparaciones de alto impacto, las dinámicas de competencia, y la preparación
de alumnos dirigida a aumentar los puntajes de la prueba. En algunos casos, las medidas y
programas que están promoviendo e implementando los sistemas educativos —tanto federal
como estatales— contravienen directamente el espíritu y la letra del manual técnico. Al mismo
tiempo es de lamentar que se haya dado poca o nula atención a promover usos que también
se consideran de alta prioridad, y que en principio no solo están completamente justificados
sino que se pueden promover fácilmente, como el análisis detallado de las bases de datos con
miras a mejorar el entendimiento de factores asociados al logro al nivel del estudiante, el aula,
la escuela y el sistema. Parece importante y prioritario implementar medidas para incrementar
la producción de estudios técnicamente sofisticados que empleen los resultados de la prueba.

136
Conclusiones
Las principales conclusiones del informe se sintetizan en los apartados siguientes, que corres-
ponden a los del informe mismo.
ALINEACIÓN DE LAS PRUEBAS CON SUS REFERENTES
Se contó con documentación que da cuenta de lo que se hizo para precisar un marco teórico
para la prueba
ENLACE-MS, con la dificultad que implicó el partir de una gran variedad de
planes de estudio y luego la transición al Marco Curricular Común definido para la
RIEMS. El
resultado, en consecuencia, no tiene la claridad y precisión deseables y presenta ambigüedades
que ayudan a definir con claridad el constructo a evaluar. Esto impacta el diseño de la estructura
de la prueba, el desarrollo de las especificaciones de ítems y la elaboración de los mismos.
La información recibida inicialmente sobre un análisis que precise subdominios, contenidos,
competencias y niveles de demanda cognitiva a cubrir, se reducía a tablas muy generales, por
lo que se solicitó información más específica. Los documentos adicionales recibidos incluyen as-
pectos de las subáreas de las dos áreas evaluadas, y en algunos casos información más detallada
pero no sistemática sobre contenidos,. No se observa una verdadera estructuración del dominio
de contenido, más allá de enunciados simples a manera de objetivos de aprendizaje.
Respecto del perfil y la conformación de los comités de especialistas a cargo del análisis curri-
cular y la estructuración del dominio del contenido a evaluar, se menciona al Comité Acadé -
mico Diseñador como responsable de dichas tareas, y la participación del Consejo Técnico . Las
funciones generales y diversas de este último y el perfil de sus integrantes, sin embargo, hacen
poco probable que haya funcionado como un comité técnico que validara los análisis curricu-
lares y la estructuración del dominio a evaluar en la prueba. Al parecer, el Comité Académico
Diseñador hizo tanto el análisis curricular y la estructuración del dominio del contenido que se
evalúa, como el diseño de las especificaciones para producir los ítems, y el Comité Académi -
co Validador de Especificaciones no solo validó las especificaciones de ítems, sino también el
análisis curricular y la correspondiente estructuración del dominio del contenido a evaluar que
fueron realizados.
Por otra parte, además del reducido número de integrantes de los comités académicos valida-
dores de especificaciones y de su falta de representatividad —ya que pertenecen solo a pocas
instituciones de la Ciudad de México— esta forma de proceder no es la que se sugiere en la
literatura especializada en cuanto a las prácticas que son necesarias para efectuar el análisis
curricular y la detección y estructuración del contenido a evaluar.

137Conclusiones y recomendaciones
Respecto a la forma en que se definieron las especificaciones de la prueba, si bien el manual
técnico de 2008-2010 de
ENLACE-MS establece su importancia, ni en la información inicial ni
en la recibida después se encontró un documento de especificaciones adecuadas para producir
los ítems. Los elementos encontrados son demasiado generales e inconsistentes y están incor-
porados a la tabla de especificaciones del examen, por lo que no corresponden con lo que se
detalla en la literatura especializada para dichas especificaciones como elementos necesarios
para propiciar y asegurar la producción de ítems válidos, equivalentes y efectivos.
En cuanto a la determinación de la importancia relativa de contenidos o el análisis de las uni-
dades del dominio curricular y su densidad diferencial, no se observó en la documentación dis-
ponible el uso de algún procedimiento específico o criterio para determinar cuáles contenidos
constituyen blancos curriculares de primer orden o para ponderar la densidad diferencial de los
contenidos para decidir lo que es importante evaluar. Existen elementos que ilustran que los
constructores de la prueba fueron conscientes de esos aspectos; sin embargo, los procedimien-
tos o criterios utilizados para decidir en cada situación no fueron explicitados.
Respecto a los procedimientos o criterios para asegurar la representatividad de los ítems y
subescalas de la prueba respecto al dominio definido y sus subdominios, el manual aclara que
ENLACE-MS se enfoca solo a algunos aspectos del MCC y no a todos, en particular aquellos que
los grupos de expertos consideraron representativos de las competencias básicas de dos cam-
pos disciplinares, lo que fue validado por un comité académico y luego aprobado por el Consejo
Técnico, con el criterio de asegurar que la prueba incluyera una muestra representativa de lo
que todo bachiller debe dominar de esas subáreas del
MCC. Para ello los reactivos de la prueba
cubren toda la gama de procesos cognitivos que se indican en su estructura, por lo que evalúan
contenidos que exigen un desarrollo básico, intermedio y avanzado de competencias básicas.
En cuanto a la complejidad cognitiva efectivamente cubierta por la prueba respecto de la pla-
neada, se hicieron dos estudios para tener evidencias respecto a la alineación y niveles de
demanda cognitiva de la prueba en relación con el perfil referencial. Un estudio se basó en
estrategias de análisis de contenido, basadas en juicios de comités de expertos, y otro en entre-
vistas cognitivas con alumnos.
Respecto a la prueba de habilidad lectora, el estudio basado en juicios de comités de profesores
experimentados y otros especialistas, encontró bastante similitud entre la distribución de los
ítems por proceso cognitivo según lo establecieron los responsables de la prueba y la distri-
bución que se derivó de los juicios del comité del estudio especial, lo que puede interpretarse
como evidencia de validez de contenido y de constructo. En el caso de la habilidad matemática
se observa una distribución de los ítems similar solamente en las categorías de Reproducción y
Conexión, pero no en la mayoría de los ítems de la categoría de Reflexión.
En el estudio basado en entrevistas cognitivas, en la documentación del marco referencial de
ENLACE-MS se identificaron 15 niveles de complejidad cognitiva en la prueba de habilidad lec-
tora y nueve en la de Matemáticas. En habilidad lectora, de 18 reactivos analizados tres están
sobreestimados en cuanto al nivel de complejidad que se plantea en las especificaciones; uno
está sobresimplificado y dos no evalúan el proceso cognitivo que deberían evaluar. En Mate-
máticas solo dos de los 18 reactivos analizados fueron congruentes con la estructura teórica
declarada en el marco de referencia de la prueba.

138Las pruebas
ENLACE
para educación media superior
En cuanto a la elaboración de ítems y el manual que se utilizó para ello, la documentación
revisada muestra que el documento de referencia describe y da ejemplos de todos los tipos de
reactivos que tienen las pruebas e indica cómo clasificarlos y justificarlos. No parece, sin embar-
go, que el manual haya sido desarrollado especialmente para
ENLACE-MS para tener en cuenta
sus particularidades, sino que parece un manual genérico o tomado de otro sistema de evalua-
ción, lo cual no es aceptable tratándose de una prueba de alcance nacional y con propósitos y
especificaciones muy particulares que deben ser destacadas de manera precisa a los usuarios.
Los lineamientos que aparecen en el documento resultan generales, incompletos y poco explí-
citos para orientar el desarrollo de ítems efectivos. Por otra parte, hay razón para temer que la
capacitación ofrecida a los responsables de elaborar ítems es insuficiente; se señala que en 2013
la duración de los talleres con ese propósito fue de solo tres horas, en una sesión.
La documentación revisada no deja claro el perfil de los elaboradores de ítems, ni si fueron
distintos de los revisores; pero es seguro que se contó con un sistema de clasificación cognitiva
para orientar el desarrollo de los ítems, aunque no se sabe cómo o cuándo recibieron dicha
información los elaboradores de ítems.
En cuanto al análisis de los ítems elaborados, y los criterios para su aceptación, revisión o modi-
ficación, se trata de tareas a cargo de comités ad hoc y, aunque no se dan detalles sobre dónde
o cuándo reciben la documentación completa con los productos de la planeación de la prueba
previamente elaborados, puede decirse que los comités de validación contaron con la informa-
ción necesaria que guiara la formulación de sus juicios sobre los ítems.
En conjunto, puede afirmarse que los procedimientos de revisión de ítems son realizados por
comités diferentes de los responsables de su elaboración, y que cuentan con un perfil razonable
y con información suficiente. Las evidencias aportadas, sin embargo, son muy generales, no
pudiendo apreciarse en detalle la forma específica en que se desarrollaron los diversos pasos
de estos procesos.
ASPECTOS TÉCNICOS
Los criterios analizados con respecto a la prueba ENLACE-MS indican fortalezas esperables, que
incluso deben considerarse indispensables en una prueba de alcance nacional, y que coinciden
con aspectos positivos señalados ya en un informe anterior para el caso de
ENLACE-B.
Entre los puntos a mejorar que se identificaron, el primero se refiere a la documentación de los
aspectos relevantes de la prueba, necesaria para contar con elementos de juicio completos y
certeros de apoyo a cualquier persona interesada. En este sentido debe decirse que el contenido
y el diseño de los dos manuales técnicos que se han producido para
ENLACE-MS es muy hetero-
géneo, ya que en ocasiones incluye elementos técnicos muy puntuales, aspectos de divulgación
apropiados para un lector no especializado y otros puntos que explican la metodología seguida
de manera superficial.
Las limitaciones señaladas en el apartado relativo a alineación a los referentes, respecto al
marco teórico y a la definición de las competencias, ocasionan dificultades en el desarrollo de

139Conclusiones y recomendaciones
los puntos técnicos de validez de constructo, de criterio y de escala, que no se justifican sufi-
cientemente.
La mezcla indiscriminada de modelo clásico y de
TRI es un punto importante a corregir. No es
criticable manejar solo uno u otro de estos modelos, ni tampoco emplearlos conjuntamente de
manera apropiada. El problema es que se combinan en forma incorrecta los parámetros y la
definición de los intervalos de aceptación de los ítems o de la prueba.
No hay datos métricos de las subescalas (Comprensión lectora y Matemáticas), ni del error de
medida general de ellas, salvo una media general en porcentaje de aciertos para cada subesca-
la; esto puede fundamentarse en el hecho de que la
TRI solo produce medidas de cada persona
dependientes del conjunto de reactivos, pero no se enfoca a producir el error de medida gene-
ral de la prueba. Si se acepta este argumento, entonces no es aceptable que falte la validación
del error en los puntos de corte de todas las pruebas (solo se tienen en algunas), los cuales son
obligatorios en la
TRI una vez determinada la función de información.
Respecto a puntos de corte, los manuales no siempre reportan el dato y cuando lo hacen se
reporta una precisión no comprobable con elementos objetivos, lo cual no aporta un sustento
sólido para garantizar la equivalencia o equiparación de las pruebas aplicadas en un mismo año
ni a través del tiempo. Los puntos de corte debieron revisarse en 2011 al cambiar las pruebas,
y no mantenerlos constantes.
La carencia de estudios de fuentes de sesgo, funcionamiento diferencial de ítems o funciona-
miento diferencial por grupos de personas, no apoya a la revisión de las pruebas e impacta
lo que se afirma en los capítulos relativos a la influencia de factores culturales, así como a las
consecuencias que puede tener esta prueba.
La falta de evidencias sobre bancos de ítems, y el no disponer de sus inventarios no permiten
juzgar acerca de su calidad. Hay poca información sobre los sistemas informáticos de almacena-
miento de los ítems y de la generación de pruebas.
Sin desconocer otros elementos positivos, las deficiencias señaladas incluyen aspectos relevan-
tes que parece indispensable corregir en una prueba del alcance de
ENLACE-MS.
ATENCIÓN A LA DIVERSIDAD
Las deficiencias detectadas en cuanto a los criterios de este grupo incluyen que, aunque se
encuentra una conceptualización de los contenidos evaluados, no se considera la posible in-
fluencia en los resultados de los aspectos lingüísticos o culturales. La información sobre perfil
de los estudiantes, modalidad educativa y tamaño de la localidad permite hacer análisis que
consideren esos factores, pero la organización de la pruebas no refleja un diseño que considere
expresamente la diversidad del país. En el desarrollo de la prueba no se considera tipo y grado
de bilingüismo de los estudiantes, a los que se trata como si todos fueran plenamente compe-
tentes en español, sin tomar en cuenta si esta es o no su lengua materna.

140Las pruebas
ENLACE
para educación media superior
Las especificaciones para desarrollar ítems no tienen la precisión suficiente para que puedan
controlarse bien sus características gráficas, textuales y contextuales y no se encontró evidencia
de que en el desarrollo de la prueba hayan participado especialistas en disciplinas como la lin-
güística y la antropología.
Tampoco hay evidencia de que el pilotaje de las pruebas se haga con muestras representativas
de grupos culturales, lingüísticos y socioeconómicos diversos, ni de que se hagan entrevistas
para aportar evidencia de validez cognitiva en general o entrevistas cognitivo-culturales que
analicen si la forma en que los estudiantes interpretan los ítems está influida por factores lin-
güísticos y culturales.
En el desarrollo de las pruebas no parecen hacerse revisiones de aspectos como contenido,
estilo, aspectos lingüísticos y posibles fuentes de sesgo cultural. No se encontró indicación de
que se hayan efectuado los análisis apropiados para examinar el funcionamiento diferencial de
los ítems, en grupos poblacionales definidos por factores étnicos, culturales, socioeconómicos
o de género.
Con base en los microanálisis realizados, resulta evidente la importancia de considerar en el
futuro análisis de sesgo que incluyan no solo factores culturales y de diversidad lingüística, sino
también factores regionales y socioeconómicos.
No parecen haberse efectuado estudios de generalizabilidad para examinar confiabilidad y va-
lidez con respecto a lengua, o para comparar el desempeño de distintos grupos culturales,
lingüísticos y socioeconómicos. Tampoco se encontró evidencia de que se prevea la necesidad
de ajustar tiempos o calendarios de aplicación de las pruebas en función de la geografía o las
condiciones climáticas de las diferentes regiones del país.
No parece haber procedimientos para eliminar ítems con sesgo, ni estrategias y mecanismos de
corrección de sesgo por factores como el género, la edad, los antecedentes escolares, la condi-
ción lingüística del hogar o el perfil laboral del estudiante y su familia, aunque los cuestionarios
de contexto recaban información sobre tales factores.
El microanálisis permitió identificar fuentes potenciales de sesgo lingüístico y cultural en algu-
nos de los reactivos analizados. Esas fuentes de sesgo podrían reconocerse y corregirse con un
mecanismo formal de revisión y de corrección de sesgo potencial.
Para terminar, y en forma similar a lo señalado en relación con las pruebas que se revisaron
anteriormente, a pesar de la presencia de elementos positivos en las pruebas
ENLACE-MS los
aspectos culturales y lingüísticos no se atienden de manera suficiente y sistemática.
Se reitera que hay conciencia de que la gran diversidad cultural y lingüística de la población
mexicana y las limitaciones de recursos hacen prácticamente imposible incluir en los estudios
piloto muestras de estudiantes pertenecientes a todos los grupos étnicos y lingüísticos del país.
Se subraya que, con mayor énfasis aún que en lo relativo a educación básica, la atención ade-
cuada de la diversidad lingüística en pruebas para educación media superior no debe enten-
derse como recomendar que se traduzcan a lenguas indígenas, no solo porque eso es largo,
costoso y difícil de implementar correctamente, sino porque en este nivel educativo la lengua
de instrucción es, masivamente, el español.

141Conclusiones y recomendaciones
APLICACIONES
En la valoración de los criterios de este apartado se identificaron fortalezas relacionadas con
la definición de procedimientos para la aplicación en campo. Las áreas de oportunidad más
importantes que se reconocen, son la precisión de algunos procedimientos, su estandarización
y documentación, en especial en lo relativo al reclutamiento y capacitación del personal de apli-
cación, así como respecto a la preparación de los datos y su manejo antes de que se proceda al
análisis y reporte de la información.
Se juzga necesario que se desarrollen herramientas estandarizadas, con el soporte técnico apro-
piado a la escala del proyecto, para dar seguimiento a los procedimientos que tienen lugar an-
tes, durante y después de la aplicación. El “Instructivo para la elaboración, ejercicio y comproba-
ción del gasto operativo” que la
SEP envía a las entidades federativas se podría aprovechar para
generar estrategias operativas estandarizadas de forma que, además de controlar los costos, la
experiencia adquirida apoye la construcción de conocimiento en la materia. Lo anterior apoyaría
a elevar la calidad de las aplicaciones.
También se considera necesaria la incorporación de algoritmos de detección de fraude, aunque
la prueba sea de bajo impacto, para asegurar la calidad de la medición, toda vez que sus resulta-
dos son puestos al servicio de la comunidad educativa y debe enfatizarse la transparencia. Para
los casos en los que se detecte fraude, podría estudiarse la aplicación de una medida adminis-
trativa como la no publicación de resultados para una escuela específica que esté involucrada.
Conviene también reconsiderar la extensión del cuestionario de contexto para alumnos, ya que
podría implicar una carga excesiva. Igualmente, es fundamental analizar el uso dado a la infor-
mación recolectada a través de este instrumento.
USOS Y CONSECUENCIAS
El análisis de los criterios relacionados con este apartado identificó patrones contradictorios, y
en algunos casos preocupantes, del uso de la prueba en relación con sus objetivos y diseño.
La documentación de la prueba se enfoca principalmente a detallar el proceso de desarrollo
de esta y de los ítems que la componen, pero no refleja un esfuerzo por ofrecer fundamento
teórico, lógico, o empírico para los usos propuestos. El marco de la prueba es poco claro y es-
pecífico, sobre todo en cuanto a objetivos y mecanismos de uso de resultados que se proponen
para alcanzarlos.
En particular, la documentación de
ENLACE-MS acusa una falta casi completa de información
y evidencia que fundamente y guíe la variedad de usos formativos que se proponen, tanto al
nivel de aula y escuela (por parte de docentes y directivos), como para estudiantes y sus familias
en lo individual. En realidad, el diseño mismo de la prueba, y la forma en que se comunican
sus resultados impiden de entrada tales usos, ya que se ofrece a los docentes al inicio del año
escolar siguiente y en forma agregada al nivel de la escuela, con lo que no es posible conocer el
desempeño último de los alumnos que estuvieron bajo su supervisión. Por otro lado los resulta-
dos se hacen llegar a los estudiantes cuando estos ya han finalizado sus estudios de bachillerato.

142Las pruebas
ENLACE
para educación media superior
En síntesis, es difícil imaginar que la retroalimentación que se ofrece pueda en efecto generar
procesos significativos de reflexión y mejora por parte de alumnos, familias, docentes, o direc-
tores. Las estadísticas de acceso y otras evidencias reflejan el bajo interés de quienes en teoría
son los usuarios principales de las pruebas, lo que refuerza la teoría de un problema estructural
en su diseño.
Se encontró también una falta de seguimiento sistemático de usos y consecuencias de la prue-
ba. La información recabada sugiere que, contrario a lo que establece el manual, se están
extendiendo usos que se basan en la comparación de resultados al nivel de las escuelas y sub-
sistemas educativos. La encuesta y las entrevistas con autoridades estatales ofrecen evidencia
de usos no previstos para los que no hay justificación técnica o que expresamente se identifican
como perniciosos, como comparaciones de alto impacto, dinámicas de competencia, y esfuer-
zos extensos y sistemáticos de preparación de alumnos dirigidos a aumentar los puntajes de la
prueba. En estos casos las medidas y programas que se están promoviendo contravienen direc-
tamente no solo el espíritu, sino la letra misma del manual técnico. En cambio se ha dado poca
o nula atención a promover usos que además de ser justificados, serian comparativamente muy
fáciles de implementar, como el análisis de bases de datos para profundizar el entendimiento de
factores asociados al logro. Se encontró un número muy reducido de estudios publicados que
avancen una agenda de investigación en este sentido.
Por último, y contrastando con las preocupaciones anteriores, la información recabada muestra
gran interés por parte de autoridades federales y estatales en usar los resultados de la prueba
para informar y motivar esfuerzos importantes de mejora educativa. Se percibe además un cre-
ciente interés por parte de los subsistemas educativos que permea las practicas escolares y está
alcanzando incluso a los padres de familia, a quienes se involucra en los esfuerzos de mejora
que emanan de
ENLACE-MS (incluyendo preparación para la prueba). Estos procesos muestran
el creciente interés social en la mejora de la calidad y resultados que produce el sistema educa-
tivos, y en ese sentido se podrían considerar como valiosos en sí mismos. Sin embargo, como
se menciona en este apartado, el seguimiento de usos y consecuencias es importante para
asegurar que no se den procesos poco productivos o incluso perniciosos de uso de los datos
de la prueba.
CONSIDERACIONES FINALES
Para terminar, se reitera que las apreciaciones hechas se basan en la información disponible y en
los tiempos comprometidos. Es posible que haya información adicional o que la revisión haya
sido insuficiente. Los señalamientos deberán ser analizados por las instancias competentes, para
corroborarlos o corregirlos.
Como se ha señalado en la introducción, los análisis y los juicios que se retoman en forma sin-
tética en estas conclusiones se refieren siempre al objeto de estudio, y no pueden entenderse
como apreciaciones sobre las personas involucradas en el desarrollo de las pruebas, su aplica-
ción y el procesamiento de resultados.
Las limitaciones de las pruebas pueden deberse a circunstancias diversas, incluyendo la com-
plejidad misma de la tarea y los tiempos en que debió realizarse, y pudieron haberse producido

143Conclusiones y recomendaciones
pese a los mejores esfuerzos por parte de sus autores. Con esta salvedad, si las limitaciones
que se detectaron y se señalan en este documento son reales, las circunstancias que puedan
explicarlas no deben impedir que se señalen con claridad.
A esta consideración debe añadirse que, como en otras pruebas, la información sobre su desa-
rrollo, aplicación, y uso de sus resultados, no es siempre completa ni fácilmente accesible. Una
documentación completa, detallada, y asequible, es condición necesaria para apoyar esfuerzos
de mejora continua en el desarrollo de sistemas de evaluación. En el caso de
ENLACE-MS, el
acceso a elementos importantes de la documentación necesaria se dificultó por las prácticas
de manejo de información por parte de la instancia contratada por la
SEP para el desarrollo de
esta prueba. En algunos casos los lineamientos de este organismo, con el argumento de salva-
guardar la seguridad de la misma, no permitían acceso a la información técnica necesaria para
un análisis detallado de la prueba.
A nuestro juicio, este tipo de argumentos es erróneo, y claramente incompatible con las prác-
ticas generalmente aceptadas por las instancias especializadas más reconocidas internacional-
mente. Estas normas establecen por un lado, el riguroso control y salvaguarda de datos de
tipo personal o individual que pudiesen revelar la identidad de estudiantes, maestros, o incluso
instituciones específicas; pero al mismo tiempo las normas profesionales establecen claramente
criterios de amplia transparencia en lo que respecta a la información técnica de la prueba.

144Las pruebas
ENLACE
para educación media superior
Referencias bibliográficas
1
1
Este listado de referencias bibliográficas no incluye todas las que se citan en el texto.
American Educational Research Association, American Psychological Association y National Council on
Measurement in Education (1999). Standards for educational and psychological testing. Washington:
Autores.
Barriga, Rebeca (2005). Estudios sobre el habla infantil en los años escolares: Un solecito grandotote.
México: El Colegio de México. 
Basterra, M. Rosario, Trumbull, E., y Solano, G. (eds.) (2011). Cultural Validity in Assessment: Addressing
Linguistic & Cultural Diversity. Nueva York: Routledge.
Bertely, María, Dietz, Gunther, y Díaz Tepepa, María Guadalupe (2013). Estado del conocimiento: educa -
ción y multiculturalismo. México: Consejo Mexicano de Investigación Educativa.
Bond, T.G., y Fox, C.M. (2001). Applying the Rasch Model: Funda
mental Measurement in the Humans Sciences. Erlbaum: Laurence Erlbaum Associates, pp. 4-8.
Brennan, R.L. (1995). The conventional wisdom about group mean scores. Journal of Educational Measu -
rement in the Human Sciences, 14, pp. 385-396.
(2005). Some Test Theory for the Reliability of Individual Profiles (Research Report 12). Iowa: Center for
Advanced Studies in Measurement and Assessment-University of Iowa.
(2001). An Essay on the History and Future of Reliability from the Perspective of Replication. Journal of
Educational Measurement, 38(4), pp. 295-317.
Campbell, D.T. (1975). Cap. 1 Assessing the Impact of Planned Social Change. En Lyons, G. (ed.). Social
Research and Public Policies: The Dartmouth/
OECD Conference (pp. 3-45). Hanover: The Public Affairs
Center-Dartmouth College.
C
ENEVAL (2012a). Manual técnico ENLACE Media Superior 2008-2010. México: Centro Nacional de Evalua-
ción para la Educación Superior.
(2012b). Nota técnica ENLACE Media Superior. México: Centro Nacional de Evaluación para la Educa-
ción Superior.
(2013a). Manual técnico ENLACE Media Superior 2011-2012. México: Centro Nacional de Evaluación
para la Educación Superior.
(2013b). Informe ganancia educativa 2010-2013 ENLACE-MS. México: Centro Nacional de Evaluación
para la Educación Superior.
(2014). Manual para docentes y directivos. ENLACE Media Superior 2014. México: Centro Nacional de
Evaluación para la Educación Superior.
Centro Nacional de Evaluación para la Educación Superior (2000). Estándares de calidad para instrumentos
de evaluación educativa. México: Autor.
Cizek, G., Bowen, D., y Church, K. (2010, mayo). Sources of Validity Evidence for Educational and Psycho -
logical Tests: A Follow-up Study. Ponencia en la reunión anual del National Council on Measurement in Education, Denver.
Crocker, L., y Algina, J. (2004). Introduction to Classical and Modern Test Theory (2a. ed.). Nueva York:
Hott, Rinehart, and Winston.
Cronbach, Lee J. (1971). Test Validation. En Thorndike, R.L. (ed.). Educational Measurement (pp. 443-507).
Washington: American Council on Education.
 (1988). Five Perspectives on Validity Argument. En Wainer, H., y Braun, H. (eds.), Test Validity (pp. 3-17).
Princeton: Institute for Educational Achievement.

145Referencias bibliográficas
Crooks, T.J., Kane, M.T., y Cohen, A.S. (1996). Threats to the Valid Use of Assessments. Assessment in
Education, 3(3): pp. 265-285.
Dawis, R.V. (1987). Scale Construction. Journal of Counseling Psychology , 34(4), pp. 481-489.
DGEP. Dirección General de Evaluación de Políticas (2014a). Instructivo para la elaboración, ejercicio y
comprobación del gasto operativo. México: Autor.
(2014b). Respuesta a información solicitada por el INEE.
Educational Testing Service (2000). Standards for Quality and Fairness. Princeton: Autor.
Feldt, Leonard S., y Brennan, R.L. (1989). Reliability. En Linn, R.L. (ed.). Educational Measurement (pp. 105-
146). Nueva York: American Council on Education / Macmillan.
Gaviria Soto, J.L., y Castro Morera, M. (2005). Modelos jerárquicos lineales . Madrid: La Muralla.
Haberman, S.J. (2008). When Can Subscores Have Value? Journal of Educational and Behavioral Statistics ,
33, pp. 204-229.
Haertel, Edward H. (2006). Reliability. En Brennan, R.L. (ed.). Educational Measurement (pp. 65-110). Wes -
tport: American Council on Education / Praeger.
IEEEM. Instituto de Evaluación Educativa del Estado de México (2014a). Estrategia operativa para la aplica-
ción de
ENLACE Media Superior 2014 de Estado de México.
(2014b). Monitoreo de ENLACE Media Superior 2014.
IFIE. Instituto de Fomento e Investigación Educativa (2009). Resultados para Preparatoria ENLACE 2009.
INEGI. Instituto Nacional de Estadística y Geografía (2010). XIII Censo de población y vivienda.
Johnson, J.A. (2004). The Impact of Item Characteristics on Item and Scale Validity. Multivariate Behavioral
Research, 39(2), pp. 273-302.
Kane, Michael T. (2006). Validation. En Brennan, R.L. (ed.) Educational Measurement (4a. ed., pp. 17-64).
Westport: American Council on Education / Praeger.
(2013). Validating the Interpretations and Uses of Test Scores. Journal of Educational Measurement ,
50(1), pp. 1-73.
Ley General de Derechos Lingüísticos de los Pueblos Indígenas.
Linacre J.M. (2006). A User’s Guide to Winsteps . Recuperado de: winsteps.com
Lissitz, R. (ed.) (2009). The Concept of Validity . Charlotte: Information Age Publishing.
Messick, Samuel (1989). Validity. En Linn, R.L. (ed.). Educational Measurement (3a. ed., pp. 13-103). Nueva
York: American Council on Education / Macmillan.
(1998). Test Validity: A Matter of Consequence. Social Indicators Research , 45(1-3), pp. 35-44.
Moss, Pamela A. (2008). A Critical Review of the Validity Research Agenda of the
NBPTS at the End of Its
First Decade. En Ingvarson, L., y Hattie, J. (eds.), Assessing teachers for professional certification: the first decade of the
NBPTS (pp. 257-312). Oxford: Elsevier.
Nichols, P., y Williams, N. (2009). Consequences of Test Score Use as Validity Evidence: Roles & Responsibili-
ties. Educational Measurement: Issues & Practice, 28(1), pp. 3-9.
Rojas, Angélica (2006). Entre la banca, la casa y la banqueta. Socialización y matemáticas entre los niños
otomíes que viven en la
ZMG (tesis de doctorado). Centro de Investigaciones y Estudios Superiores en
Antropología Social, Guadalajara, México.
Santiago, P., McGregor, I., Nusche, D., Rabela, P., y Toledo, D. (2012). 
OECD Reviews of Evaluation & As-
sessment in Education Mexico 2012,
OECD. Recuperado de: http://dx.doi.org/10.1787/9789264172647-
3-en
SEP. Secretaría de Educación Pública (2014). Manual para el coordinador regional. ENLACE 2014. Educación
Media Superior. México: Autor.
Sireci, Stephen G. (2013). Agreeing on Validity Arguments. Journal of Educational Measurement , 50(1),
pp. 99-104.
Solano-Flores, G. (2011). Assessing the Cultural Validity of Assessment Practices: An Introduction. En Bas-
terra, M.R., Trumbull, E., y Solano-Flores, G. (eds.). Cultural Validity in Assessment: Addressing Linguis -
tic and Cultural Diversity (pp. 3-21). Nueva York: Routledge.

146Las pruebas
ENLACE
para educación media superior
, y Nelson-Barber, S. (2001). On the Cultural Validity of Science Assessments. Journal of Research in
Science Teaching, 38(5), pp. 553-573.
, y Trumbull, E. (2003). Examining Llanguage in Context: The Need for New Research and Practice Para-
digms in the Testing of English-Language Learners. Educational Researcher, 32(2) , pp. 3-13.
Stanley, Julian C. (1971). Reliability. En Thorndike, R.L., (ed.), Educational Measurement (pp. 356-442).
Washington: American Council on Education.
Thorndike, R.L. (1951). Reliability. En Lindquist, E.F., (ed.), Educational Measurement (pp. 560-620). Wash -
ington: American Council on Education.
Tristán, L.A., y Vidal, R. (2007). Linear Model to Assess the Scale’s Validity of a Test. Ponencia en la confe -
rencia anual de la
AERA, Chicago. Disponible en: ERIC: ED501232
Welner, K. (2013). Consequential Validity and the Transformation of Tests from Measurement Tools to
Policy Tools. Teachers College Record , 115(9).
Wright, B.D., y Stone, M.H. (2004). Making Measures. Chicago: The Phaneron Press, pp. 35-39.
Documentos
DESC_ALUM_EMS_13.
Dirección de Programas Específicos, Dirección de Programas para la Administración Pública-
ENLACE Media
Superior
RIEMS.
ENLACE EDUCACIÓN MEDIA SUPERIOR. Cuestionario para directores 2014.
ENLACE MEDIA SUPERIOR 2011. Preguntas y codificación del cuestionario del director de la escuela.
ENLACE MEDIA SUPERIOR 2013. Preguntas y codificación del cuestionario de Docentes de la escuela.
ENLACE.14 _OP-MS EMS_2014.pdf
Prueba
ENLACE Educación Media Superior 2012.
Prueba
ENLACE Educación Media Superior 2013.
Prueba
ENLACE Educación Media Superior 2013. Cuestionario para alumnos. ENLACE Alumnos 2013.
Prueba
ENLACE Educación Media Superior 2014.

147Anexo técnico
Anexos
El material complementario de este informe se agrupa en siete anexos. En el documento que se
entrega ahora sólo se incluye el primero. En octubre se entregaron los demás, en forma impresa
o en archivos magnéticos.
1. Criterios y subcriterios de evaluación.
2. Informe de estudios especiales de comités de expertos y entrevistas cognitivas sobre
reactivos de
ENLACE-MS.
• Reporte técnico.
• Anexos primer estudio.
• Anexos segundo estudio.
3. Micronálisis de una muestra de reactivos de
ENLACE-MS.
• Comunicación.
• Matemáticas.
4. Información de entidades sobre aplicaciones.
5. Resultados de encuesta de autoridades estatales sobre usos y consecuencias.
6. Material de entrevistas con autoridades estatales y federales sobre usos y consecuencias.
• Bases de datos de encuestas en línea sobre aplicación y usos.
• Entrevistas a entidades y subsistemas federales.
7. Revisión de prensa.
Anexo 1. Criterios y subcriterios de evaluación
SOBRE LA ALINEACIÓN A LOS REFERENTES
Análisis del currículo cuyo dominio se evalúa
1. Se cuenta con un documento que revisa la teoría del contenido curricular y es el marco
teórico que orienta el desarrollo de la prueba.
ttEl documento incluye un análisis de las áreas del currículo que evaluará la prueba
donde se precisan los subdominios y contenidos, así como competencias y niveles de
demanda cognitiva que se deberán cubrir.
Alineación de la prueba con el currículo
2. Se presentan evidencias de cómo se definieron las especificaciones de la prueba en
términos de objetivos, competencias u otros referentes curriculares.
ttSe presentan las estructuras del dominio curricular completo del que se muestrea el
contenido de la prueba, y del dominio curricular evaluado.
3. Se explica el procedimiento usado para determinar la importancia relativa de los con-
tenidos que se decidió evaluar, o se incluye un análisis de las unidades del dominio
curricular y su densidad diferencial.
ttSe justifican técnicamente ajustes a la ponderación de ítems y subescalas.

148Las pruebas
ENLACE
para educación media superior
ttSe justifica metodológicamente el tamaño de la prueba y sus partes (número de
ítems) cumpliendo la ponderación indicada en la tablas de especificaciones. Si hay
alguna justificación administrativa, ésta se debe definir claramente.
4. Se asegura la representatividad de los ítems y las subescalas respecto a los subdominios
y el dominio curricular definidos.
ttPara especificar el dominio a evaluar se presenta un análisis lógico y empírico de
la representación de ítems y subescalas respecto a los subdominios evaluados y el
dominio curricular completo.
5. Se cuida la alineación en cuanto a la complejidad cognitiva del contenido.
ttSe utilizan taxonomías u otros sistemas de clasificación de la demanda cognitiva de
los ítems en relación con lo establecido en el currículo.
ttSe refiere el uso de protocolos verbales con examinados para verificar que la com-
plejidad cognitiva real corresponda a la esperada.
Especificación, generación y escritura de ítems
6. Existe un manual o guía de redacción o diseño de reactivos en el que se especifica y
justifica la manera de formularlos. El manual:
ttDescribe y da ejemplos de todos los tipos de reactivo que tendrá la prueba indicando
cómo clasificarlos y justificarlos de acuerdo con la relevancia de las respuestas para
el dominio pretendido.
ttUsa tablas o modelos de especificación precisos para homogeneizar el diseño de los
tipos de ítems, y ofrece un formato o documento donde los diseñadores de reactivos
hagan la captura y la modificación.
ttFue desarrollado especialmente para la prueba con sus particularidades; no es acep-
table un manual genérico o tomado de otro sistema de evaluación.
7. Los ítems son diseñados por un comité coordinado por una persona calificada y selec-
cionado según la especialización académica, laboral y su representatividad respecto a la
diversidad del país.
ttEl comité se formó específicamente para realizar su labor considerando todos los
elementos característicos del tipo de prueba que se diseñaría.
ttLa capacitación del comité incluye procesos metodológicos y referencias a taxono-
mías o sistemas de clasificación cognitiva para especificar el dominio.
Control de la calidad de los ítems
8. Existe un manual o guía para el análisis de reactivos que señala los criterios de acepta-
ción, revisión y modificación.
ttSe presentan estructura y funciones representadas en el comité evaluador.
ttEl manual describe procedimientos y criterios para revisar ítems por jueceo.
9. Hay un comité de revisión calificado para aplicar lo que define el manual.
ttSe utilizaron criterios de selección de jueces con un perfil académico y laboral preci-
so y con representatividad de la diversidad del país.
ttEl comité de revisión y el de escritura están formados por jueces diferentes.
ttSe detalla el procedimiento que se siguió para capacitar a los evaluadores.
10. El sistema de revisión lógica de cada ítem incluye análisis de:
ttCalidad técnica: claridad en la formulación, adecuación al marco de prueba.

149Anexo técnico
ttCongruencia ítem-contenido o ítem-objetivo (subdominio).
ttPosibles fuentes de sesgo de cada reactivo: género, diversidad cultural.
ttConcordancia del juicio para la selección de reactivos o procedimientos para estimar
la confiabilidad de los juicios de los evaluadores.
11. Se cuida la alineación de la prueba en general.
ttSe verifica que el contenido de las pruebas corresponda al dominio curricular en
todos los aspectos y niveles de demanda cognitiva planeados.
ttSe cuida la alineación de ítems y prueba con el currículo, los estándares de interpre-
tación y, de ser posible, con la enseñanza y la evaluación en aula.
ttSe dispone de una metodología para demostrar la validez de contenido (cualitativa
y cuantitativa) de la prueba.
ttSe muestran evidencias para fundamentar la validez del contenido.
ASPECTOS PSICOMÉTRICOS
Calidad de las pruebas
1. En la medida en que sean aplicables, se documentan las evidencias relativas a los diver-
sos tipos de validez que se consideran usualmente.
ttSe describe el procedimiento seguido para el análisis de validez de criterio, al menos
en una de sus formas (predictiva, concurrente, discriminante, etcétera), y se reportan
los valores obtenidos en los estudios de validez de criterio.
ttHay evidencia documental del análisis de validez de escala y su pertinencia en rela-
ción con el constructo y el modelo del perfil a evaluar.
ttSe presenta documentación que muestra cómo se realizó el proceso para analizar la
validez del constructo, y se presentan los resultados.
2. Se cuenta con análisis integrales de los procesos y métodos utilizados para desarrollar
las pruebas, definiendo equivalencia y periodicidad.
ttSe indica el procedimiento seguido para construir las pruebas a partir de las especi-
ficaciones y del banco de ítems.
ttSe reportan pasos para producir formas o versiones de la prueba y delimitar su vi-
gencia en el tiempo, o según sedes o localidades.
ttSe cuenta con metodología para hacer versiones equivalentes y se reportan los valo-
res de diseño y experimentales que la demuestren. No es aceptable reportar resulta-
dos sin evidencias de equivalencia entre versiones o formas.
ttLa periodicidad de aplicación se justifica con criterios teórico-metodológicos o logís-
ticos sustantivos, distinguiéndolos de criterios políticos o de opinión.
ttSe especifica y justifica el marco metodológico que integra en forma coherente los
procesos y métodos que guían el desarrollo de la prueba.
ttSe especifica y justifica el modelo psicométrico usado.
ttHay manuales técnicos que orientan de manera detallada todos los procesos involu-
crados en el desarrollo de la prueba.
3. Se documentan los procedimientos utilizados para la calibración de las pruebas y para
el análisis psicométrico.
ttSe presentan los procedimientos psicométricos utilizados para determinar sesgo,
funcionamiento diferencial e impacto adverso de la prueba.

150Las pruebas
ENLACE
para educación media superior
ttSe describen los análisis efectuados para detectar la influencia de factores diversos
en la calidad de la medición, como la habilidad de lectura o escritura, la comprensión
espacial, la ansiedad, etcétera.
4. Se ofrece información sobre la confiabilidad de las pruebas.
ttSe describen los procedimientos usados para calcular la confiabilidad de las subes-
calas y versiones de la prueba. En particular, se reportan resultados del cálculo de
consistencia interna de la prueba y sus subescalas.
ttSe dispone de resultados de correlación con aplicaciones repetidas.
ttHay un reporte con valores de separación del modelo logístico empleado.
ttSe reporta la metodología para el cálculo del error de diseño de la prueba y sus sub-
escalas, y se reportan los resultados obtenidos en las aplicaciones.
ttSe presenta la metodología usada para análisis el del funcionamiento diferencial y
de sesgos asociados con personas, pruebas y subescalas. Se reportan resultados de
estudios hechos para determinar posibles sesgos.
Calidad de ítems y bancos de reactivos
5. Se documentan los procedimientos para el análisis psicométrico de los ítems y para el
cuidado de su calidad.
ttSe cuenta con un documento que describe el modelo de calibración de reactivos y
los criterios para su aceptación, revisión y modificación.
ttSe explicitan los procedimientos utilizados para efectuar el análisis de ítems (dificul-
tad, discriminación, ajuste [fit], distractores, dimensiones, etcétera).
6. Se ofrecen evidencias sobre la calidad de los bancos de ítems.
ttHay una normativa para revisar, corregir y desechar reactivos en función de los resul-
tados de la calibración, considerando varios parámetros y evidencias.
ttEs posible revisar los inventarios del banco de reactivos debidamente clasificados y
con valores psicométricos o edumétricos. No es aceptable que la prueba carezca de
inventario o que haya reactivos sin calibración.
ttSe cuenta con una normativa para el uso de los reactivos según su vigencia en el
banco o en las versiones, forma de almacenamiento (en medio informático o físico)
y forma de actualización para uso posterior.
Calificación y niveles de desempeño
7. Se informa sobre los procedimientos seguidos para la calificación de los sujetos que res-
ponden las pruebas.
ttEstá disponible el documento que explica la forma en que se asignó calificación a los
estudiantes (normativa, criterial u otra).
ttSe cuenta con la explicación del diseño de la escala de la prueba y la forma de cal-
cular los puntajes en dicha escala (por modelo clásico o logístico), con penalización
o sin corrección por azar, entre otros posibles criterios.
ttSe explica el procedimiento para obtener la calificación global como combinación
de diversos instrumentos o partes de la prueba. No es aceptable la asignación global
como promedio de promedios.
8. Se justifica lo relativo al establecimiento de los niveles de desempeño y la interpretación
de resultados de las pruebas.

151Anexo técnico
ttExiste el marco teórico-metodológico basado en el currículo que justifica la organi-
zación en niveles de desempeño como estándares o sistema de interpretación de
puntajes, junto con el procedimiento de asignación del valor del punto de corte en
la escala.
ttSe dispone de respaldo documental que especifica el procedimiento (criterial o mix-
to) para determinar los niveles de desempeño o estándares.
ttLos estándares desarrollados a partir de comités de jueces cuentan con el análisis del
dominio curricular o tienen en cuenta consecuencias empíricas de la identificación
de puntajes de corte.
ttLos puntos de corte se validan con un proceso de juicio o mixto (juicio-empírico); se
demuestra experimentalmente su ubicación, y se reporta el intervalo de confianza
correspondiente.
ttHay evidencia empírica de que los niveles de desempeño están bien graduados y
discriminan bien en relación con el contenido de la prueba.
ttSe cuenta con la metodología y evidencia del proceso realizado para describir el
significado de los niveles de desempeño o del conjunto de competencias por nivel
en términos de los puntos de corte.
ttSe tiene el documento que detalla los desempeños por nivel para las competencias
y contenidos propuestos en la prueba, así como otras interpretaciones pertinentes a
partir de los resultados de las pruebas.
ttLos integrantes de los comités encargados de definir los niveles de desempeño se
seleccionan por sus perfiles académicos o laborales, y por su representatividad den-
tro de la diversidad cultural del país; dichos integrantes pasan por un proceso de
capacitación orientado al empleo de la metodología a utilizar.
ATENCIÓN A LA DIVERSIDAD
1. El marco conceptual de las pruebas toma en cuenta cómo la efectividad en el apren-
dizaje, la enseñanza y la evaluación de un contenido están influidos por la experiencia
sociocultural del estudiante y su familiaridad con la lengua y la variedad dialectal en que
se administran aquéllas.
2. Como parte del desarrollo de la prueba, se establecen las características de la población
objetivo que consideran la diversidad cultural y lingüística del país, y los múltiples con-
textos y escenarios culturales y ambientales.
3. Se hace uso de referentes teóricos y conceptuales sobre cultura y lengua y se establecen
procedimientos para tomar en consideración la diversidad cultural, lingüística y socioe-
conómica del estudiantado mexicano.
4. Los documentos que definen tipos y formatos de ítems dan lineamientos para asegurar
que la información gráfica y contextual sea familiar para la mayoría del estudiantado y
refleje amplia variedad de contextos culturales.
5. Los equipos a cargo de desarrollar ítems son multidisciplinarios; además de expertos en
contenido incluyen a profesionales con especialidades en el área de cultura (antropólo-
gos, lingüistas) y maestros de minorías culturales y lingüísticas, y de escuelas rurales y
de nivel socioeconómico bajo.
6. Las muestras de estudiantes con que se pilotean versiones preliminares de la prueba
incluyen submuestras representativas de las minorías culturales, lingüísticas y socioeco-
nómicas del país.

152Las pruebas
ENLACE
para educación media superior
7. El desarrollo de la prueba incluye entrevistas cognitivo-culturales para investigar si es-
tudiantes de diversos grupos culturales, lingüísticos y socioeconómicos interpretan de
igual manera el contenido de muestras representativas de los ítems de la prueba.
8. Existe un proceso de revisión con jueces que considera fuentes de sesgo cultural, lin-
güístico y socioeconómico en muestras representativas de los ítems de la prueba.
9. Se efectúa análisis DIF de una muestra representativa de ítems para diversos grupos
focales: estudiantes de distintos grupos indígenas y zonas geográficas, de nivel socioe-
conómico bajo y de comunidades rurales.
10. Se efectúan análisis de generalizabilidad, en los cuales se determina la solidez de las
generalizaciones de calificaciones obtenidas con el mismo conjunto de ítems para dis-
tintos grupos de estudiantes definidos por grupo étnico y lingüístico, localidad y nivel
socioeconómico.
11. Los tiempos y calendarios de las actividades que tienen como objetivo tomar en consi-
deración la diversidad cultural, lingüística y socioeconómica son razonables y factibles.
12. El desarrollo de las pruebas incluye mecanismos de corrección y mejora con base en
la información obtenida con la validación cognitivo-cultural, la revisión, los análisis de
sesgo y los estudios de generalizabilidad.
APLICACIONES
Selección de muestra
1. Se cuenta con un listado de escuelas actualizado y confiable, sea para una aplicación
censal o como marco muestral.
2. Cuando sea posible, las muestras se diseñarán utilizando diseños sólidos; los estratos se
definirán con base en argumentos teóricos defendibles.
3. Se cuida que el conjunto de sujetos a los que se aplica la prueba coincida con el que se
planificó.
ttEn aplicaciones muestrales se precisan pasos para seleccionar la muestra; si se mane-
jarán aulas intactas o submuestras de alumnos en cada aula; la forma de manejar es-
cuelas de remplazo si las hay, y porcentajes aceptables de exclusiones y no respuesta.
ttEn aplicaciones censales el manual precisa el porcentaje admisible de faltantes y qué
se hace en ese caso.
4. Se verifica que la muestra obtenida concuerde con la planificada dentro de márgenes
aceptables.
ttSe documentan en detalle los pasos para la selección de la muestra.
ttHay una verificación de la muestra por una instancia externa.
ttHay una encuesta o sistema de aseguramiento de la calidad de la muestra.
Planeación de las aplicaciones
5. Se planifica todo lo necesario para estandarizar la aplicación, con formas y materiales
que aseguren comparabilidad de los datos.
ttHay manuales de aplicación, probados en campo, que precisan actividades a desa-
rrollar por cada participante; se describen las variaciones aceptables.
ttHay un cronograma detallado de todos los pasos del proceso.

153Anexo técnico
ttSe identifica a personal de las escuelas que tendrán que ver con la aplicación (direc-
tores, maestros) para contar con su cooperación.
ttSe fijan requisitos de confidencialidad-seguridad de material y respuestas.
ttSe precisa la forma en que deberán documentarse todos los pasos de la aplicación y
las incidencias que se puedan presentar.
ttHay procedimientos de aseguramiento de la calidad de la aplicación.
Selección y capacitación del personal de aplicación
6. Se cuenta con manuales que precisan todo lo relativo al personal a cargo de la recolec-
ción de datos, en todos los niveles.
ttHay criterios para reclutar y entrenar aplicadores y personal de apoyo.
ttSe recluta y capacita a suficiente personal de remplazo.
ttLa capacitación incluye oportunidad de practicar con los instrumentos.
ttLa formación de capacitadores o el entrenamiento del personal que asegurará la
calidad del proceso se maneja centralmente o, en todo caso, se cuidará de forma
que se asegure su adecuado funcionamiento.
ttSe llevan registros de las sesiones de entrenamiento de aplicadores.
ttSe monitorean las actividades en campo por personal de la instancia central o exter-
no, y se registran problemas detectados.
ttSe hacen ejercicios de retroalimentación y revisión de materiales y procesos que
recojan la experiencia del personal en campo.
Minimización de carga, motivación, no respuesta y fraude
7. Se fijan límites realistas de la carga de responder pruebas y cuestionarios de contexto
para que no sea excesiva tomando en cuenta a los sujetos.
ttSe utilizan los resultados de la aplicación piloto para revisar que los estimados de
carga sean realistas y aceptables.
ttSe simplifican los procedimientos y se describen en forma clara y cuidadosa, siempre
buscando minimizar la carga para los sujetos.
ttEn los cuestionarios de contexto para estudiantes se evita preguntar datos que se
pueden obtener de otras fuentes.
ttSe agenda la aplicación en horarios convenientes para los sujetos.
8. Se busca motivar a sujetos para que no respondan preguntas a la ligera.
ttSe informa ampliamente a los sujetos de la evaluación acerca de los propósitos del
estudio y cómo se utilizarán sus datos.
9. Se desarrollan procedimientos para lidiar con la no-respuesta o rechazo a responder la
prueba, y se entrena al personal de aplicación para ello.
10. Se desarrollan procedimientos para lidiar con la copia o cualquier otra forma de fraude.
y se entrena al personal de aplicación para seguirlos.
Procedimientos de control de calidad en las aplicaciones
11. Se manejan procedimientos para asegurar la calidad de las aplicaciones.

154Las pruebas
ENLACE
para educación media superior
ttSe recluta y entrena a monitores que lleven a cabo actividades de control de calidad,
observando la recolección de datos en una muestra de sitios.
ttSi no es viable, se hacen entrevistas de control de calidad presenciales o por teléfono
con aplicadores y demás personal involucrado en la aplicación.
ttSe hace revisión de control de calidad en una muestra aleatoria de los datos recolec-
tados para asegurar un llenado completo y correcto.
ttSe resumen los resultados de cada etapa de aplicación para monitorear el estatus de
las actividades y para identificar y corregir causas de problemas.
Preparación del procesamiento de los datos
12. Hay manuales que detallan los aspectos que se cuidarán para crear archivos de datos
según normas internacionales: cómo introducir los datos; asignación identificadores a
alumnos-maestros-escuelas; variables que se incluirán; códigos válidos de datos faltantes
o respuestas no aplicables; formato de datos; estructura de archivos; limpieza, entre otros.
13. Se cuenta con personal calificado para manipular los datos y se le entrena en todos
los aspectos de su trabajo para asegurar que esté familiarizado con los procedimientos
aceptados y que comprende la importancia de recolectar y capturar la información con
el cuidado necesario con el fin de que los análisis posteriores se hagan sobre informa-
ción de la mejor calidad posible.
14. Se llevan a cabo procedimientos para maximizar la calidad de las bases de datos que
concentran los resultados de la aplicación. Se asegura que:
ttLa estructura de los datos se apegue a la de los instrumentos.
ttLos datos tengan suficientes redundancias para permitir el control de calidad.
ttLas bases tengan identificadores únicos consistentes para que alumnos, escuelas y,
en su caso, maestros o directores puedan relacionarse.
ttSe lleven a cabo verificaciones aleatorias de submuestras de las bases de datos para
verificar que se cumplan los puntos anteriores.
ttSe documenten todas las actividades de preparación de datos.
Procesamiento y verificación de los datos
15. Hay procedimientos para asegurar que la lectura de respuestas y todos los pasos del
procesamiento y verificación de los datos son confiables
ttDurante la lectura de los datos se hacen dobles verificaciones en forma sistemática
para garantizar la confiabilidad del proceso.
ttEn caso de que la lectura de datos se haga en forma descentralizada, se asegura que
se cumplan los estándares en todos los sitios.
ttSe revisa que la estructura de bases de datos se apegue a la acordada, las variables
estén en rangos válidos, y los identificadores sean únicos e íntegros.
ttSe contrastan archivos de datos con instrumentos y cuestionarios.
ttSe calculan estadísticas analíticas para cada ítem.
ttSe calculan estadísticas descriptivas para todas las variables con el fin de revisar que
no haya valores extremos o faltantes; si hay, se reportan su para revisión.
ttSe documentan todos los pasos del proceso.

155Anexo técnico
Notificación de irregularidades
16. La coordinación del estudio deberá ser notificada ante cualquier inconsistencia en los
datos. Toda modificación que resulte de la resolución de inconsistencias deberá ser
aprobada y documentada.
USOS Y CONSECUENCIAS
Soporte de interpretaciones, usos y consecuencias previstas
1. Se presentan argumentos lógicos o teóricos y evidencia empírica que respalde los usos y
consecuencias previstas. Se evita sugerir usos o beneficios de la prueba si no tienen un
apoyo teórico o empírico.
2. Se documenta y evalúa el grado en que se producen las consecuencias previstas o de-
seables de la prueba.
Acceso equitativo y capacidad de interpretación y uso
3. Los resultados de las pruebas se reportan en plazos razonables y se proveen mecanis-
mos de difusión y acceso para todas las partes involucradas sin discriminación.
4. Se apoya a instituciones y usuarios con el fin de desarrollar en ellos la capacidad nece-
saria para la adecuada interpretación y utilización de los resultados.
Comunicación que facilite interpretación de resultados
5. Se informa a los usuarios sobre los propósitos y características de la prueba, lo que pue-
de o no medir, y los usos y consecuencias previstas. Se ofrecen ejemplos e información
suficiente sobre la interpretación deseable (o correcta) de los resultados.
6. Se utiliza lenguaje claro y preciso sin jerga técnica innecesaria; se explican términos
técnicos en lenguaje claro y comprensible para una audiencia general.
7. Se ofrece un marco normativo para evaluar el desempeño de los examinados. Se descri-
ben el perfil y las características de la población de referencia.
8. Se ofrece información para minimizar la posibilidad de interpretaciones incorrectas. Se
notan limitaciones y errores comunes de interpretación al comparar diferentes pruebas,
años, dominios, grupos, o niveles de agregación. Se usan categorías precisas que no
den lugar a estigmas.
Interpretaciones, usos y consecuencias imprevistas
9. Se advierte sobre usos para los que no existe suficiente evidencia de validez (aunque no
se pueden prever todos los usos o interpretaciones inapropiadas, se busca identificar y
acotar los más factibles o probables).
10. Se documenta la existencia de usos o consecuencias imprevistas (ya sean adecuadas/
positivas, o inadecuadas/negativas).
11. Cuando existe evidencia confiable de usos inapropiados, éstos se investigan en grado y deta-
lle adecuado. Si persisten, se informa a los usuarios y se intenta tomar acciones correctivas.

LAS PRUEBAS EXCALE PARA EDUCACIÓN BÁSICA
UNA EVALUACIÓN PARA EL INSTITUTO NACIONAL PARA LA EVALUACIÓN
DE LA EDUCACIÓN
En su formación se utilizaron las familias
tipográficas: Frutiger Lt Std y Museo.
Tags