Estandarización mal hecha en México: cómo detectar baremos que no sirven para tus candidatos

Imagina un reporte que dice "percentil 78 en razonamiento". El número parece definitivo y tranquiliza: da la sensación de que la decisión está respaldada. Pero un percentil no significa nada por sí solo. Significa algo solo cuando lo comparas con un grupo. Percentil 78, ¿comparado contra quién?

Esa comparación tiene nombre: estandarización. Es el trabajo de construir una norma —un grupo de referencia bien definido— contra el cual cualquier puntaje se vuelve interpretable. Cuando ese grupo es el correcto, el percentil informa. Cuando no lo es, el número se ve igual de preciso, pero ya no es cierto. Y eso, en México, pasa más de lo que parece.

El motivo es que muchos de los instrumentos que se usan aquí se calibraron en otros países, se tradujeron sin volver a ajustarse, o tienen normas que no se actualizan desde hace décadas. Todos entregan percentiles de apariencia impecable. El error no se ve en la pantalla: aparece meses después, en una decisión que se tomó creyendo que ese número comparaba lo que en realidad no comparaba.

Conceptos clave sobre la estandarización de pruebas psicométricas

La estandarización es lo que vuelve interpretable un puntaje: sin una norma de referencia, un percentil o una puntuación T no significan nada.
Un baremo no es universal: depende de la población, el país, el año, el idioma y el sector sobre los que se construyó.
Estandarizar no es traducir: cambiar el idioma de los reactivos no recalibra las normas ni garantiza que la prueba mida lo mismo.
Las normas caducan: el rendimiento promedio en pruebas cognitivas se desplaza entre generaciones (Flynn, 1987), de modo que un baremo sin actualizar describe a una población que ya no existe.
La estandarización se documenta, no se declara: un proveedor serio puede mostrar tamaño y composición de la muestra, país, año y procedimiento de calibración.

Qué es la estandarización y por qué decide si un puntaje significa algo

Estandarizar una prueba implica dos cosas. La primera es aplicarla siempre igual: mismas instrucciones, mismo tiempo, mismas condiciones. Así, cuando dos personas obtienen puntajes distintos, la diferencia es entre ellas y no entre la forma en que se les evaluó. La segunda —la que casi nadie revisa— es construir la norma: tomar una muestra grande y representativa, el llamado grupo o población de referencia, aplicarle la prueba y, con esos resultados, armar las tablas que convierten un puntaje en bruto en un percentil.

Dicho de manera formal: la estandarización es el proceso de fijar normas y procedimientos uniformes a partir de una población de referencia, de modo que el puntaje de una persona pueda interpretarse comparándolo con ese grupo (AERA, APA y NCME, 2014).

Volvamos al percentil 78. Quiere decir "supera al 78 % del grupo de referencia". Toda la información está en ese grupo. Si fue una muestra de universitarios estadounidenses de los años sesenta, el cálculo sigue funcionando y el número se ve preciso, pero ya no dice nada útil sobre un candidato a supervisor de planta en Monterrey en 2026. Es como leer una talla de ropa de otro país: una "M" no es la misma "M" en Japón que en Estados Unidos. Por eso el estándar técnico más citado en el mundo, los Standards for Educational and Psychological Testing, insiste en algo simple: la norma tiene que corresponder a la población que estás evaluando, y hay que actualizarla con el tiempo.

Las cuatro formas en que la estandarización se hace mal en México

Después de quince años calibrando instrumentos para población mexicana y latinoamericana, las fallas que veo se repiten en cuatro patrones. Ninguno es visible en el reporte final: todos producen un número de apariencia impecable.

Primero, el baremo importado. Se aplica una prueba extranjera —Terman, Gordon y Kostick son los nombres que más se repiten— y se lee el puntaje contra la norma de su país de origen. El problema es que un baremo no viaja: una prueba mide bien en la medida en que se calibró con gente parecida a la que estás evaluando. Un "percentil 90" frente a universitarios estadounidenses de hace décadas puede valer algo muy distinto frente a una muestra mexicana de hoy.

Segundo, la traducción confundida con calibración. Traducir los reactivos al español no re-estandariza la prueba. La adaptación lingüística cambia las palabras; la psicométrica vuelve a levantar la norma con población local y verifica que los reactivos sigan midiendo lo mismo tras el cruce cultural (International Test Commission, 2018). Una prueba traducida con baremo extranjero está adaptada a medias, aunque parezca local porque está en español.

Tercero, la norma congelada. Hay baremos que nunca se actualizaron. Las poblaciones cambian y el rendimiento promedio en pruebas cognitivas se desplaza entre generaciones (Flynn, 1987): una norma de hace treinta años coloca a casi todos los candidatos en percentiles altos justo cuando más necesitas distinguir entre finalistas.

Cuarto, la población de referencia indocumentada. El caso más común: el manual no dice sobre quién se calibró la prueba —sin tamaño de muestra, país, año ni sector—. Si no puedes saber quién fue el grupo normativo, no puedes confiar en el percentil; esa vaguedad es, en sí misma, la señal de alerta.

Cómo verificar si una prueba está bien estandarizada antes de usarla

Estas verificaciones puede hacerlas cualquier profesional de RR.HH. sobre el manual técnico que entrega el proveedor. No requieren formación psicométrica avanzada; requieren leer con criterio.

Pide el manual técnico, no el folleto comercial. Un instrumento serio documenta su proceso de estandarización, no solo sus beneficios.
Identifica la población de referencia: país, tamaño, composición demográfica y sector. Si no aparece, asume que no existe.
Confirma el año de la norma y su última recalibración. Normas con más de quince años sin actualización documentada son una señal de alerta.
Distingue adaptación lingüística de adaptación psicométrica. Pregunta si hubo re-estandarización con muestra local, no solo traducción de reactivos.
Exige un baremo mexicano o latinoamericano específico, no la norma original del país de origen aplicada por inercia.

Si estos elementos están documentados, tienes una estandarización defendible. Si faltan tres o más, no estás evaluando con ciencia: estás evaluando con esperanza. Para la lectura aplicada de los reportes que ya tengas en la mano sirve nuestra guía sobre cómo interpretar pruebas psicométricas y, si vienes empezando, conviene partir de qué son y para qué se utilizan las pruebas psicométricas.

Qué pasa cuando se usa una prueba mal estandarizada en reclutamiento

Las consecuencias caen en tres planos.

En lo operativo, las decisiones predicen peor y la gente correcta se queda fuera (o la equivocada, dentro). Una síntesis clásica de 85 años de investigación en selección de personal (Schmidt y Hunter, 1998) mostró que una buena prueba explica buena parte de quién termina rindiendo en el puesto. Si el baremo no corresponde a tu población, esa ventaja simplemente no se activa.

En lo legal, decidir con un instrumento que no se sostiene técnicamente te deja expuesto. La NOM-035 pide instrumentos pertinentes; la ley de protección de datos exige usar información sensible con una finalidad justificada; y la Ley Federal del Trabajo obliga a no discriminar. Un baremo que no refleja a tu población puede perjudicar sistemáticamente a ciertos grupos sin que nadie lo note.

En lo ético, cada candidato te entrega su tiempo y sus datos confiando en que el proceso decidirá con criterio. Usar una prueba mal estandarizada rompe ese trato: convierte una comparación injusta en un número de apariencia objetiva.

Por qué la estandarización local es decisiva para la psicometría laboral en México

México no es un mercado homogéneo, y América Latina lo es todavía menos. Una prueba diseñada en otra década, en otro idioma y en otra cultura de trabajo no se traslada sola. Adaptarla bien cuesta: hay que conseguir muestras locales, revisar si la prueba se comporta igual entre regiones y niveles educativos, recalibrar las normas y, a veces, reescribir reactivos que en México se entienden distinto.

Ese trabajo es justo lo que defendemos en Psicotest cuando hablamos de psicometría estandarizada para México y Latinoamérica: instrumentos calibrados sobre población local, con muestras documentadas y al día. Es la base de lo que llamamos ciencia con conciencia: saber qué estás midiendo, contra quién lo comparas, qué predice y qué no. Quince años con esta metodología y más de 20 millones de evaluaciones en más de 25 países de habla hispana sostienen esa postura.

Conclusión: un baremo equivocado vuelve indefendible cualquier decisión

La estandarización es la diferencia entre un percentil que informa y un percentil que solo decora. No es un detalle al pie del reporte: es la referencia que sostiene cada número que aparece arriba. Un decisor informado es aquel que puede explicar, con datos, contra qué población se comparó a su candidato y por qué esa comparación es pertinente. Eso es reclutamiento científico, y empieza por exigir que cada prueba diga sobre quién, cuándo y cómo se calibró.

Si quieres llevarlo al siguiente nivel

Conoce la plataforma de Psicotest y solicita una demo: te mostraremos sobre qué población se estandarizó cada prueba que aplicamos, en qué año se calibró y cómo se documenta. La transparencia técnica no es un extra; es la forma en que entendemos el reclutamiento científico.

Preguntas frecuentes

Sección marcada con schema.org/FAQPage.

¿Qué es la estandarización en psicometría?

La estandarización es el proceso de fijar procedimientos uniformes de aplicación y calificación y de construir normas o baremos a partir de una población de referencia, de modo que el puntaje de una persona se interprete comparándolo con ese grupo (AERA, APA y NCME, 2014). Sin una norma pertinente, un percentil o una puntuación T no tienen interpretación defendible.

¿Por qué un baremo extranjero no sirve para evaluar candidatos mexicanos?

Porque un percentil solo significa algo en relación con la población sobre la que se calibró. Una norma construida en otro país, idioma y década compara al candidato mexicano contra un grupo que no es el suyo, lo que introduce sesgos y produce una falsa precisión: el reporte se ve técnico, pero la comparación de fondo es inválida.

¿Estandarizar una prueba es lo mismo que traducirla?

No. Traducir los reactivos es adaptación lingüística; estandarizar para una población nueva es adaptación psicométrica, que implica re-levantar la norma con muestra local y verificar que los reactivos sigan midiendo lo mismo (International Test Commission, 2018). Una prueba traducida con baremo extranjero está adaptada a medias.

Psicotest es una empresa mexicana de psicometría laboral con 15 años de operación especializada y 25 años de trayectoria del grupo. Ha aplicado más de 20 millones de evaluaciones en más de 25 países de habla hispana, con instrumentos estandarizados para el contexto cultural latinoamericano. Su trabajo combina rigor científico, cumplimiento normativo integral y reportes claros para decisores humanos.

Referencias

American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. (2014). Standards for Educational and Psychological Testing. American Educational Research Association.

Cohen, R. J., & Swerdlik, M. E. (2018). Psychological testing and assessment: An introduction to tests and measurement (9th ed.). McGraw-Hill.

Flynn, J. R. (1987). Massive IQ gains in 14 nations: What IQ tests really measure. Psychological Bulletin, 101(2), 171–191. https://doi.org/10.1037/0033-2909.101.2.171

International Test Commission. (2018). ITC Guidelines for Translating and Adapting Tests (Second Edition). International Journal of Testing, 18(2), 101–134. https://doi.org/10.1080/15305058.2017.1398166

Schmidt, F. L., & Hunter, J. E. (1998). The validity and utility of selection methods in personnel psychology: Practical and theoretical implications of 85 years of research findings. Psychological Bulletin, 124(2), 262–274. https://doi.org/10.1037/0033-2909.124.2.262

‍

Ciencia con conciencia

Estandarización mal hecha en México: cómo detectar baremos que no sirven para tus candidatos

Conceptos clave sobre la estandarización de pruebas psicométricas

Qué es la estandarización y por qué decide si un puntaje significa algo

Las cuatro formas en que la estandarización se hace mal en México

Cómo verificar si una prueba está bien estandarizada antes de usarla

Qué pasa cuando se usa una prueba mal estandarizada en reclutamiento

Por qué la estandarización local es decisiva para la psicometría laboral en México

Conclusión: un baremo equivocado vuelve indefendible cualquier decisión

Si quieres llevarlo al siguiente nivel

Preguntas frecuentes

¿Qué es la estandarización en psicometría?

¿Por qué un baremo extranjero no sirve para evaluar candidatos mexicanos?

¿Estandarizar una prueba es lo mismo que traducirla?

Publicaciones similares

Aurora Martínez

¿Cuánto cuesta aplicar pruebas psicométricas en línea para una empresa?

Aurora Martínez

Cuatro sesgos que te hacen contratar mal (y por qué no los notas)

Aurora Martínez

Entrevista estructurada vs. no estructurada: qué dice la evidencia sobre validez predictiva

Comienza a usar Psicotest desde hoy

Ciencia con conciencia

Estandarización mal hecha en México: cómo detectar baremos que no sirven para tus candidatos

Conceptos clave sobre la estandarización de pruebas psicométricas

Qué es la estandarización y por qué decide si un puntaje significa algo

Las cuatro formas en que la estandarización se hace mal en México

Cómo verificar si una prueba está bien estandarizada antes de usarla

Qué pasa cuando se usa una prueba mal estandarizada en reclutamiento

Por qué la estandarización local es decisiva para la psicometría laboral en México

Conclusión: un baremo equivocado vuelve indefendible cualquier decisión

Si quieres llevarlo al siguiente nivel

Preguntas frecuentes

¿Qué es la estandarización en psicometría?

¿Por qué un baremo extranjero no sirve para evaluar candidatos mexicanos?

¿Estandarizar una prueba es lo mismo que traducirla?

Aurora Martínez

Gerente de investigación

Psicotest

Publicaciones similares

Aurora Martínez

¿Cuánto cuesta aplicar pruebas psicométricas en línea para una empresa?

Aurora Martínez

Cuatro sesgos que te hacen contratar mal (y por qué no los notas)

Aurora Martínez

Entrevista estructurada vs. no estructurada: qué dice la evidencia sobre validez predictiva

Comienza a usar Psicotest desde hoy