Definición. El sesgo de medición es el error sistemático — no aleatorio — que afecta consistentemente los puntajes de una prueba en una dirección determinada, comprometiendo la validez de las interpretaciones que se hacen con base en esos puntajes. En psicometría, sesgo es un concepto técnico, no moral: existe cuando una prueba mide algo distinto a lo que pretende medir, o lo mide con diferente precisión, en grupos diferentes.
Desarrollo. El uso coloquial del término "sesgo" tiende a equipararlo con "injusticia" o "discriminación". El uso técnico es más preciso. Una prueba tiene sesgo de medición cuando el constructo evaluado se mide de forma sistemáticamente diferente — no solo en magnitud, sino en significado — entre dos o más grupos comparables. Esa diferencia técnica no implica automáticamente intención discriminatoria, pero sí compromete la validez de las comparaciones que se hacen con base en la prueba.
Las tres categorías técnicas de sesgo más estudiadas son:
Una distinción crítica: la presencia de diferencias en los puntajes promedio entre grupos no es, por sí sola, evidencia de sesgo. Diferencias reales en el constructo pueden producir diferencias reales en los puntajes, sin que la prueba esté técnicamente sesgada. El sesgo existe cuando los puntajes difieren por razones distintas al constructo que la prueba dice medir, no cuando difieren porque el constructo mismo se distribuye de forma distinta entre poblaciones.
Ejemplo aplicado. Una empresa mexicana de servicios profesionales detecta que sus candidatos mujeres obtienen consistentemente puntajes más bajos en una escala de "liderazgo" de su batería de selección. Antes de concluir que las candidatas tienen menos potencial de liderazgo, el equipo de RRHH solicita un análisis técnico al proveedor. El estudio revela que varios ítems describen comportamientos de liderazgo en términos asociados culturalmente con estilos masculinos tradicionales — confrontación directa, dominio en reuniones — sin reconocer estilos de liderazgo igualmente efectivos pero menos confrontativos. El problema no es que las candidatas "lideran menos"; es que la escala mide preferencialmente una versión culturalmente cargada del constructo. La empresa solicita al proveedor revisión de los ítems con análisis de funcionamiento diferencial por género.
Por qué importa al decisor. Detectar sesgo de medición no es responsabilidad exclusiva del proveedor: el cliente que aplica el instrumento tiene obligación de cuestionar cuando los patrones de puntajes en su población sugieren funcionamiento diferencial. Pedir análisis específicos por subgrupo — género, edad, región, escolaridad — es legítimo, técnicamente fundado y, en el clima regulatorio mexicano actual, prudente.
Referencias.
Society for Industrial and Organizational Psychology. (2018). Principles for the validation and use of personnel selection procedures (5.ª ed.). https://www.siop.org