Sesgo de medición

Definición. El sesgo de medición es el error sistemático — no aleatorio — que afecta consistentemente los puntajes de una prueba en una dirección determinada, comprometiendo la validez de las interpretaciones que se hacen con base en esos puntajes. En psicometría, sesgo es un concepto técnico, no moral: existe cuando una prueba mide algo distinto a lo que pretende medir, o lo mide con diferente precisión, en grupos diferentes.

Desarrollo. El uso coloquial del término "sesgo" tiende a equipararlo con "injusticia" o "discriminación". El uso técnico es más preciso. Una prueba tiene sesgo de medición cuando el constructo evaluado se mide de forma sistemáticamente diferente — no solo en magnitud, sino en significado — entre dos o más grupos comparables. Esa diferencia técnica no implica automáticamente intención discriminatoria, pero sí compromete la validez de las comparaciones que se hacen con base en la prueba.

Las tres categorías técnicas de sesgo más estudiadas son:

Sesgo de constructo. El rasgo medido tiene significado diferente en distintos grupos culturales o demográficos. Por ejemplo, la "asertividad" puede entenderse y manifestarse de manera distinta en culturas que valoran la armonía interpersonal frente a culturas que premian la afirmación directa.
Sesgo de método. Las características del procedimiento de evaluación afectan diferencialmente a algunos grupos. Por ejemplo, formatos cronometrados pueden penalizar a poblaciones con menor familiaridad con pruebas estandarizadas, independientemente de su capacidad real en el constructo.
Sesgo de ítem. Ítems específicos funcionan de manera diferente en grupos comparables. El término técnico para detectarlo es funcionamiento diferencial del ítem (DIF), que cuenta con métodos estadísticos estándar para identificarlo.

Una distinción crítica: la presencia de diferencias en los puntajes promedio entre grupos no es, por sí sola, evidencia de sesgo. Diferencias reales en el constructo pueden producir diferencias reales en los puntajes, sin que la prueba esté técnicamente sesgada. El sesgo existe cuando los puntajes difieren por razones distintas al constructo que la prueba dice medir, no cuando difieren porque el constructo mismo se distribuye de forma distinta entre poblaciones.

Ejemplo aplicado. Una empresa mexicana de servicios profesionales detecta que sus candidatos mujeres obtienen consistentemente puntajes más bajos en una escala de "liderazgo" de su batería de selección. Antes de concluir que las candidatas tienen menos potencial de liderazgo, el equipo de RRHH solicita un análisis técnico al proveedor. El estudio revela que varios ítems describen comportamientos de liderazgo en términos asociados culturalmente con estilos masculinos tradicionales — confrontación directa, dominio en reuniones — sin reconocer estilos de liderazgo igualmente efectivos pero menos confrontativos. El problema no es que las candidatas "lideran menos"; es que la escala mide preferencialmente una versión culturalmente cargada del constructo. La empresa solicita al proveedor revisión de los ítems con análisis de funcionamiento diferencial por género.

Por qué importa al decisor. Detectar sesgo de medición no es responsabilidad exclusiva del proveedor: el cliente que aplica el instrumento tiene obligación de cuestionar cuando los patrones de puntajes en su población sugieren funcionamiento diferencial. Pedir análisis específicos por subgrupo — género, edad, región, escolaridad — es legítimo, técnicamente fundado y, en el clima regulatorio mexicano actual, prudente.

‍

Referencias.

American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. (2014). Standards for educational and psychological testing. American Educational Research Association.
Holland, P. W., & Wainer, H. (Eds.). (1993). Differential item functioning. Lawrence Erlbaum Associates.
Society for Industrial and Organizational Psychology. (2018). Principles for the validation and use of personnel selection procedures (5th ed.). Society for Industrial and Organizational Psychology. https://www.apa.org/ed/accreditation/personnel-selection-procedures.pdf
van de Vijver, F. J. R., & Tanzer, N. K. (2004). Bias and equivalence in cross-cultural assessment: An overview. European Review of Applied Psychology, 54(2), 119-135. https://doi.org/10.1016/j.erap.2003.12.004

Sesgo de medición

Más términos para explorar