Sensibilidad y especificidad psicométrica

Definición. Sensibilidad y especificidad son dos métricas que cuantifican qué tan bien una prueba con punto de corte clasifica correctamente a los evaluados respecto a un criterio externo. La sensibilidad es la proporción de candidatos con desempeño futuro alto que la prueba identifica correctamente como "altos". La especificidad es la proporción de candidatos con desempeño futuro bajo que la prueba identifica correctamente como "bajos". Ninguna prueba alcanza el 100% en ambas a la vez; toda elección de punto de corte negocia entre las dos.

Desarrollo. Los conceptos provienen originalmente de la epidemiología — diagnóstico médico — y se aplican a la psicometría laboral cuando una prueba se usa con punto de corte para tomar una decisión binaria (pasa / no pasa, contrata / no contrata, promueve / no promueve). Dado un criterio externo verificable más adelante — desempeño real medido a 6 o 12 meses, permanencia, ascenso — se construye una tabla cruzada de cuatro celdas que compara la predicción de la prueba con el resultado real:

Sensibilidad = VP / (VP + FN). Mide cuántos buenos se atrapan correctamente.
Especificidad = VN / (VN + FP). Mide cuántos malos se rechazan correctamente.

Cuando se baja el punto de corte, sube la sensibilidad — se atrapan más buenos — y baja la especificidad — entran más malos al filtro. Cuando se sube el punto de corte, sube la especificidad — se rechazan más malos — y baja la sensibilidad — se rechazan también buenos por error. No existe punto de corte sin trade-off. La decisión correcta depende del costo organizacional relativo: si contratar a un malo es más caro que rechazar a un bueno (banca, seguridad, salud), conviene maximizar especificidad. Si rechazar a un bueno es más caro que contratar a un malo (talento escaso, mercados ajustados), conviene maximizar sensibilidad.

Los manuales técnicos serios publican curvas ROC — gráficos que muestran sensibilidad contra (1 − especificidad) para distintos puntos de corte — y un valor agregado llamado AUC (área bajo la curva), que resume la capacidad discriminativa global del instrumento. AUC de 0.50 equivale a azar. AUC de 0.70 a 0.80 indica utilidad práctica. AUC mayor a 0.80 se considera excelente para psicometría laboral.

Ejemplo aplicado. Una cadena de tiendas mexicanas evalúa a 500 candidatos a vendedor con una prueba de orientación a ventas con punto de corte en el percentil 50. A los 12 meses verifica el desempeño real: 200 vendedores quedaron en el cuartil superior de cuota cumplida (criterio "desempeño alto real"). De esos 200, la prueba había clasificado correctamente como "alto" a 160 — sensibilidad = 160 / 200 = 80%. De los 300 con desempeño bajo, la prueba había clasificado correctamente como "bajo" a 210 — especificidad = 210 / 300 = 70%. La prueba detecta bien al talento y comete errores moderados rechazando a quienes finalmente sí desempeñaron mal. Subir el corte al percentil 70 elevaría la especificidad pero perdería sensibilidad: se rechazarían más buenos en el proceso de filtrar más malos.

Por qué importa al decisor. Toda decisión con punto de corte negocia sensibilidad por especificidad — no hay corte óptimo en abstracto, solo corte óptimo para un costo organizacional específico. El dato que conviene comparar entre proveedores es la curva ROC y el AUC del instrumento para el criterio que importa al puesto en cuestión, no el coeficiente de validez global en abstracto. Cuando un proveedor solo ofrece coeficiente de validez agregado y no puede entregar tabla de sensibilidad/especificidad por punto de corte para población mexicana, la herramienta resulta menos útil para tomar decisiones informadas: el decisor no sabe cuántos errores está comprando ni en qué dirección.

‍

Referencias.

Aguinis, H., & Smith, M. A. (2007). Understanding the impact of test validity and bias on selection errors and adverse impact in human resource selection. Personnel Psychology, 60(1), 165-199. https://doi.org/10.1111/j.1744-6570.2007.00069.x
Cascio, W. F., & Aguinis, H. (2019). Applied psychology in talent management (8th ed.). SAGE.
Society for Industrial and Organizational Psychology. (2018). Principles for the validation and use of personnel selection procedures (5th ed.). Society for Industrial and Organizational Psychology. https://www.apa.org/ed/accreditation/personnel-selection-procedures.pdf
Swets, J. A. (1988). Measuring the accuracy of diagnostic systems. Science, 240(4857), 1285-1293. https://doi.org/10.1126/science.3287615

‍

Sensibilidad y especificidad psicométrica

Más términos para explorar