¿Qué pasa si trata de introducir una figura cuadrada en un agujero circular? No se puede, no tiene lógica, las figuras no calzan… ¿Alguna vez ha tratado de ajustar los datos de una muestra no normal para que le den “normales”?… Mismo resultado, no se puede, no tiene lógica, no calza.
La Distribución Normal, de Gauss, de Campana, tiene algunas ventajas de cálculo y de modelación. Es mucho más fácil hacer análisis de datos “normales” que de otras distribuciones o ausencia de distribución. Pero hasta ahí; no hay nada de malo con datos que no presentan normalidad.
Los dos errores más comunes respecto a normalidad son:
- Si los datos no son normales hay algo malo en el proceso.
- Si hacemos la muestra más grande, tarde o temprano se hará normal.
¡No, y no! Si sus datos no muestran un comportamiento normal no quiere decir que su proceso está maldito. Por ejemplo si está analizando tiempos (en una fila, en espera de un servicio, de transporte, de lo que sea…) el comportamiento de los datos generalmente será sesgado a la derecha. Lo mismo pasa con el análisis de salarios, distribución de riqueza, siempre habrá sesgo hacia la derecha.
¡Y qué decir de hacer la muestra más grande! Si le echa más agua a la sopa, será sopa con más agua, pero seguirá siendo sopa. Si mantiene la esperanza de que más datos “se conviertan” a la distribución normal (sonó casi religioso), probabilísticamente puede pasar, pero la mayoría de las veces le mostrará la misma distribución original (pero más clarita). Y cuidado con la prueba de Anderson-Darling, es para muestras pequeñas. Muchos datos le rechazarán la hipótesis nula aun cuando sea verdadera. Y nota importantísima: el Teorema del Límite Central no tiene nada que ver con el tamaño de la muestra, sino con la distribución de promedios de muestras.
Distribuciones de opiniones, modelos psicométricos, grandes variables socioeconómicas y demográficas como inteligencia, peso, salud, estatura, riqueza (como los salarios de la empresa donde usted trabaja), nunca siguen una distribución normal. Hay demasiadas variables, circunstancias, diferencias genéticas, ambientales, de oportunidad, involucradas en un estudio de este tipo.
Uno de los ejemplos más aterradores del mal uso de la distribución normal es la llamada Constante Macabra. Les cuento… Es el supuesto de que las notas de los estudiantes siguen un comportamiento “normal”, donde algunos pocos tendrán muy malas notas, una gran mayoría notas intermedias, y unos pocos súper dotados notas superiores. Este supuesto ha sido tan fuerte en algunos sistemas educativos que obliga a repetir pruebas y exámenes si todos salen bien, o todos salen mal, y hasta cuestiona la efectividad del educador, particularmente si la mayoría tienen buenos resultados. Y ya sé lo que algunos de ustedes están pensando, así se evalúa también el desempeño en el trabajo. Conozco pruebas de evaluación de desempeño que le indican de previo al evaluador que TIENE que “acomodar” a su gente de acuerdo con la Constante Macabra. Inconscientemente profesores y jefes justifican la clasificación imaginaria de estudiantes y empleados como malos, buenos y excelentes. El francés André Antibi ha puesto la alerta de esta forma de desmotivación sistemática en el estudio y que podemos extender a las evaluaciones de trabajo, y que no es más que el producto del mal uso de la matemática y la estadística.
Einstein dijo una vez “se debe hacer todo tan sencillo como sea posible, pero no más sencillo”. No trate de modelar con la Distribución Normal lo que no es ni será nunca normal. Busque un mejor modelo que lo lleve a tomar decisiones no sólo más acertadas sino hasta más justas.