SERIE LAS 7 HERRAMIENTAS DE LA CALIDAD. No. 9
Entre 70 y 80 porciento de los gráficos presentados en investigaciones científicas son diagramas de dispersión (Edward Tufte citado por Michael Friendly y Daniel Denis en The Early Origins and Development of the Scatterplot). Para algunos, esta herramienta en 2D (dos dimensiones) es una de las más grandes invenciones en toda la historia de la estadística. Para nosotros los ejecutores de la mejora continua, la calidad y la excelencia, es la puerta a explicar la causalidad entre variables.
DEFINICIÓN Y USOS
El diagrama de dispersión grafica pares de datos (x,y) en una cuadrícula de dos ejes para buscar relaciones entre ambas variables. Si existe relación, los puntos seguirán la forma de una recta o una curva.
Se usa cuando:
- Se quiere establecer si existe relación entre dos variables.
- Se sabe que existe relación entre dos variables y se quiere modelar esa relación.
- Se quiere formalizar una causa raíz mediante análisis estadístico.
EJEMPLO
Una heladería le da seguimiento a sus ventas con respecto a la temperatura a medio día. El estudio se realiza por doce días consecutivos. Los datos son los siguientes:
Temp (oC) |
Ventas ($) |
14.2 | 215 |
16.4 | 325 |
11.9 | 185 |
15.2 | 332 |
18.5 | 406 |
22.1 | 522 |
19.4 | 412 |
25.1 | 614 |
23.4 | 544 |
18.1 | 421 |
22.6 | 445 |
17.2 | 408 |
La temperatura es la variable independiente que vamos a colocar en el eje x, y las ventas son la variable dependiente y van en el eje y. El diagrama de dispersión resultante es el siguiente:
El resultado muestra una relación entre las ventas y la temperatura. Conviene hacer un estudio más profundo de regresión y correlación y establecer si un aumento en temperatura causa un aumento en la venta de helados (levemente modificado de www.mathisfun.com).
PASOS PARA HACER UN DIAGRAMA DE DISPERSIÓN
- Recolecte los pares de datos (x,y) donde se sospecha que existe una relación.
- Dibuje el diagrama colocando la variable independiente en el eje horizontal, y la variable dependiente en el eje vertical.
- Para cada par de datos ponga un punto donde se interceptan x y y.
- Busque visualmente patrones en los puntos.
- Si los datos forman una línea o una curva obvia se puede decir que las variables están correlacionadas.
- Continúe con el análisis de regresión y correlación para validar matemáticamente el resultado visual (NOTA: la parte matemática se tratará posteriormente en un blog dedicado al tema).
RECURSOS Y PLANTILLAS
Es muy sencillo hacer un diagrama de dispersión en Excel. En este enlace están las instrucciones para su construcción.
Todo software estadístico cuenta con procedimientos para la realización del diagrama de dispersión y el análisis de regresión. Con los años el análisis estadístico-matemático de la herramienta ha avanzado considerablemente, más allá de los conceptos básicos de regresión y correlación. El tema y sus alcances se tratará en otros blogs más adelante.
UNA HISTORIA CON MUCHOS CONTRIBUYENTES
El diagrama de dispersión es el producto de la contribución de grandes matemáticos y estadísticos a lo largo de cientos de años de desarrollo. El sistema de coordenadas fue introducido por Descartes y Fermat en los 1630s. Edmund Halley (1656 – 1742), por cierto mucho más que simplemente el astrónomo que predijo la trayectoria del famoso cometa que lleva su nombre, dibujó uno de los primeros gráficos bivariados relacionado presión barométrica con altura (ver siguiente figura).
Francis Galton (1822 – 1911) desarrolló buena parte de la teoría de regresión, y de hecho fue él quien propuso el nombre “regresión” como tal en la publicación Regresión a la mediocridad en estatura hereditaria (padres muy altos tienden a tener hijos más pequeños). Posteriores desarrollos de Karl Pearson (1857 – 1936) nos llevaron a la teoría de regresión y correlación. Interesantemente ni Galton ni Pearson crearon el diagrama de dispersión tal como lo conocemos hoy, el honor el corresponde a Sir John Frederick William Herschel (1792 – 1871), matemático, astrónomo, químico, inventor, fotógrafo, entre otras profesiones. El 13 de enero de 1832, Herschel presentó su publicación On the investigation of the orbits of revolving double starts a la Royal Astronomical Society en Inglaterra. Acompañó su presentación de cuatro figuras que constituyen los primeros diagramas de dispersión formales. La publicación se puede conseguir en diferentes foros académicos, sin embargo las cuatro figuras, que al parecer, no fueron reproducidas por costos de impresión, no han sido encontradas aún en los archivos de la Royal Astronomial Society. La buena noticia es que aún faltan por abrir docenas de cajas de documentos asociados a Herschel.
Sir John Frederick William Herschel
Con el diagrama de dispersión el analista inicia su camino hacia la explicación de la relación entre variables, eso sí, siempre recordemos que correlación no siempre significa causalidad.