El Teorema del Límite Central (TLC) es uno de los postulados básicos más importantes, y como veremos en unos minutos, más geniales e interesantes del análisis estadístico-matemático. Sin Teorema del Límite Central simplemente no existiría la inferencia estadística, pues es la base de conceptos como Intervalos de Confianza y Pruebas de Hipótesis.
EL TEOREMA EN UNA FRASE
Si tomamos muestras de tamaño n de una población y calculamos el promedio de cada una de esas muestras, no importa la forma de la distribución original de la población, la distribución de promedios seguirá una distribución normal.
EL TEOREMA DEMOSTRADO CON EL LANZAMIENTO DADOS
Los resultados del lanzamiento de dados siguen una distribución uniforme. Cada uno de los números del 1 al 6 tiene a misma probabilidad de “salir” en un lanzamiento honesto con un dado profesional de casino. La distribución luce así:
Veamos qué pasa cuando lanzamos un dado un par de miles de veces (simulado por supuesto, no tengo tanto tiempo):
El resultado que esperamos de un total de 2,173 lanzamientos (número totalmente arbitrario, simplemente más de dos mil lanzamientos) es que aproximadamente aparezca cada número 1/6 de las veces, aproximadamente 362. Considerando pequeñas diferencias hemos logrado ese resultado. No importa cuántas veces simule el lanzamiento de un dado, siempre será una distribución uniforme.
Vamos a hacer ahora algo diferente. Lanzaremos un dado diez veces, y vamos a sacar el promedio de los diez lanzamientos.
¿Y qué pasa si hacemos lo mismo una gran cantidad de veces, digamos 1,500, y luego hacemos el histograma de los 1,500 promedios?
Según el Teorema del Límite Central el histograma debería parecerse a una distribución normal, ¿será?
Aquí está la magia. La distribución original de los datos puede ser lo que quiera ser, pero el histograma de los promedios de muestras de tamaño n siempre será normal.
Ahora les hago esta pregunta ¿qué creen que pasará si hacemos un histograma de las sumas de las muestras de 10? Pues veamos…
Más magia… El histograma de las sumas de muestras de tamaño n también se comporta normal. Pongámonos formales y agreguemos un poco de matemática a esta maravilla.
Sea X1, X2, X3,…Xn un conjunto de variables aleatorias, independientes e idénticamente distribuidas con media m y varianza . Sea
Sn = X1 + X2 + … + Xn
Entonces:
Con esta notación simplemente confirmamos que entre más grande sea el tamaño de cada muestra más cerca estaremos de la forma de la distribución normal.
EL ERROR ESTÁNDAR DE LA MEDIA, EL OTRO GRAN RESULTADO DEL TEOREMA DEL LÍMITE CENTRAL
Ya está más que claro que la distribución de los promedios de muestras de tamaño n se va a comportar de acuerdo con la distribución normal, ¿qué otros resultados podemos esperar? Hay dos muy importantes para la inferencia estadística y el control estadístico de proceso, a partir del TLC podemos saber cómo se comportará el promedio y la varianza de los promedios.
La variable aleatoria
Tiene aproximadamente una distribución normal con media:
Y varianza:
Precisamente la raíz cuadrada de la varianza muestral es el error estándar de la media.
Error estándar de la media =
El error estándar de la media estima la variación entre múltiples muestras de la misma población. Mide la exactitud con la que la muestra representa la población. En estadística, el promedio muestral se desvía del promedio real, esta desviación es el error estándar de la media. Entre más pequeño el error estándar mejor representará la muestra a la población total.
EL TEOREMA DEL LÍMITE CENTRAL EN LA PRÁCTICA
Dado que conocemos la forma de la distribución de muestras (normal) para cualquier población, podemos tomar cualquier promedio individual y compararlo con la distribución muestral para determinar que proviene de la misma población. En otras palabras, podemos probar la hipótesis alternativa de que nuestra muestra representa a una población distinta de la conocida. Las pruebas de hipótesis de medias y de proporciones se hacen directamente en el mundo del Teorema de Límite Central. Si la probabilidad de observar que el promedio en estudio es mayor (o menor) es lo suficientemente baja (digamos 0.05), entonces podemos rechazar la afirmación (hipótesis nula) de que nuestra muestra es como las otras.
En gráficos de control X Barra – R, se utiliza directamente el error estándar de la media para construir los límites de control de los promedios de muestras.
Siempre que trabajemos con muestras recordemos que detrás de lo que estamos haciendo nos acompaña el Teorema del Límite Central, sin él no podríamos justificar los resultados de algunas de las pruebas estadísticas más comunes.