Bueno, como ya es costumbre en nuestro País, con la venida de Diciembre se viene el muy tradicional sorteo de la Lotería Nacional del Gordo Navideño. Como posiblemente usted sabrá, en diciembre de 2014 hice un blog refiriéndome al tema y bueno, al igual que el rompope, las canciones del Buki y el cobro del malquerido marchamo, se ha vuelto costumbre las preguntas y la lectura obligada del artículo por estas fechas; sin embargo en estos 4 años muchos de nuestros participantes en cursos de PXS nos han dado sugerencias y hemos querido volver a poner un poco más de análisis al tema a ver si podemos “predecir” algún numerito para arrimar algo de platica a nuestra maltrecha economía diciembril [1]!
[1] El autor esta consciente que esta palabra no existe en el Idioma Español, es simplemente una licencia literaria que se toma para hacer más amena la lectura, las disculpas del caso a la RAE.
Antecedentes millonarios
Como se recordará en su momento utilicé para el análisis los sorteos desde el año 2000 hasta el año 2013, teniendo un total 680 sorteos de los cuales 13 fueron gordos navideños. Nuestras conclusiones fueron varias entre ellas:
- Hay una ligera tendencia a salir los números abajo del 54 por aquello de la cábala de que los bajos salen más.
- La moda de los favorecidos es el número 12, es el número que más salió en esos 13 años
- El intervalo de números más ganador fue del 21 al 32
- Las series más ganadoras fueron de la 100 a la 201
- Y la más triste de las conclusiones, los números y series ajustan bastante bien a una Distribución Uniforme Discreta, que es la reina de las distribuciones de juegos de azar. Esto lo concluimos aplicando unTest de Bondad de ajuste basado en la Distribución Chi-cuadrada.
Como le comenté, se tomaron 13 años de sorteos, pero para esta segunda parte del blog, hemos querido mirar más atrás y bueno, incorporar 2014, 2015, 2016 y 2017 a ver si ha sucedió algo importante de considerar, en total vamos a analizar desde1990 hasta el 2017, un total de 1405 sorteos, de nuevo las gracias al Sr. Jose Pérez funcionario de la Junta de Protección Social y la Sra. Connie Chacón por su gentileza de suministrar la data.
Analicemos los datos
Bueno con tal cantidad de data, pues hay que frotarse las manos para entrarles con todo el arsenal estadístico posible. Quiero hacer varias cosas:
- Analizar el comportamiento de estos 27 años de sorteos tanto para números como para series a ver si detectamos alguna tendencia relevante.
- Démosle especial atención a los “gordos navideños” a ver si se comportan de alguna manera especial, tenemos 27 sorteos navideños para ello.
- ¡Revalidemos el comportamiento de ajuste a laDistribución Uniforme de probabilidad para saber si los sorteos son justos o por el contrario si están jugando con nuestros corazoncitos de millonarios en potencia, y ya que andamos por ahí calculemos probabilidades de algunos números“hot” en función de arrimar algo de “suerte” a nuestras compras loteriles!
- Hagamos algo de mates financieras, aplicando el dicho “billetera mata galán”, más adelante le explico la idea y mi predicción ganadora (a ver si pego).
Okey, entonces entremos en materia, primeramente, vamos a analizar los números favorecidos, el gráfico que he preparado es un simple gráfico de barras hecho en Excel, mostrando los 100 números favorecidos en 27 años y la frecuencia que han salido, o sea cuantas veces se ha repetido en estos años:
Bueno, la idea no es que saque lupa o afectarle el astigmatismo que pueda tener, lo interesante es que observe un poco en general la forma de la gráfica, en el eje horizontal puse los números posibles, desde el 00 hasta el 99 y en la barra vertical la frecuencia de suceso. Además, clasifiqué las barras en 3 colores, las rojas, que son números que han salido favorecidos más de 20 ocasiones, las barras amarillas, que han salido entre 15 y 20 veces y las barras azules que han salido menos de 15 ocasiones. Como verá tenemos algunas conclusiones interesantes:
- Números “HOT” o sea, que les gusta salir más, siendo el 6, el 12, 49, el 91 y liderando la lista el 76, por lo que tenemos una pista de cuales comprar en número.
- Tenemos una segunda lista, los amarillos que son 31 números los cuales podríamos tomarles algo de importancia.
- Y finalmente 64 números que no salen tanto, apenas para descartar de nuestra estrategia millonaria.
Podemos reorganizar los datos de mayor frecuencia a menor para darnos una mejor idea de sus comportamientos:
¿Cuáles no hay que jugar? ¡Pues los azules!, el 76 como rey de los números y podría considerar además los siguientes números:
Nos falta analizar las series, veamos entonces que sucede, para nuestra tristeza, recuerde que tenemos 1000 series, desde la 000 a la 999, obtenemos el siguiente gráfico:
He marcado en rojo las series “hot”, tenga en cuenta que ahora ya no son 100 puntos muestrales sino 1000 puntos. Hay en particular una única serie que destaca sobre todas las demás, la serie 131, a cuál en 27 años ha salido más que ninguna otra serie, un total de 6 veces, por lo que es la serie más ganadora. De ahí, podemos considerar también las series:
Otra forma de ver el gráfico de barras anterior:
Análisis “Gordiano”
Pues con tantos datos me pregunté, si a nivel solo de los sorteos del gordo podía existir algún patrón digno de encontrar, por lo que segregué los datos solamente a los 27 sorteos de los gordos y esto fue lo que encontré:
Como podrá notar, realmente es muy común que en estos 27 años no exista un gordo que salga significativamente más que otro, a lo sumo el 65, el 70 y el 99 repitieron, por lo que para nuestra mala fortuna no podríamos pensar que existan factores causales en función de la época que afecten los resultados que se dan. Conozco que para cada nuevo sorteo del Gordo la Junta cambia el set de bolitas por nuevas bolitas, y que las mismas son pesadas para que cumplan un peso promedio con una desviación conocida, pero en términos prácticos podemos concluir que a la Estadística le tiene muy sin cuidado que sean sorteos de Gordos Navideños ☹, así que queda descartado que el factor “Gordo” incida en el resultado.
Analizando lo justo del sorteo
En el anterior artículo que les hice, realizamos para determinar si el sorteo es justo una prueba de bondad de ajuste basado en la distribución Chi cuadrada. La idea es comprobar si los datos se comportan como la Distribución Uniforme Discreta. La Distribución Uniforme Discreta es la distribución que impera en la mayoría de juegos de azar justos, o también podemos decir, es la que garantiza que todos los puntos muestrales del campo muestral tienen la misma probabilidad de salir, algo así como imaginarnos un lanzamiento de un dado, que tiene 6 resultados posibles, ósea N = 6 y determinar cual es la probabilidad de acertar un 3 en un lanzamiento, como sabemos que solo existen un único 3 n = 1, por lo que la probabilidad de sacar un 3 en un lanzamiento de dato es de:
Ahora bien, nuestro campo muestral es algo más numeroso, tenemos 100 números y 1000 series, por lo que por Regla de Combinaciones tenemos 100 000 posibles combinaciones.La vez pasada apliqué una bondad de ajuste“manualmente” utilicé una prueba estadística basado en el test chi cuadrado y concluí que efectivamente los datos ajustaban a una Distribución Uniforme; esta vez voy a usar algo más potente, voy a utilizar el Valor P o p value para aplicar una bondad de ajuste a los 27 años de sorteos, ¡espero no trabar la compu!. El procedimiento que utilicé en MINITAB fue el correr una “macro” que sirve para calcular una bondad de ajuste para una distribución discreta, MINITAB no trae una funcionalidad preestablecida para realizar este trabajo, las que trae se enfocan a algunas distribuciones continuas más comunes utilizadas en la ingeniería, por lo que necesité buscar esta macro, que el mismo soporte de MINITAB2 ofrece[2] .Tomé los datos de las frecuencias reales observadas, que es las veces que salió cada numero de 00 al 99 y también calculé una frecuencia esperada, que es dividir la cantidad de sorteos utilizados de 1990 a 2017 que son 1405 y los dividí entre 100 números posibles, eso me da aproximadamente 14 veces que debió aparecer cada número, por cuestiones de espacio, dando clic en el siguiente vínculo abajo de la siguiente tabla podrá descargar el archivo de Minitab con los resultados si gusta revisarlo, yo solo voy a presentar los resultados del test de bondad de ajuste a continuación:
Goodness of Fit TestDatos
[2] https://support.minitab.com/es-mx/minitab/18/macro-library/macro-files/analysis-of-counts-macros/gof/
NUMBER OF CATEGORIES
100,000
PARAMETERS ESTIMATED 0
DEGREES OF
FREEDOM 99,0000
CHI-SQUARE VALUE 79,3416
P-VALUE
0,926992
G-STATISTIC
79,6515
P-VALUE
0,923388
La prueba de hipótesis que utilizamos es la misma que utilizamos en nuestro primer artículo:
H0: Siguen los datos una Distribución Uniforme Discreta
H1: No siguen los datos una Distribución Uniforme Discreta
Aceptamos H1 si Valor P es menor o igual que nuestra significancia de estudio, en este caso utilicé un típico 5% de significancia (0,05 visto como proporción) o lo que es lo mismo 95% de nivel de confianza. Como se puede apreciar el Valor P dio 0,927 lo cual como decimos acá, por goleada podemos asegurar que los datos caen en H0 por lo que la conclusión es de nuevo, los datos sí siguen la Distribución Uniforme Discreta y por ende no podemos asegurar que algún número tenga mayor probabilidad de salir que otro a no ser meramente por factores de índole totalmente al azar que pase.
También, la macro me calculó otra estadística, que es el coeficiente de máxima verosimilitud G, que es un procedimiento que permite estimar los parámetros de un modelo probabilístico, o los coeficientes de un modelo matemático, de tal manera que sean los más probables a partir de los datos obtenidos. Más allá de su compresión también el Valor P avala lo que el Valor P de la bondad de ajuste basada en Chi cuadrado concluyó.
¡Mi predicción y algo más!
A este punto posiblemente usted quiere que ya termine el blog y yo le diga cuál número va a salir para ir corriendo a buscar al primer vendedor de lotería que se encuentre y segundo para poder poner a prueba las estadísticas de Franklin. Por lo tanto y aceptando el reto le ofrezco mis principales conclusiones, incluido el número ganador del próximo sorteo (¡si pega al menos me invita a una horchata!), vamos valientes.
1.Son 1 600 millones de colones el premio por entero, y cada pedacito paga 40 millones. La Junta sacará 4 emisiones, o sea hay 4 enteros con sus respectivos pedacitos que pueden ganar. Si usted no quiere estar a merced de las leyes de la probabilidad le recomendamos comprar todas las 100 000 posibilidades de números (100 números x 1000 series), la probabilidad de pegar por cada pedacito es 1/100 000 o 0,00001 y aumenta a 0,00004 por ser 4 emisiones (¡ah bárbaro!). ¡Si tiene la plata puede comprar los 100 mil números con serie a un costo de ¢ 2000 por lo que tendría que invertir 200 millones de colones para ganar al menos un pedacito del Gordo, que paga 40 millones por fracción, ¡Mal negocio!
2. Otro detalle importante es que la Junta usa 3 tómbolas, una para el numero con 100 bolitas, una para la serie con 1000 bolitas y otra para los premios, sí, efectivamente los premios también deben salir una vez que sale el numero y serie, eso hace que además del 100 x 1000 que conforma el espacio muestral exista otro multiplicador de probabilidad que hace que sea más difícil pegar, por ejemplo según el Diario la Nación del 17 de octubre de 2018 el plan de premios incluye 15 premios de ¢6 millones, 25 premios de ¢3 millones, 30 premios de ¢2 millones y 77 premios de ¢1 millón, además de los 3 grandotes de 1600 millones el mayor, 160 millones el segundo y 80 millones el tercero, en total serian 150 premios, o sea la probabilidad sería:
3. Calculé las probabilidades de que salgan cada uno de los 100 números y seleccioné los 20 más probables, mostrando el siguiente resultado, como verá no es nada alentador el panorama, son bajas las probabilidades, pero aún así son levemente mejores y descarta a los otros números menos suertudos:
Por lo que finalmente y después de muchas reflexiones concluyo que, si va a jugar, el número que debería jugar debe ser ? a sabiendas que tengo un 0,0000002666 de probabilidad de pegar:
Número | Serie |
76 | 131 |
Hago la aclaración que ha sido demostrado que realmente los sorteos son justos y las diferencias entre números favorecidos solo obedecen a cuestiones naturales aleatorias de los sorteos, sin embargo, si quiere ponerle algo de ciencia a su apuesta, pues mi recomendación es la anterior (tengo 15 años de ser ingeniero y sigo trabajando 😛). Al final como les comentaba en mi anterior blog aunque no ganemos nada nos queda la satisfacción que nuestro dinero ayuda para causas de bien social!! Mucha suerte y felices fiestas.