Mucho se habla en Costa Rica de la capacidad del Deportivo Saprissa para anotar goles en los últimos minutos de los partidos. Este fenómeno se conoce popularmente como anotar en la “Sapri-hora”. Veamos si podemos demostrar por medio de análisis estadístico si la Sapri-hora existe, o si es una leyenda urbana.
Para iniciar vamos a usar el excelente despliegue de estadística descriptiva hecho con datos del periodista José Pablo Molina, y procesado por los economistas Juan Gabriel Alpízar y Didier Mora de la Unafut. Para este blog se utilizó el informe estadístico hasta la jornada 21, que a la fecha de hoy 26 de Noviembre de 2014 todavía está disponible en internet (el link que se proporciona sobre este informe debería cambiar con el tiempo). El grupo de investigadores divide los partidos en 6 periodos de 15 minutos, nuestro principal objetivo es analizar el último período de 15 minutos, desde el minuto 30 hasta el minuto 45 del segundo tiempo. Sería mucho más interesante para demostrar o refutar la leyenda saprissista si tuviéramos la información en tractos de 5 minutos, y de al menos unos 15 años (si alguien sabe dónde podemos conseguir dichos datos, agradeceríamos nos pase el contacto).
Empecemos con la estadística descriptiva. Es mucho más correcto decir que la estadística descriptiva PROCESA información que afirmar que la ANALIZA. O al menos debemos de reconocer que su capacidad de análisis es muy limitada. Vamos a definir Estadística Descriptiva como formas de resumir grandes cantidades de datos sea de una muestra o de una población, mediante un grupo pequeño de coeficientes o cálculos que nos indiquen tendencia central, comportamiento de la dispersión, clasificaciones importantes, y que se redondea con la ayuda de formas gráficas que facilitan su explicación.
Lo interesante de este informe es que todos los datos son atributos (cantidad de goles anotados, cantidad de goles recibidos, partidos ganados, partidos empatados, partidos perdidos) nótese que todo se cuenta mediante números enteros. La estadística descriptiva de datos discretos es diferente (más visual) que la estadística descriptiva de datos continuos (ver link).
Por ejemplo un resumen como el siguiente (tomado del informe):
Partidos disputados: 121
Goles anotados: 323
Promedio de goles por partido: 2.7
Es un ejemplo de resumen descriptivo. En particular sería mejor utilizar la mediana como medida de tendencia central, pues no es posible anotar 2.7 goles en un partido, pero sí exactamente 2 ó exactamente 3, pero la popularidad del promedio va más allá de la correcta escala de datos que en este caso es simplemente nominal (para más información sobre el promedio puede consultar nuestro blog anterior sobre ese tema).
La tabla de posiciones es otro ejemplo de resumen descriptivo.
Tabla 1. Posiciones de la primera división del futbol de Costa Rica hasta la jornada 21. No contempla los resultados del domingo 23 de Noviembre de 2014.
RESUMEN DESCRIPTIVO DEPORTIVO SAPRISSA Y CURIOSIDAD SOBRE OTROS EQUIPOS
Figura 1
Se observa en el gráfico que Saprissa anota más goles en los últimos 15 minutos. Curiosamente otros tres equipos de los 12 que conforman la primera división también anotan más goles en los últimos 15 minutos: Liga Deportiva Alajuelense, Club Sport Herediano y Municipal de Pérez Zeledón. La información se resume en los tres siguientes gráficos.
Figura 2
Figura 3
Figura 4
El lector puede corroborar que ninguno de los otros equipos anota más goles en los últimos 15 minutos.
Ahora, una cosa es que se anoten más goles en los últimos minutos y otra es que la diferencia entre períodos sea significativa. Aquí es donde entra la inferencia estadística.
¿SON LOS GOLES POR PERÍODO ESTADÍSTICAMENTE DIFERENTES?
La cantidad de goles que nos da el resumen descriptivo es un buen principio, pero falta validar estadísticamente si los períodos son diferentes. Como tenemos solamente datos discretos una herramienta que nos puede servir es la Prueba Chi o prueba de independencia. Vamos a probar que los equipos anotan la misma cantidad de goles en todos los períodos versus lo contrario, que los equipos anotan diferentes cantidades de goles en los diferentes períodos. En términos más estadísticos:
Hipótesis Nula: Ho: proporción de goles período 1 = proporción de goles período 2 = … = proporción de goles período 6
Hipótesis Alternativa: H1: al menos una de las proporciones es diferente.
Karl Pearson descubrió y nombró la Distribución Chi Cuadrado en 1900.
El análisis se basa en la fórmula:
La genialidad de esta fórmula es que entre más la suma se acerque a cero, más se cumple la hipótesis nula.
Volvamos al fútbol. La Prueba Chi para el Deportivo Saprissa muestra lo siguiente:
Tabla 2. Prueba Chi Cuadrado goles por período Deportivo Saprissa
Figura 5. Valores de Chi Cuadrado crítico y calculado para el caso Saprissa
El resultado se puede interpretar de dos formas. Primero, el Valor Calculado de Chi Cuadrado (que usa la fórmula indicada arriba) 13.337 es mayor que el valor teórico o de tabla de 11.07 (ver Figura 5). La otra forma es mediante el p-Value de 0.02. En ambos casos se rechaza la hipótesis nula y se concluye que al menos uno de los períodos de 15 minutos no es uniforme. No necesariamente podemos concluir que los 11 goles del período 6 son estadísticamente diferentes de los 7 u 8 de los períodos 3 y 4, pero si podemos concluir que el período 6 es diferente del período 5.
En los casos de Alajuela y Heredia el resultado de la Prueba Chi es similar (se rechaza la hipótesis nula y se concluye que al menos los goles de un período son diferentes), pero en el caso de Pérez Zeledón no se pudo encontrar evidencia de que las anotaciones por período sean independientes, por lo tanto se asume con un nivel de confianza de 95% que “PZ” anota uniformemente durante todos los períodos.
Parece que podemos hablar de una “Sapri-Liga-Heredia Hora”. ¿De qué otra forma podemos demostrar si esto es cierto? Hagamos una prueba de proporciones (otra prueba de inferencia estadística) donde vamos a comparar la proporción (o sea, el porcentaje) de goles que Saprissa, La Liga y Heredia anotan en los últimos 15 minutos versus la proporción de goles que todos los demás equipos anotan en el último período. Entre los tres equipos han anotado 37 goles de un total de 110 en los 15 minutos finales, e interesantemente los otros nueve equipos también han anotado 37 goles en este período, pero de un total de 213.
El resultado de la prueba de proporciones es el siguiente:
Tabla 3. Prueba de igualdad de proporciones Saprissa – La Liga – Heredia versus los demás equipos
Saprissa, La Liga y Heredia anotan el 33.63% de sus goles en el período final, mientras que los demás equipos anotan el 17.37% de sus goles en el mismo intervalo de tiempo. Con un p-Value de 0.000979 queda claro que al 95% de confianza hay que cuidarse mucho más de estos tres equipos hacia el final de los partidos.
¿Son Saprissa, La Liga y Heredia uniformes en sus anotaciones del último período? Una prueba Chi nos dará la respuesta.
Tabla 4. Prueba Chi Cuadrado de uniformidad de goles en el último período de los equipos Deportivo Saprissa, Liga Deportiva Alajuelense y Club Sport Herediano
Efectivamente son uniformes (con un p-Value enorme de 0.9)
Y mejor veámoslo gráficamente para evitar chismes:
Figura 6
La prueba de la tabla 4 demuestra que los 15 goles de Heredia no son significativamente diferentes de los 11 de Saprissa y La Liga respectivamente (al 95% de confianza).
Bueno, y sólo conjeturando, ¿qué podríamos decir de las razones para este comportamiento? Estos son los equipos con más recursos en Costa Rica, ¿será una mejor preparación física, mejor alimentación, mejor banca? ¿Será acaso que la afición proporciona un segundo aire emocional? Puede que sea una combinación de todas estas cosas. Lo cierto es que mejor “meter el bus” en los últimos minutos contra Saprissa, La Liga y Heredia, por aquello de mejor estar seguros.
Al final es solamente futbol, y ya lo decía el ex entrenador del Liverpool Bill Shankly:
“Algunos creen que el futbol es una cuestión de vida o muerte, estoy muy desilusionado de esa actitud. Les puedo asegurar que es algo mucho, mucho más importante que eso”…