¿Quien ganará LigaSur?

Se acerca la última sede y de los partidos que allí se celebren saldrá el ganador de la fase regular. También sabremos quien ocupa la segunda plaza, que con el primero clasificado, esta exento de la primera ronda  de los playoffs.

Hasta ahora se han celebrado 4 sedes, 24 partidos, y a diferencia de la temporada anterior, al ser a doble vuelta, tenemos referencias de los partidos que se van ha jugar. Con toda esta información, ¿ podemos hacer una predicción razonable de cual sera la clasificación final?

Simulando el futuro

Supongamos por un momento que no tenemos toda esa información, que de hecho no sabemos nada de los equipos que juegan, ni siquiera de hockey. Tendríamos entonces que asumir que los resultados de los partidos son azarosos, y que ambos equipos tienen la misma probabilidad de ganar.  Si fuera así, ¿ como podríamos predecir la clasificación, si el resultado de partido es incierto ? Un manera es simular la sede: para cada partido tiramos una moneda, cara gana local, cruz gana visitante. Tiramos 6 monedas, apuntamos el resultado y calculamos la clasificación. Pero claro, si tiramos las 6 monedas otras vez, es muy posible que salga algo distinto. Lo que podemos hacer es tirar las monedas, muchas veces, y ver que clasificación final se repite más . A mano es un poco laborioso, pero con un ordenador es fácil simular la sede 100,1.000, 10.000 veces …, y representar la frecuencia con la que aparece cada equipo en cada posición, 1º, 2º, etc.

Tras 10.000 simulaciones,   Sancti Petri, aparece el primero el 65% de la veces, Cartagena el 31% y Sevilla el 4%.

También podemos representarlo desde el punto de vista de los equipos

Pos_random

Sevilla tendría un 3% de posibilidades de quedar 1º, 12% de quedar 2º, 70% de quedar 3º, otro 12% 4º y otro 3% de quedar 5º.

Modelando la realidad

Pero el resultado de los partidos no es al azar, hay equipos que esta liga han jugado mejor que otros, y eso lo vemos en la clasificación. Una manera de medir cuanto de mejor juega un equipo que otro, es la diferencia de puntos en la clasificación. Ahora podemos cambiar nuestra moneda de las simulaciones anteriores por un dado. En cara del  dado pondremos  un logo de uno de los equipos que se enfrentan. El equipo con más puntos saldrá en más caras y viceversa.

¿Pero cuantas caras tenemos que poner para un equipo y el otro? ¿Como transformar la diferencia de puntos en una probabilidad de ganar? Para esto vamos a usar regresión logística, que según la wikipedia es “es un tipo de análisis de regresión utilizado para predecir el resultado de una variable categórica (una variable que puede adoptar un número limitado de categorías) en función de las variables independientes o predictoras“. En nuestro caso el evento sería la victoria del equipo local y la variable predictora la diferencia de puntos entre los equipos. Con este análisis podemos asignar una probabilidad al resultado de un encuentro en función de la diferencia de puntos entre los que equipos que lo disputan. Gráficamente:

Así, según este modelo,  Sancti Petri, tendría un 92% de posibilidades de ganar a Don Patín, mientras que Fuengirola tendría un16% de posibilidades de ganar a  Cartagena.

Calibrando el modelo

Pero esto no es todo, el modelo tiene un parámetro, que llamaremos K, que regula como de dependiente es el resultado de la diferencia de puntos. Cuando K=0, el resultado no depende de la diferencia de puntos y volvemos a nuestra moneda para decidir el resultado. Cuando K es muy grande, en nuestro caso, igual mayor de 1, el resultado es totalmente dependiente de la diferencia de puntos y el modelo siempre da como ganador al  que mas puntos tiene. Evidentemente los dos extremos no son realistas, y como elegir el valor de K es la clave. Sin entrar en demasiados detalles  técnicos, que serán objeto de otra entrada otro día, deciros que podemos usar los partidos que ya se han jugado para buscar el valor de K que mejor predeciría sus resultados.  Haciendo así, calculamos que el valor de K debe estar alrededor de 0.2, que es el valor con el hemos realizado la gráfica anterior.

Ahora con esas probabilidades podemos volver a realizar las simulaciones y ver las nuevas probabilidades de clasificación.

k_0.2

Con este nuevo modelo, ahora asignamos a Sancti Petri  un 87% de posibilidades  de acabar 1º, y  13% de Cartagena,  mientras que para Sevilla aumentamos las  posibilidades de que quede 3º hasta el 91%.

La “cocina”

El hecho de que le valor de la K sea bajo, nos sugiere que hay muchos otros factores que influyen en el resultado del partido. Podemos intentar incluir esos factores en el modelo, como, por ejemplo, el efecto de la pista: grande o pequeña,  en el este o en el oeste, etc. Otra opción es que maticemos un poco el modelo, por ejemplo, utilizando una serie de modificadores que aumentan o reducen los puntos que cada equipo tiene. Por ejemplo, sabiendo que Águilas juega en casa podemos multiplicar sus 9 puntos por 2 y ajustarlo a 18,  ajustar a 9 los 6 de Don Patín porque después de sus dos victorias en Sevilla están en racha y reducir los de Sancti Petri,Sevilla y Fuengirola al 75% por que suponemos que jugaran peor después de un viaje tan largo . Con estas correcciones podemos volver a hacer las simulaciones y comprobar los resultados.

Mod

En estas condiciones, nuestra predicción para el campeón seria muy distinta, ya  asignaríamos a Cartagena (para el que no hemos cambiado el rendimiento) una probabilidad del 62% de ganar el torneo. [No, no se si en liga sur se permiten primas a terceros 😉]

SI quereis ver como afectan el valor de K y distintos valores para modificadores, he preparado una pagina interactiva para que juguéis.  Si descubres algo interesante, compartelo en los comentarios.

La estadística sugieren que no podemos esperar que la clasificación cambie mucho después de la ultima sede y que los puestos están bastante decididos. Espero que los que jugáis esta sede demostréis que no es verdad y que tengamos una sede disputada y con muchas sorpresas. ¡ Suerte a todos!

Deja un comentario