Que equipo chileno tiene la mejor cantera? Datos y resultados

Este post fue actualizado el 07 de Junio de 2022, puedes visitarlo ACÁ

Una pregunta común al momento de analizar las fortalezas de un club se basa en poder detectar el aporte que tiene su cantera a su competencia respectiva. En cierto sentido, el buen desarrollo de una cantera termina repercutiendo de manera positiva para toda la liga. A modo de ejemplo, y extremando el argumento, podemos ver que las juveniles del Barcelona no solo nutren a la primera plantilla, si no que en especial en estos últimos años han mostrado capacidad para posicionar a sus jugadores en las principales ligas de Europa. Por otro lado, a clubes que no tengan una política fuerte en el desarrollo de juveniles se les puede generar un contra incentivo a la inversión y el fortalecimiento de su cantera: se “gasta” solo el mínimo reglamentario requerido y el primer equipo se alimenta con juveniles desechados por mejores canteras. Pero el tema principal de este post no es inclinar la balanza a favor o en contra de uno u otro tipo de política, si no que ir directamente a la data y ver que equipo efectivamente ha nutrido de la mayor cantidad de jugadores a la Primera y Primera B del fútbol chileno.

La Data. Para este trabajo utilizaremos la data histórica de Fooball Manager, simulador futbolístico que desde el año 2003 viene recopilando para la Liga Chilena el historial de jugadores. A día de hoy la liga chilena consta de mas de más de 6000 personas creadas, esto incluye jugadores (activos y retirados), directores técnicos, integrantes de cuerpo técnico, árbitros, entre otros. Esta data para cada persona creada almacena su historial de clubes, goles, partidos, entre los aspectos relevantes para este trabajo.

La Metodología. Armar una metodología para un trabajo de estas características es bastante complejo, en primer lugar porque no hay una abundancia de trabajos que se enfoquen en este tipo de investigación (1). Luego, nos encontramos con una diferencia de criterios para evaluar a “la mejor cantera” que es nuestro objetivo impuesto para el presente articulo. El desarrollo de la metodología se irá desarrollando a medida que vayamos mostrando resultados. En cuanto a las características técnicas, este trabajo se ha desarrollado extrayendo la data mediante SQL, luego para la manipulación de la data se usó R y para el trabajo de análisis y resultados se ha hecho en Excel.

Los resultados. Comenzaremos desmenuzando estos resultados desde el panorama general hasta ir afinando la puntería aplicando más filtros y criterios. Esta primera imagen muestra el top 10 de clubes de donde salieron los jugadores y ex jugadores (limitados a la restricción mencionada en el capitulo de data) registrados en el total de la data y que se encuentran actualmente en algún club de las 5 categorías del país. Esta imagen además muestra su detalle por posición:

La lectura correcta de esta imagen sería la siguiente: De Colo Colo salieron 18 defensores Centrales (DC) y que actualmente juegan o trabajan en algunas de las 5 categorías del fútbol chileno. El detalle de las posiciones se encuentra detallado al final de este articulo (2). Pero en realidad analizando esta configuración inicial, podemos darnos cuenta que acá tenemos en el mismo conteo a un jugador de Primera A como uno de Tercera B, cuando en realidad nos interesa saber ¿De donde salieron los jugadores que actualmente están en la élite del futbol chileno? (3). Además, no nos interesa que en este conteo se sumen DTs o PF que alguna vez jugaron fútbol, dado que por la construcción de la BD su historial como jugador puede haber partido luego de su real debut (4). Por tanto, tenemos nuevos filtros: Solo veremos jugadores activos actuales y que estén en las 2 máximas categorías del fútbol Chileno. Los resultados a continuación:

Entonces, de acuerdo a esta imagen: tenemos 6 laterales izquierdos de Universidad Católica que actualmente juegan/pertenecen a un club de Primera o Primera B. Acá, ya estamos en condiciones de confirmar mediante datos un instinto que era algo común de escuchar en el ambiente futbolero: Colo Colo y Universidad Católica tienen las mejores canteras del fútbol Chileno. Y acá, algo no tan común, el trabajo de datos termina confirmando el instinto. Destaca, de igual forma el gran trabajo de O’higgins, por ejemplo, quedando como el cuarto gran productor de jugadores del fútbol chileno.

Pero analizando el trabajo hasta acá nos encontramos con una restricción extra que aún podemos añadir para así poder afinar aun más el resultado, ocurre que esta data contiene jugadores que pertenecen a un club actualmente, y de esta forma se incluyen los juveniles que aún no pasan al primer equipo. Es por esto que se añadirá un filtro adicional para quitar a jugadores que actualmente estén en la categoría sub 19–Sub 17. De esta forma eliminamos también un sesgo que se da en favor de clubes de grandes (5) y nos limitamos meramente a jugadores de 20 años o más que estén en un club de las 2 máximas divisiones del fútbol chileno. Estos son los resultados finales:

En el final de nuestro camino, podemos afirmar que de los 928 jugadores que tenemos registrados a la fecha en Primera y Primera B, es actualmente Universidad Católica quien tiene la mejor cantera del país al nutrir con la mayor cantidad de jugadores (69) las 2 divisiones del fútbol chileno. Llama la atención por ejemplo la gran cantidad de Medios defensivos que saca el equipo cruzado (11), en el pie de pagina (6) pueden ver el desglose de estos nombres.

En Resumen. La idea de este trabajo es poder mostrar con datos ciertas nociones que uno puede ir generando en el imaginario colectivo, pero además el desarrollo de este articulo muestra dos aspectos muy interesantes que puede servir para discusiones y trabajos posteriores. Por un lado, es interesante indagar porque ciertos clubes producen tantos (y buenos) jugadores en ciertas posiciones, alejándose totalmente de la media — véase Unión Española y su cantidad de defensores centrales generados — pero además, la metodología puede ser susceptible de múltiples mejoras que pueden cambiar en cierta forma las conclusiones realizadas hasta acá. En relación a esto ultimo, vale la pena aclarar que la mayor parte de un trabajo de análisis de datos se debe a la data con la que se cuenta, esto podrá generar variaciones importantes en las formas de desarrollo de un trabajo de estas características.

Nota al cierre: Lamentablemente por temas de confidencialidad no puedo divulgar el dataset utilizado, pero si puedo darles mayores detalles si lo requieren, me pueden hablar a mi twitter personal: @ pabloandrestv. El bonus track que sigue esta nota de cierre solo muestra un filtro que finalmente no se decidió utilizar, pero que da pie a la discusión.

Saludos!

Bonus Track:

En un momento se analizó excluir a los juveniles que aun no debutaban, activando un filtro que establecía que los jugadores debían al menos haber jugado un partido en ese club. Suena muy lógico, pero el problema es que muchas veces ocurre que jugadores previo al debut en su club se van a préstamo a otros de menor categoría para sumar minutos, o en otro caso que su alto nivel los lleva a ser vendidos previos a su debut. Por ejemplo veamos, de acuerdo cuadro final oficial, a los 11 mediapunta que produjo Colo Colo y que siguen activos:

Cada fila muestra el primer registro que tuvo un jugador en la data acorde a Football Manager. La mayoría fueron ingresados cuando aún estaban en categorías inferiores y, por esto, no tienen ningún partido (app). Pero volviendo al tema que convocó este Bonus Track, de haber aplicado el filtro de que debían jugar al menos un partido para ser contabilizados, tendríamos el caso, en donde, Jorge Valdivia hubiese sido sumado en Universidad de Concepción (debut en el profesionalismo, 2003) y no en Colo Colo (2005). O yendo a otro club, tenemos a Albert Acevedo, que debuta profesionalmente en Universidad Católica el 2002, pero hizo todas sus inferiores en Unión Española. En conclusión, y por estos casos descritos anteriormente, nos parece que este filtro no era adecuado haberlo aplicado.

Pueden seguirme en Instagram: @ptv_analytics

Notas al pie de pagina:

(1) Un sitio británico desarrolló un ranking acerca de este tópico usando como parámetro jugadores que saliendo de una cantera (academia) se mantienen en Premier: https://www.fourfourtwo.com/gallery/ranked-10-clubs-most-academy-graduates-playing-premier-league .

(2) La posición para cada jugador está definida como su ultima posición “natural” conocida. Es decir, si un juvenil partió como delantero y se mantuvo así toda su vida, entonces estará en el conteo de esa posición. Por otro lado, si un jugador comenzó como delantero, pero luego se desempeñó históricamente como Medio Derecho, entonces entrará en el conteo de esta ultima posición. La traducción para cada posición es la siguiente:

GK: Arquero, DL: Lateral Izquierdo, DR: Lateral Derecho, DC: Defensor Central, DM: Medio Defensivo, MC: Medio central, AMC: Mediapunta, ML: Medio Izquierdo, MR: Medio Derecho, ST: Delantero

(3) Hemos definido como Élite: Primera y Primera B.

(4) Esto porque la data se empezó a recolectar en Chile alrededor del 2003 y, por tanto, la data es fiable solo desde ese año. Hacia atrás pueden haber casos donde los historiales no están completos y por términos metodológicos — compatibilidad — preferimos reducir ese potencial error.

(5) El sesgo se da naturalmente porque al tener mucha más información de, por ejemplo, la Sub 19 de Universidad de Chile que de Deportes Copiapó, este ultimo equipo tiene menos jugadores en su cantera y, en cambio, el primer equipo se ve beneficiado por su mayor trascendencia en este conteo de jugadores.

(6)

--

--

MSc Finance. Head Researcher of Chilean League in Football Manager. R, Data Analytics, Fútbol, Política y economía son mis áreas de interés.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store
Pablo Tapia V.

MSc Finance. Head Researcher of Chilean League in Football Manager. R, Data Analytics, Fútbol, Política y economía son mis áreas de interés.