AdobeStock
Auteur: Jean-Paul Bertemes (FNR)
Édition: Michèle Weber (FNR)
Que ce soit au travail ou entre amis, les invitations à des jeux de pronostics circulent en grand nombre en ce moment. L'objectif est de prédire le score des différents matchs du Championnat d’Europe de football ou le prochain champion d’Europe. La nouvelle suivante tombe donc à point nommé :
la France apparaît comme le meilleur candidat pour remporter le Championnat d’Europe de football masculin en 2024, avec une probabilité d'environ 19 %, selon un modèle d'IA développé par des chercheurs de l'Université du Luxembourg et d'autres universités. En deuxième position, on retrouve l'Angleterre (environ 16 %), suivie de l'Allemagne (environ 14 %). Viennent ensuite l'Espagne et le Portugal. Les Pays-Bas, l'Italie et la Belgique auraient encore des chances en tant qu'outsiders, alors que toute autre issue relèverait de la surprise.
Infobox
Les chercheurs simulent plusieurs milliers de fois les matchs du calendrier des rencontres à l'aide de l'IA. Ensuite, ils comptent le nombre de fois où les différents pays ont été champion d'Europe. Dans 19 % des cas, le résultat était : « la France sera championne d'Europe ». En d'autres termes, dans 81 % des cas, une autre nation a remporté l’Euro 2024. « En football, le hasard joue un rôle non négligeable », explique le professeur de statistiques mathématiques Christophe Ley.
Figure 1: Distribution des probabilités de devenir champion d'Europe selon les prévisions du modèle d'IA des chercheurs.
Mais comment arrive-t-on à ces résultats ? C'est un bon exemple de la façon dont on peut alimenter et entraîner une IA avec des statistiques et un grand volume de données pour qu'elle devienne de plus en plus performante. Nous nous sommes entretenus avec le chercheur luxembourgeois Christophe Ley, qui est professeur de statistiques à l'Université du Luxembourg et qui s’est spécialisé dans le domaine des statistiques sportives.
Infobox
Christophe Ley est professeur associé de statistique appliquée au département de mathématiques de l'Université du Luxembourg. Il est également président de la « European Association for Advanced Statistics Courses » et de la « Luxembourg Statistical Society », et fondateur du réseau international « Sports – Training and Research in Data Science Methods for Analytics and Injury Prevention Group ». Il est lauréat du prix Marie-Jeanne Laurent-Duhamel de la Société Française de Statistique et du prix international Bernoulli, ainsi que rédacteur adjoint de plusieurs revues spécialisées, dont « Annals of the Institute of Statistical Mathematics » et « Statistique et Société ».
Christophe, depuis quand fais-tu déjà ces pronostics sur les championnats ?
J'ai commencé avec quelques confrères chercheurs lors de la Coupe du monde masculine de 2018. Pour la Coupe du monde féminine de 2019, notre modèle a correctement prévu la victoire des États-Unis. Depuis, nous répétons l’exercice pour chaque Coupe du monde et chaque Championnat d'Europe, surtout pour le football masculin.
Ce travail est-il aussi important pour vos recherches ou le faites-vous plutôt pour le côté amusant ?
Ce travail est très important pour nos recherches, car prédire les résultats de football est une tâche très ardue. Nous pouvons appliquer l'IA développée à cet effet à d'autres domaines plus pertinents. La pertinence de nos prédictions concernant le Championnat d’Europe n’a pas beaucoup d’importance, mais commettre des erreurs dans l'analyse de maladies a des conséquences graves. Il est donc très pratique de pouvoir tester nos méthodes sur un problème aussi « anodin ».
Alors, quel est le degré de fiabilité de votre modèle ?
En football, la probabilité de prédire correctement un résultat de match est de 33 %. Soit l'équipe A gagne, soit l'équipe B gagne, soit elles font match nul. Il y a donc trois possibilités. Avec notre modèle, nous avons environ 64 % de chances de faire une prédiction correcte. C’est un résultat nettement meilleur. Nous nous efforçons d’améliorer notre modèle en permanence. Mais nous n'atteindrons jamais les 100 % et nous n'obtiendrons pas d'aussi bons résultats qu'au handball par exemple.
Pourquoi pas ?
Le football est une discipline sportive où le hasard joue un rôle considérable. En football, il n'y a souvent que quelques occasions de marquer par match. La question de savoir si le ballon se dirige quelques centimètres vers la gauche et franchit la ligne de but ou s’il se dirige quelques centimètres vers la droite et touche le poteau peut être décisive pour le match.
Ce n’est pas le cas dans d'autres sports, où les joueurs marquent plus de buts. Au handball, par exemple, de tels scénarios se produisent beaucoup plus souvent et ces décisions à quelques centimètres près sont moins décisives pour l’issue du match.
Dans ces disciplines sportives, le hasard joue un rôle moins important et les résultats peuvent être prédits plus facilement. Là, nous avons jusqu’à 80 % de chances de faire une prédiction correcte. Mon doctorant Florian Felice travaille sur des modèles pour le handball.
Selon toi, dans quelle mesure est-il possible de parfaire votre modèle pour le football ?
Il est difficile de déterminer quel pourcentage nous pouvons atteindre. La probabilité de faire une prédiction correcte augmente quand il y a un écart important dans la force des équipes. Quand quelques équipes de très bon niveau jouent contre quelques équipes très faibles, cela augmente les chances de faire un bon pronostic. Mais pour le football, il sera difficile d'atteindre plus de 70 % de chances.
Comment avez-vous déterminé le vainqueur de l'Euro 2024 ?
Nous avons alimenté différents systèmes d'IA avec des données (vous trouverez plus d'informations à ce sujet ci-dessous, NDLR) et des modèles statistiques. Ensuite, nous avons simulé tous les matchs selon le calendrier des rencontres jusqu'à obtenir un champion d'Europe. Puis, nous avons répété l’opération quelques milliers de fois. Pour finir, nous avons déterminé dans quel pourcentage des cas la France, l'Angleterre, l'Allemagne, etc., sont devenues championnes d'Europe.
Donc, si on répète le processus suffisamment souvent, même une équipe comme la Géorgie peut finir par être championne d'Europe ?
Oui, cela rappelle les Grecs lors de l'EURO 2004. C'était une surprise à laquelle pratiquement personne ne s'attendait. Mais un tel scénario peut toujours arriver, même si c'est très improbable. En 2021, nous n'avions pas non plus placé l'Italie dans le top 3. Mais elle est devenue championne d'Europe. En 2022, en revanche, à l'instar de la quasi-totalité des bookmakers, nous avions classé la France et l'Argentine parmi les grands favoris. Et toutes les deux se sont retrouvées en finale. En d’autres termes, nous simulons plusieurs milliers de tournois différents et dégageons des probabilités. La réalité se résume ensuite à un seul scénario. Il peut s’agir de l'un des plus probables ou, dans certains cas, de l'un des plus improbables.
Ces méthodes permettent de gagner de l’argent. Les bookmakers utilisent-ils des méthodes similaires aux vôtres ?
Les bookmakers assistent souvent à des événements en rapport avec les statistiques sportives. Mais contrairement à nous, ils ne dévoilent évidemment pas leurs modèles. Ils disposent aussi d’un volume bien plus important de données concernant les équipes que nous. Leur objectif étant de se faire de l'argent, ils ne peuvent pas divulguer leur modèle économique. Mais dans tous les cas, ils calculent les mises des paris de façon à gagner de l'argent dans l’ensemble. Même s’il arrive que des joueurs gagnent de l'argent, la majorité en perd.
Voici un exemple fictif pour illustrer le propos : pour trois matchs, je parie chaque fois 10 EUR. Pour deux matchs, je mise correctement sur le favori et je gagne chaque fois 3 EUR, je récupère donc deux fois 13 EUR. Pour le troisième match, je me trompe de pronostic et je perds 10 EUR. Au total, j'ai investi 30 EUR et j'en ai récupéré 26, j'ai donc perdu 4 EUR, même si j’ai fait le bon pronostic pour deux matchs et que je me suis trompé pour un. Mais c'est le principe selon lequel les bookmakers opèrent. Après tout, ils souhaitent se faire de l'argent.
Le nombre d'habitants d'un pays ne semble pas jouer de rôle important. Mais le PIB d'un pays, si.
Christophe Ley
Comment votre modèle fonctionne-t-il au juste ? Comment entraînez-vous votre IA et laquelle utilisez-vous ?
Nous utilisons des modèles d'IA librement disponibles, par exemple, le programme Random Forest. Mais nous nous servons aussi d'autres modèles de régression avancés, tels que Lasso. Nous créons donc un système d'IA composé de plusieurs modèles d'IA, appelé « Ensemble Learner », que nous alimentons avec des données. Ensuite, nous exécutons les modèles. Nous l'avons fait pour les dernières Coupes du monde et les derniers Championnats d'Europe de football. Puis, nous comparons les résultats obtenus avec les résultats réels. Nous observons quels modèles d'IA fournissent les meilleurs résultats et nous les pondérons en conséquence. Ensuite, nous relançons le processus. Nous adaptons continuellement nos modèles et les exécutons à nouveau. Les résultats s'améliorent en permanence, jusqu'à un point où nous avons atteint le maximum. Nous disposons à présent d’un système d'IA dans lequel la pondération de chaque modèle est parfaitement adaptée. Pour finir, nous appliquons ce système à l'Euro 2024.
Avec quelles données nourrissez-vous l'IA ?
Parmi les facteurs importants figurent par exemple l'équipe, l'entraîneur et quelques spécificités du pays.
Pour évaluer la force de l'équipe, nous tenons compte, par exemple, du classement FIFA du pays, de la valeur marchande des joueurs, du nombre de joueurs ayant participé aux demi-finales de la Ligue des champions et de la Ligue Europa ou du nombre de joueurs qui jouent dans le même club et qui sont donc bien rodés.
En ce qui concerne l'entraîneur, nous prenons en considération, par exemple, depuis combien de temps il est en poste, s’il est de la même nationalité que l'équipe nationale, son âge, etc.
Concernant le pays, nous évaluons des facteurs tels que le PIB ou, dans le cas de la Coupe du monde, nous vérifions si le pays est originaire du même continent que le pays hôte, etc.
Outre des données simples, nous utilisons aussi des modèles statistiques plus complexes. Par exemple, un chercheur de notre groupe a créé un modèle statistique pour déterminer la force des différents joueurs, en évaluant dans quelle mesure chaque joueur dans ses équipes respectives a contribué au succès des équipes en question. Ou un modèle où nous déterminons la force d'une nation sur la base des résultats de cette équipe au cours des huit dernières années.
Anm. der Redaktion: Mehr Details dazu welche Faktoren genau benutzt wurden findest Du in diesem Blog-Post: https://lnkd.in/eTRQdVnj
Quels facteurs jouent un rôle particulièrement important ?
En 2018, nous avions aussi inclus comme facteur le nombre d'habitants d'un pays. L'hypothèse était la suivante : plus le nombre d'habitants est élevé, plus la probabilité qu'une nation produise 11 bons joueurs de football est grande. Nous avons toutefois constaté que le nombre d'habitants d'un pays ne semble pas être un facteur déterminant. La Belgique ou les Pays-Bas en sont de bons exemples. Ces pays ne comptent pas beaucoup d'habitants, mais ils sont doués au football. L'Islande a aussi obtenu des résultats bien meilleurs que ce que la taille du pays aurait pu laisser supposer. Le PIB semble en revanche jouer un rôle. Ce qui est logique en soi : plus un pays est riche, meilleures sont ses infrastructures et plus il peut se permettre de promouvoir le football.
Des facteurs tels que les modèles statistiques mentionnés ci-dessus, la valeur marchande des joueurs ou le classement FIFA des pays ont une influence particulièrement importante.
Comment l'avez-vous déterminé ?
Après coup, nous avons repassé en revue les tournois précédents en omettant certains facteurs. Ou en en ajoutant de nouveaux. Ensuite, nous avons vérifié si les résultats s'améliorent ou non. Nous avons donc soit exclu certains facteurs, soit ajusté leur pondération pour optimiser la précision des résultats.
Cette démarche montre comment on apprend à identifier les données pertinentes pour une IA et comment on peut entraîner progressivement une IA pour en améliorer les résultats.
Tout à fait. C’est un processus très intéressant.
Vous n'utilisez pas de réseaux neuronaux pour vos pronostics ?
Non, malheureusement pas encore. Mais nous le ferons peut-être à l'avenir.
Vos résultats sont très proches des prévisions des grands bookmakers.
En effet. C'est soit un bon signe pour notre IA ou alors cela indique que les dynamiques sont assez évidentes cette année. Ou les deux.
Penses-tu aussi que la France sera championne d’Europe ?
Hmm, je ne sais pas. Ce que je vais dire n'est pas très scientifique, mais la France n'est pas mon favori. J’estime que l'équipe d’Angleterre est la plus forte, mais je pense qu’une fois de plus, elle ne remportera pas le championnat, à cause de sa longue histoire de défaites depuis 1966 et de son entraîneur. Je croise les doigts pour l'Allemagne !