Vorhersage-Modell zur Fußball-WM

© Christophe Ley

14 Achtelfinalteilnehmer wurden richtig vorhergesagt.

Fußball weckt den Forschergeist im Menschen. Zumindest wird vor großen Turnieren kritisch hinterfragt, munter analysiert und heftig spekuliert. Dabei spielen Fakten eine wesentliche Rolle – so z.B. wenn es darum geht zu prognostizieren, welche Mannschaft am 15. Juli den Weltmeisterpokal in den Himmel von Moskau stemmen darf. Der Luxemburger Christophe Ley, seit 2015 Professor für mathematische Statistik an der Universität Gent (Belgien), hat hier mit seinen Forscher-Kollegen eine neue Methode entwickelt. Ein Zauberwort lautet maschinelles Lernen, was bedeutet: Ein Computer lernt durch die tausendfache Wiederholung von Analyseprozessen, Muster zu erkennen – und daraus Vorhersagen abzuleiten. 

Bisherige Methoden nutzen Technologie-Potenzial nicht voll aus 

Bisher lieferten vor allem die Buchmacher die Grundlage für sportliche Vorhersagen. Dies lag schon allein deshalb nahe, weil die großen Wettbüros Zugriff auf Informationen wie Wettdaten ihrer Kunden und Leistungsdaten von Fußballspielern und -mannschaften haben. Diese wurden dann von (menschlichen) Analysten ausgewertet. In den vergangenen Jahren wurde diese Herangehensweise systematisch modernisiert, ohne dass jedoch bislang das ganze Potential moderner Technologie ausgeschöpft worden wäre.

Genau an dieser Stelle setzt die Forschergruppe um Christophe Ley an. Um eine möglichst zuverlässige Vorhersage zur Weltmeisterschaft 2018 treffen zu können, wurden zuallererst einmal die bestehenden Methoden maschinellen Lernens mit Blick auf deren Brauchbarkeit analysiert. Hierzu wurde die jeweilige Vorhersage-Genauigkeit seit der WM 2002 untersucht.

Verbindung aus maschinellen Entscheidungsbäumen und Statistik

Heraus kam nach dieser Analyse die Entscheidung für eine gemischte Methode, in deren Mittelpunkt der vor rund 20 Jahren entwickelte „Random Forest“ steht, zunächst angereichert mit einigen Elementen der üblichen Ranking-Ansätze. Letztere bauten u.a. auf Daten zur generellen Leistungsstärke bzw. zur aktuellen Form eines Teams auf, wobei auch dessen jüngste Ergebnisse mit einbezogen wurden.

Beim Random Forest handelt es sich um so genannte Entscheidungsbäume, die von einem Computerprogramm von der Wurzel bis zur Baumkrone fortdauernd durchlaufen werden. Die Entscheidungs-Parameter zu Spielern, Gegnern und Umfeld werden teils maschinell, teils von Menschen definiert, und die WM immer wieder durchgespielt. Da mit jedem Durchlauf ein (maschineller) Lernprozess verbunden ist, wird die Vorhersage immer zuverlässiger.  

Selbst Bevölkerungszahl und Wirtschaftsleistung spielen eine Rolle

Das Novum bei der von Christophe Ley und seinem Team entwickelten Methode sind neben der Integration von Ranking-Daten in den Prozess die weiteren statistischen Zutaten, sprich: die diversifizierten Entscheidungskriterien, die in den Random Forest eingepflanzt werden. Diese betreffen sowohl den Sport als auch die Rahmenbedingungen im engeren wie im weiteren Sinne. So werden neben den individuellen Leistungsdaten der Spieler etwaige Wettbewerbsvorteile wie Heimbonus oder Blockbildung (Spieler aus demselben Verein) im jeweiligen Kader berücksichtigt. Und sogar grundlegende sozio-ökonomische Faktoren wie etwa das Bruttoinlandsprodukt oder die Einwohnerzahl eines Teilnehmerlandes werden in Betracht gezogen.

14 Achtelfinalteilnehmer richtig vorhergesagt, Spanien bleibt Favorit

In der Vorrunde hat die Methode überzeugt; immerhin 14 Achtelfinalteilnehmer (siehe Tabellen) wurden richtig vorhergesagt. Das schlägt sich auch in einem internationalen Vergleich (fifaexperts.com) mit knapp 500 anderen Vorhersagen nieder, wo Christophe Ley's "Tippgemeinschaft" nach der Vorrunde den Spitzenplatz belegt. Stellt sich nun die Frage: Wer wird laut der vielschichtigen Herangehensweise Weltmeister 2018? Die Antwort ist recht deutlich: Zu Beginn des Turniers haben die Forscher aus Gent Spanien die Favoritenrolle verpasst, und das ist auch zum Ende der Vorrunde so geblieben. Allerdings hat sich dahinter einiges bewegt (siehe Infobox), was in der Natur des Random Forest liegt: Der bei dieser Methode besonders schnelle maschinelle Lernprozess macht es nämlich möglich, Spielergebnisse wie auch sonstige Entwicklungen direkt zu verarbeiten – weshalb Christophe Ley und Kollegen auch ständig neue Updates posten.

science.lu Kommentar: Natürlich heißt dies nicht, dass Spanien sicher Weltmeister wird. Bei der Methode wird die WM immer wieder durchgespielt. Im Mittel stellt sich heraus, dass Spanien laut dieser Methode am ehesten Weltmeister wird, nicht jedoch, dass Spanien in jedem Einzelfall Weltmeister wird. Die WM ist jedoch ein Einzelfall, sie wird nur ein mal durchgespielt. Außerdem ist Fußball ein Sport, bei dem in einem einzelnen Spiel der Zufall eine ziemlich große Rolle spielt, im Verhältnis zu anderen Sportarten (z.B. Sportarten in denen viel mehr Punkte pro Spiel erzielt werden, wie z.B. Basketball).

Autor: Sven Hauser
Editor: Michèle Weber (FNR), Jean-Paul Bertemes (FNR)
Visual: Christophe Ley

 

Infobox

Eine dynamische Methode, die von vornherein abwägt

 

Eine Fußball-WM ist ein langes Turnier, bei dem die Karten ständig neu gemischt werden. Hier spielt die von Christophe Ley und seinem Team gewählte Methode ihre Stärke aus. Die Prognose wird nicht nur immer wieder anhand des aktuellen Turnierverlaufs aktualisiert; sie wurde zudem bereits von Anfang an nuanciert erstellt. So wurde z. B. von vornherein darauf hingewiesen, dass Spaniens Favoritenrollen ab dem Achtelfinale etwas weniger deutlich ausfallen würde, falls Deutschland seine vergleichsweise schwere Vorrunde übersteht. Da dies ja nun nicht der Fall ist, bleibt Spanien also vor der KO-Phase Favorit, gefolgt nun von Brasilien und Belgien.

 

Aussi intéréssant

Jeune Scientifique Recherche en mathématiques sur un billiard tridimensionnel

Un jeune scientifique luxembourgeois s’attelle à la résolution d’un problème mathématique bien particulier : à quoi ress...

Géométrie Réalise des expériences avec un ruban de Möbius en papier cadeau

Un ruban de Möbius est une surface bidimensionnelle qui n’a qu’une face et une arête. Fascinant !

FNR
Fluctuations à l’épreuve ! L’art de dévoiler le pertinent dans le chaos du bruit statistique

Dans leur quête du savoir, les chercheurs testent leurs hypothèses afin de tirer des conclusions. Découvrez comment la S...

Aussi dans cette rubrique

Outstanding PhD Thesis FNR Awards 2024: Comment les modèles de réseaux peuvent venir en aide à la psychothérapie

Mila Hall démontre l’outil précieux que peuvent constituer les modèles de réseaux de psychopathologie pour faciliter la pratique psychothérapeutique dans le respect des patients et des praticiens.

FNR
Foni Raphaël Lebrun
Technologie Les ordinateurs quantiques : la fin de l’ère numérique ?

Partout dans le monde, des scientifiques travaillent au développement d’ordinateurs quantiques. Parmi eux, le Luxembourgeois Foni Raphaël Lebrun qui mène ses recherches en Grande-Bretagne.

FNR
Du cyclisme au laboratoire de chimie Pit Losch à la recherche d’alternatives aux combustibles fossiles

Les combustibles fossiles n'étant pas inépuisables, nous devons absolument chercher des alternatives. Selon le chercheur Pit Losch, les zéolithes ont ici un rôle important à jouer.

FNR
Interview avec Félix Urbain Quelle est l’énergie du futur ?

Félix Urbain, spécialiste de la science des matériaux et économiste, docteur et ingénieur, parle de ses tentatives perpétuelles de battre des records, de ce qui le pousse à agir d’un point de vue sc...

FNR