© Christophe Ley
Fußball weckt den Forschergeist im Menschen. Zumindest wird vor großen Turnieren kritisch hinterfragt, munter analysiert und heftig spekuliert. Dabei spielen Fakten eine wesentliche Rolle – so z.B. wenn es darum geht zu prognostizieren, welche Mannschaft am 15. Juli den Weltmeisterpokal in den Himmel von Moskau stemmen darf. Der Luxemburger Christophe Ley, seit 2015 Professor für mathematische Statistik an der Universität Gent (Belgien), hat hier mit seinen Forscher-Kollegen eine neue Methode entwickelt. Ein Zauberwort lautet maschinelles Lernen, was bedeutet: Ein Computer lernt durch die tausendfache Wiederholung von Analyseprozessen, Muster zu erkennen – und daraus Vorhersagen abzuleiten.
Bisherige Methoden nutzen Technologie-Potenzial nicht voll aus
Bisher lieferten vor allem die Buchmacher die Grundlage für sportliche Vorhersagen. Dies lag schon allein deshalb nahe, weil die großen Wettbüros Zugriff auf Informationen wie Wettdaten ihrer Kunden und Leistungsdaten von Fußballspielern und -mannschaften haben. Diese wurden dann von (menschlichen) Analysten ausgewertet. In den vergangenen Jahren wurde diese Herangehensweise systematisch modernisiert, ohne dass jedoch bislang das ganze Potential moderner Technologie ausgeschöpft worden wäre.
Genau an dieser Stelle setzt die Forschergruppe um Christophe Ley an. Um eine möglichst zuverlässige Vorhersage zur Weltmeisterschaft 2018 treffen zu können, wurden zuallererst einmal die bestehenden Methoden maschinellen Lernens mit Blick auf deren Brauchbarkeit analysiert. Hierzu wurde die jeweilige Vorhersage-Genauigkeit seit der WM 2002 untersucht.
Verbindung aus maschinellen Entscheidungsbäumen und Statistik
Heraus kam nach dieser Analyse die Entscheidung für eine gemischte Methode, in deren Mittelpunkt der vor rund 20 Jahren entwickelte „Random Forest“ steht, zunächst angereichert mit einigen Elementen der üblichen Ranking-Ansätze. Letztere bauten u.a. auf Daten zur generellen Leistungsstärke bzw. zur aktuellen Form eines Teams auf, wobei auch dessen jüngste Ergebnisse mit einbezogen wurden.
Beim Random Forest handelt es sich um so genannte Entscheidungsbäume, die von einem Computerprogramm von der Wurzel bis zur Baumkrone fortdauernd durchlaufen werden. Die Entscheidungs-Parameter zu Spielern, Gegnern und Umfeld werden teils maschinell, teils von Menschen definiert, und die WM immer wieder durchgespielt. Da mit jedem Durchlauf ein (maschineller) Lernprozess verbunden ist, wird die Vorhersage immer zuverlässiger.
Selbst Bevölkerungszahl und Wirtschaftsleistung spielen eine Rolle
Das Novum bei der von Christophe Ley und seinem Team entwickelten Methode sind neben der Integration von Ranking-Daten in den Prozess die weiteren statistischen Zutaten, sprich: die diversifizierten Entscheidungskriterien, die in den Random Forest eingepflanzt werden. Diese betreffen sowohl den Sport als auch die Rahmenbedingungen im engeren wie im weiteren Sinne. So werden neben den individuellen Leistungsdaten der Spieler etwaige Wettbewerbsvorteile wie Heimbonus oder Blockbildung (Spieler aus demselben Verein) im jeweiligen Kader berücksichtigt. Und sogar grundlegende sozio-ökonomische Faktoren wie etwa das Bruttoinlandsprodukt oder die Einwohnerzahl eines Teilnehmerlandes werden in Betracht gezogen.
14 Achtelfinalteilnehmer richtig vorhergesagt, Spanien bleibt Favorit
In der Vorrunde hat die Methode überzeugt; immerhin 14 Achtelfinalteilnehmer (siehe Tabellen) wurden richtig vorhergesagt. Das schlägt sich auch in einem internationalen Vergleich (fifaexperts.com) mit knapp 500 anderen Vorhersagen nieder, wo Christophe Ley's "Tippgemeinschaft" nach der Vorrunde den Spitzenplatz belegt. Stellt sich nun die Frage: Wer wird laut der vielschichtigen Herangehensweise Weltmeister 2018? Die Antwort ist recht deutlich: Zu Beginn des Turniers haben die Forscher aus Gent Spanien die Favoritenrolle verpasst, und das ist auch zum Ende der Vorrunde so geblieben. Allerdings hat sich dahinter einiges bewegt (siehe Infobox), was in der Natur des Random Forest liegt: Der bei dieser Methode besonders schnelle maschinelle Lernprozess macht es nämlich möglich, Spielergebnisse wie auch sonstige Entwicklungen direkt zu verarbeiten – weshalb Christophe Ley und Kollegen auch ständig neue Updates posten.
science.lu Kommentar: Natürlich heißt dies nicht, dass Spanien sicher Weltmeister wird. Bei der Methode wird die WM immer wieder durchgespielt. Im Mittel stellt sich heraus, dass Spanien laut dieser Methode am ehesten Weltmeister wird, nicht jedoch, dass Spanien in jedem Einzelfall Weltmeister wird. Die WM ist jedoch ein Einzelfall, sie wird nur ein mal durchgespielt. Außerdem ist Fußball ein Sport, bei dem in einem einzelnen Spiel der Zufall eine ziemlich große Rolle spielt, im Verhältnis zu anderen Sportarten (z.B. Sportarten in denen viel mehr Punkte pro Spiel erzielt werden, wie z.B. Basketball).
Autor: Sven Hauser
Editor: Michèle Weber (FNR), Jean-Paul Bertemes (FNR)
Visual: Christophe Ley
Infobox
Eine Fußball-WM ist ein langes Turnier, bei dem die Karten ständig neu gemischt werden. Hier spielt die von Christophe Ley und seinem Team gewählte Methode ihre Stärke aus. Die Prognose wird nicht nur immer wieder anhand des aktuellen Turnierverlaufs aktualisiert; sie wurde zudem bereits von Anfang an nuanciert erstellt. So wurde z. B. von vornherein darauf hingewiesen, dass Spaniens Favoritenrollen ab dem Achtelfinale etwas weniger deutlich ausfallen würde, falls Deutschland seine vergleichsweise schwere Vorrunde übersteht. Da dies ja nun nicht der Fall ist, bleibt Spanien also vor der KO-Phase Favorit, gefolgt nun von Brasilien und Belgien.