AdobeStock

Mit Hilfe von KI versuchen Forscher immer bessere Modelle zu erstellen, um Fussballvorhersagen zu machen. Die dabei entwickelte KI können sie dann in anderen Bereichen einsetzen.

Autor: Jean-Paul Bertemes (FNR)
Lektorat: Michèle Weber (FNR)


Auf der Arbeit, unter Freunden: gerade zirkulieren viele Einladungen für Tippspiele, wo es darum geht die einzelnen Spiele der Europameisterschaft zu tippen oder aber eben auch wer Europameister wird. Da kommt diese Nachricht doch gerade zur richtigen Zeit:

Fußball-Europameister der Herren 2024 wird am wahrscheinlichsten Frankreich, mit ca. 19 % Wahrscheinlichkeit, laut einem KI-Modell von Forschenden der Universität Luxemburg und anderen Universitäten. An zweiter Stelle: England mit ca. 16%, gefolgt von Deutschland mit ca. 14%. Danach folgen Spanien und Portugal. Außenseiterchancen dürften noch die Niederlande, Italien und Belgien haben, alles andere wäre eine Sensation.

Infobox

Was heißt “mit 19% Wahrscheinlichkeit“?

Die Forscher simulieren die Spiele laut Spielbogen durch die KI mehrere tausend Male. Danach zählen sie wie oft ein jeweiliges Land dabei Europameister wurde. In 19% der Fälle lautete dabei das Ergebnis: Frankreich wird Europameister. In anderen Worten: in 81% der Fälle wurde eine andere Nation Europameister. „Fußball ist eine Sportart in der der Zufall eine große Rolle spielt“, sagt Statistikprofessor Christophe Ley.

Doch wie kommt es zu diesen Ergebnissen? Dies ist ein anschauliches Beispiel dafür, wie man eine KI mit Statistiken und vielen Daten füttern und trainieren kann, damit sie immer besser wird. Wir haben mit dem Luxemburger Forscher Christophe Ley gesprochen, Statistik-Professor an der Uni Luxemburg und spezialisiert im Bereich Sportstatistik.

Infobox

Über Prof. Christophe Ley von der Universität Luxemburg

Christophe Ley ist Associate Professor für Angewandte Statistik am Fachbereich Mathematik der Universität Luxemburg. Er ist außerdem Präsident der „European Association for Advanced Statistics Courses“ und der „Luxembourg Statistical Society“ sowie Initiator des internationalen Netzwerks „Sports – Training and Research in Data Science Methods for Analytics and Injury Prevention Group“. Er ist Träger des Marie-Jeanne Laurent-Duhamel-Preises der Société Française de Statistique und des internationalen Bernoulli-Preises, sowie Associate Editor einiger Fach-Zeitschriften wie Annals of the Institute of Statistical Mathematics oder Statistique et Société.

Christophe Ley, seit wann machst Du bereits diese Meisterschaftsprognosen?

Angefangen habe ich mit einigen Forscherkollegen für die WM der Männer 2018. Für die WM der Frauen 2019 lag unser Modell dann richtig, mit USA als Champion. Seither machen wir das eigentlich für jede Welt- und Europameisterschaft, vor allem im Männerfußball.

Ist diese Arbeit auch wichtig für eure Forschung, oder geht es eher um den Spaß an der Sache?

Diese Arbeit ist sehr wichtig für unsere Forschung, da Fußballvorhersagen sehr schwierig sind. Die hierfür entwickelte KI können wir dann in anderen, relevanteren Gebieten anwenden. Ob wir eine EM richtig vorhersagen oder nicht, spielt keine große Rolle, aber Fehler in der Analyse von Krankheiten zu machen sehr wohl, daher ist es sehr praktisch, unsere Methoden an solch einem “harmlosen” Problem ausprobieren zu können.

Und, wie gut ist euer Modell?

Im Fußball ist die Wahrscheinlichkeit ein Spielergebnis richtig zu tippen ja an sich 33%. Entweder es siegt Mannschaft A oder B oder es gibt ein Unentschieden. Also 3 Möglichkeiten. Mit unserem Modell schaffen wir ca. 64% Wahrscheinlichkeit, dass wir richtig liegen. Das ist also signifikant höher. Wir arbeiten daran, unser Modell ständig zu verbessern. Wir werden aber niemals die 100% erreichen und werden auch nicht so gute Resultate erzielen wie beispielsweise im Handball.

Warum nicht?

Fußball ist ein Sport, in dem der Zufall eine große Rolle spielt. Im Fußball gibt es oftmals nur ein paar wenige Torchancen im Spiel. Ob der Ball jetzt ein paar Zentimeter nach links und rein geht, oder ein paar Zentimeter nach rechts und an den Pfosten geht, kann da durchaus spielentscheidend sein.

Das ist anders in anderen Sportarten, wo mehr Tore fallen. Im Handball z. B. kommen solche Szenen viel öfters vor und diese Zentimeterentscheidungen sind weniger spielentscheidend.

In solchen Sportarten spielt der Zufall eine weniger große Bedeutung und die Resultate können besser vorhergesehen werden. Dort können wir mit unseren Modellen auch bis zu 80% Wahrscheinlichkeit erlangen. Mein Doktorant Florian Felice arbeitet an Handball-Modellen.

Was denkst Du denn, wie viel besser euer Modell für Fußball noch werden könnte?

Das ist schwierig zu sagen wie viele Prozent wir erreichen können. Die Wahrscheinlichkeit, richtig zu liegen erhöht sich, wenn es eine starke Diskrepanz in der Stärke der Teams gibt. Wenn ein paar sehr gute Teams gegen ein paar sehr schlechte spielen, erhöht dies die Wahrscheinlichkeit richtig zu tippen.Aber im Fußball wird es schwer sein, über 70% Wahrscheinlichkeit zu kommen.

Wie habt ihr ermittelt, wer Fußball-Europameister wird?

Wir haben verschiedene KI-Systeme mit Daten (mehr Infos weiter unten, Anm. der Redaktion) und statistischen Modellen gefüttert. Und dann haben wir laut Spielplan alle Spiele durchgespielt, bis wir einen Europameister haben. Und dann haben wir das immer wieder wiederholt, ein paar tausende Male. Und dann danach festgehalten in wie vielen Prozent der Fälle dabei Frankreich, England, Deutschland etc. Europameister wurden.

D.h. wenn man das oft genug durchspielt, wird auch eine Mannschaft wie Georgien mal Europameister?

Ja, das erinnert an die Griechen bei der EM 2004. Das war eine Sensation, mit der kaum einer gerechnet hatte. Aber es kann immer mal vorkommen, auch wenn es sehr unwahrscheinlich ist. Auch im Jahr 2021 hatten wir Italien nicht unter die Top 3 gesetzt. Aber sie wurden Europameister. 2022 hingegen hatten sowohl wir als auch quasi alle Wettanbieter Frankreich und Argentinien als hohe Favoriten eingestuft. Und beide haben es ja ins Finale geschafft. Im Endeffekt simulieren wir viele tausend verschiedene Turniere und nennen Wahrscheinlichkeiten. Die Realität ist danach ein einziges Szenario. Dieses kann eins der  Wahrscheinlichen oder aber manchmal auch eins der Unwahrscheinlichen sein.

Mit solchen Methoden lässt sich Geld verdienen. Nutzen Wettanbieter ähnliche Methoden wie ihr?

Wettanbieter kommen häufig zu Sportstatistik-Veranstaltungen. Aber im Gegensatz zu uns legen sie ihre Modelle natürlich nicht offen. Ihnen stehen auch viel mehr Daten zu den Mannschaften zur Verfügung als uns. Sie wollen damit Geld verdienen und müssen ihr Geschäftsmodell geheim halten. Auf jeden Fall berechnen sie die Wetteinsätze so, dass sie insgesamt im Durchschnitt dabei Geld verdienen. Auch wenn einzelne Spieler Geld gewinnen, verliert die Mehrheit Geld.

Ein fiktives Beispiel zur Illustration: Ich setze bei 3 Spielen jeweils 10 EUR. In zwei Spielen setze ich korrekt auf den Favoriten und erhalte jeweils 3 EUR Gewinn, kriege also zweimal 13 EUR zurück. Beim dritten Spiel tippe ich falsch. Ich verliere 10 EUR. Insgesamt habe ich 30 EUR investiert und dabei 26 zurückgekriegt, also 4 EUR verloren, obwohl ich zwei Spiele richtig und eins falsch getippt habe. Aber es ist ja klar, dass das so funktioniert. Die Wettanbieter wollen ja Geld verdienen.

Die Einwohnerzahl eines Landes spielt anscheinend keine wichtige Rolle. Hingegen das BIP eines Landes schon. 

Christophe Ley

Wie genau funktioniert denn euer Modell? Wie trainiert ihr eure KI und welche nutzt ihr?

Wir nutzen KI-Modelle, die frei verfügbar sind. Z.B. das Programm Random Forest. Dann aber auch noch weitere sogenannte avancierten Regressionsmodelle, wie z.B. Lasso. Wir schaffen also ein KI-System bestehend aus mehreren KI-Modellen, einen sogenannten Ensemble Learner, den wir mit Daten füttern. Danach lassen wir die Modelle durchlaufen. Wir haben das für die letzten Europa- und Fußballmeisterschaften getan. Und dann können wir die erzielten Ergebnisse mit den reellen Ergebnissen vergleichen. Wir sehen dann, welche KI-Modelle bessere Ergebnisse liefern als andere und gewichten diese dann entsprechend. Und lassen das erneut laufen. Immer wieder adaptieren wir neu und lassen wieder durchlaufen. Die Ergebnisse werden immer besser. Bis an einen Punkt, wo wir das Maximum erreicht haben. Wir haben nun ein KI-System, in dem die Gewichtung der einzelnen KI-Modelle optimal eingestellt ist. Dieses System wenden wir dann nun eben an die Europameisterschaft 2024 an.

Was sind denn die Daten, mit denen ihr die KI füttert?

Wichtige Faktoren sind z.B. das Team, der Trainer und ein paar Gegebenheiten des Landes.

Zur Stärke des Teams berücksichtigen wir z.B. das FIFA-Ranking des Landes, die Marktwerte der Spieler, wie viele Spieler in den Halbfinals der Champions League und Europa League vertreten waren oder wie viele Spieler zusammen in einem gemeinsamen Club spielen und also gut eingespielt sind…

Beim Trainer berücksichtigen wir z.B. wie lange er bereits im Amt ist, ob er dieselbe Nationalität hat als die Nationalmannschaft, sein Alter…

Und beim Land berücksichtigen wir Faktoren wie z.B. das BIP oder bei Weltmeisterschaften, ob das Land vom selben Kontinent stammt als das Gastgeberland…

Neben einfachen Daten verwenden wir aber auch komplexere statistische Modelle. So hat z.B. ein Forscher unserer Gruppe ein statistisches Modell zur Ermittlung der Stärke der einzelnen Spieler erstellt, indem er festhält,  wie viel ein jeweiliger Spieler in seinen jeweiligen Mannschaften zum Erfolg dieser Mannschaften beigetragen hat. Oder ein Modell, wo wir die Stärke einer Nation ermitteln, aufgrund der Ergebnisse der letzten 8 Jahre dieses Teams.

Anm. der Redaktion: Mehr Details dazu welche Faktoren genau benutzt wurden findest Du in diesem Blog-Post: https://lnkd.in/eTRQdVnj

Welche Faktoren spielen denn eine besonders große Rolle?

Wir hatten 2018 noch als Faktor mit einbezogen, wie viele Einwohner ein Land hat. Die Annahme: Je mehr Einwohner, desto größer die Wahrscheinlichkeit, dass eine Nation 11 gute Fußballspieler hervorbringt. Wir haben aber festgestellt, dass die Einwohnerzahl eines Landes anscheinend keine wichtige Rolle spielt. Beispiele dafür sind Belgien oder die Niederlande. Die haben nicht sonderlich viele Einwohner, spielen aber guten Fußball. Auch Island hat viel bessere Ergebnisse erzielt als die Größe des Landes es hätte vermuten lassen können. Das BIP scheint jedoch einen Effekt zu haben. Was ja auch einer gewissen Logik entspricht: Je reicher ein Land, desto bessere Infrastrukturen und desto mehr Förderung von Fußballern kann es sich erlauben.

Einen besonders großen Einfluss haben Faktoren wie die oben erwähnten statistischen Modelle, die Marktwerte der Spieler, oder das FIFA-Ranking der Länder.

Wie habt ihr das ermittelt?

Wir haben im Nachhinein nochmal die vergangenen Turniere durchgespielt und dabei einzelne Faktoren weggelassen. Oder neue hinzugefügt. Und dann überprüft, ob das Resultat besser oder schlechter wird. Und dementsprechend haben wir dann Faktoren entweder ganz rausgenommen, oder aber diese entsprechend gewichtet, so dass die Wahrscheinlichkeit für möglichst korrekte Ergebnisse am höchsten ist.

Das ist ja ein gutes Beispiel dafür, wie man lernt welche Daten für eine KI relevant sind und auch dafür, wie man eine KI nach und nach trainieren kann, bis sie immer bessere Resultate liefert.

Ja, genau. Der ganze Prozess ist super spannend.

Benutzt ihr keine neuronalen Netzwerke für eure Prognosen?

Nein, leider noch nicht. Aber vielleicht in Zukunft.

Euer Ergebnis ist sehr nah an dem, was die großen Wettanbieter prognostizieren.

Ja, das ist entweder ein gutes Zeichen für unsere KI, oder es bedeutet dass die Verhältnisse ziemlich klar sind dieses Jahr. Oder beides.  

Denkst Du auch, dass Frankreich Europameister wird?

Hmm, ich weiß nicht. Das ist jetzt gar nicht wissenschaftlich was ich jetzt sage, aber Frankreich ist nicht mein persönlicher Favorit. Ich schätze England als das stärkste Team ein, welches meiner Meinung nach jedoch wieder nicht gewinnen wird, wegen ihrer Historie des Nicht-Gewinnens seit 1966 und dem Trainer. Ich drücke Deutschland die Daumen!

Auch in dieser Rubrik

Nobelpreis der Physik 2024 Was ist Machine Learning und welchen Einfluss hat es auf unsere Gesellschaft?

Was genau versteht man unter Machine Learning und neuronalen Netzwerken? Und welche Risiken birgt solch eine Technologie? Zwei Wissenschaftler aus Luxemburg beantworten unsere Fragen.

Artifizielle Intelligenz
Die Entwickler der Zukunft Wer wird die Software der Zukunft programmieren?

Angesichts der steigenden Nachfrage nach Software gibt es nicht genügend Entwickler um diese zu programmieren. Der Forscher Jordi Cabot erklärt, wer diese Lücke in Zukunft füllen könnte.

Fußball und Wissenschaft BVB: Wird ein luxemburgischer Forscher Borussia Dortmund in Zukunft helfen?

Am 1. Juni spielt Borussia Dortmund gegen Real Madrid im Champions League Finale. In Zukunft könnte der BVB auf die Dienste von Christophe Ley und dem MIDAS-Team der Uni Luxemburg, zurückgreifen

Cybersecurity Cyberangriff auf Luxemburg: Fragen an Experten

Prof. Marcus Völp der Universität Luxemburg über die Cyberangriffe der vergangenen Woche und der Zukunft.