Head-to-Head

Feature #10

Historische Direktvergleichs-Features — PPG, Tordifferenz, Siegquote, BTTS- und Over-2.5-Raten aus vergangenen Begegnungen derselben Teams. H2H-Features liefern ein einzigartiges paarweises Signal, das team-level Features nicht erfassen koennen.

Ueberblick

Head-to-Head-Features quantifizieren die historische Rivalitaet zwischen zwei spezifischen Teams. Sie erfassen taktische Matchups und stilistische Vorteile, die aus allgemeinen Team-Statistiken nicht ableitbar sind.

#FeatureBeschreibungRelevant fuer
32H2H PPGPunkte pro Spiel in direkten Duellen (Home/Away/Diff)1X2
33H2H Goal DiffTordifferenz und Avg Goals in direkten Duellen1X2, O/U
34H2H Win RateBTTS-Rate und Over-2.5-Rate in direkten DuellenBTTS, O/U

Tier-3-Features: Ergaenzend, nicht kern. In der Feature-Importance-Hierarchie liegen H2H-Features hinter Elo, Implied Probability, xG und Form. Sie liefern ~2-5% marginale Accuracy-Verbesserung bei Hinzufuegung zu starken Basis-Features.

Praediktive Kraft — Was sagt die Forschung?

H2H-Features werden in der oeffentlichen Wahrnehmung oft ueberschaetzt, in akademischen ML-Modellen aber teils unterschaetzt. Die Wahrheit liegt dazwischen.

StudieH2H verwendet?Ergebnis
Soccer Prediction Challenge 2017NeinGewinner: 6 Features (pi-ratings, xG, PPG) — 0.2063 RPS, 52.43% Accuracy
FiveThirtyEight SPINeinBasiert auf Off/Def Ratings, xG, Heimvorteil — kein H2H
205-Feature-Evaluation (arXiv)Nein (im Optimum)Optimales Set: 6 Features, keine H2H-spezifischen
Soccerwidow True OddsJaMinimum 6 H2H in 10 Jahren fuer belastbare Berechnung

Warum wir H2H trotzdem implementieren

  • Einzigartiges paarweises Signal: Taktische Matchups und stilistische Vorteile, die aus Team-Statistiken nicht ableitbar sind
  • Komplementaere Information: Niedrige Korrelation mit bestehenden Features (r ~ 0.2-0.5)
  • Gradient Boosted Trees: Koennen lernen, H2H automatisch zu ignorieren, wenn has_h2h = 0
  • Vollstaendigkeit: Komplettiert Sprint 3 der Feature-Pipeline

Berechnung

Parameter

ParameterWert
Maximaler Lookback5 Jahre
Max. Begegnungen10
Minimum fuer has_h2h3 Begegnungen
Time-WeightingNicht in Phase 1 (spaeter evaluieren)
Venue-spezifischNein — alle Begegnungen unabhaengig von Heim/Auswaerts

H2H PPG und Tordifferenz

h2h_home_ppg = sum(Punkte Heimteam in H2H) / N
h2h_away_ppg = sum(Punkte Auswaertsteam in H2H) / N
h2h_ppg_diff = h2h_home_ppg - h2h_away_ppg

h2h_home_goals_avg = sum(Tore Heimteam in H2H) / N
h2h_away_goals_avg = sum(Tore Auswaertsteam in H2H) / N
h2h_goal_diff = (Heimtore - Auswaertstote) / N
h2h_goals_per_game = Gesamttore / N

Punkte: Sieg=3, Remis=1, Niederlage=0
Berechnet aus Sicht jedes Teams ueber ALLE Begegnungen
(unabhaengig davon, wer Heim/Auswaerts war)

BTTS- und Over-2.5-Rate

h2h_btts_rate = count(Spiele mit Goals_A > 0 AND Goals_B > 0) / N
h2h_over25_rate = count(Spiele mit Gesamttore >= 3) / N

Match-Level Features

h2h_home_ppg           — PPG des Heimteams in H2H
h2h_away_ppg           — PPG des Auswaertsteams in H2H
h2h_ppg_diff           — PPG-Differenz (Home - Away)
h2h_home_goals_avg     — Avg Tore Heimteam in H2H
h2h_away_goals_avg     — Avg Tore Auswaertsteam in H2H
h2h_goal_diff          — Avg Tordifferenz
h2h_goals_per_game     — Avg Gesamttore pro Spiel
h2h_btts_rate          — BTTS-Rate in H2H
h2h_over25_rate        — Over-2.5-Rate in H2H
h2h_matches_played     — Anzahl H2H-Begegnungen
has_h2h                — 1/0 Sentinel (1 wenn >= 3 Spiele)

Gesamt: 11 Match-Level Features

Fallstricke und Einschraenkungen

ProblemDetailsMitigation
Kaderfluktuation20-30% Kaderwechsel/Saison; nach 3 Jahren ~50% anderer Kader5-Jahres-Lookback-Limit; spaeter Time-Weighting
Kleine Stichprobe~2 Spiele/Saison; nach 2 Saisons nur 4 BegegnungenMin. 3 fuer has_h2h; h2h_matches_played als Zuverlaessigkeits-Signal
Heim/Auswaerts-AsymmetrieDominanz zuhause, Niederlagen auswaerts — Durchschnitt mischt KontexteOverall H2H (nicht venue-spezifisch, zu wenig Daten)
AufsteigerKeine H2H-Historie nach Ligawechselhas_h2h = 0; neutrale Fallback-Werte
Erstmalige BegegnungTeams haben sich noch nie getroffenAlle Features = 0.0; has_h2h = 0

Wichtig: Gradient Boosted Trees (XGBoost, CatBoost, LightGBM) koennen ueber das Binary-Flag has_h2h lernen, die H2H-Features automatisch zu ignorieren, wenn keine belastbare Historie vorliegt. Dadurch schaden fehlende H2H-Daten dem Modell nicht.

Korrelation mit vorhandenen Features

H2H-FeatureKorreliert mitErwartete rRedundanz
h2h_ppg_diffPPG-Diff, Elo-Diffr ~ 0.3-0.5Mittel
h2h_goal_diffAvg Goal Diff, Elo-Diffr ~ 0.3-0.5Mittel
h2h_goals_per_gameAvg Total Goalsr ~ 0.2-0.4Niedrig-Mittel
h2h_btts_rateBTTS Rater ~ 0.2-0.3Niedrig
h2h_over25_rateAvg Total Goalsr ~ 0.2-0.3Niedrig

Die Korrelationen sind deutlich niedriger als z.B. bei HT-Lead-Rate vs. PPG (r ~ 0.7-0.85), was auf hoeheren Zusatzinformationsgehalt hindeutet. Die paarweise Natur der H2H-Daten liefert ein Signal, das in keinem anderen Feature-Typ enthalten ist.

Datenquelle

Basiert auf bereits importierten Fixture-Ergebnissen (Fixture.home_score, Fixture.away_score). Keine zusaetzlichen API-Calls noetig. Der Lookback umfasst bis zu 5 Jahre historische Begegnungen aus der Datenbank. Verfuegbar fuer alle 30 Ligen im Custom Plan.

Phase-2-Erweiterungen (nicht implementiert): Bayesian Shrinkage zum Liga-Prior, Time-Weighting mit exponentiellem Decay (xi ~ 0.001/Tag), venue-spezifische H2H-Features bei ausreichender Datendichte.

Quellen

  • Hubacek, Sourek & Zelezny (2019): "Learning to predict soccer results from relational data with gradient boosted trees" — Soccer Prediction Challenge Gewinner
  • arXiv: "Evaluating Soccer Match Prediction Models" — 205-Feature-Evaluation, optimales Set ohne H2H
  • FiveThirtyEight: "How Our Club Soccer Predictions Work" — SPI-Methodik ohne H2H-History
  • Soccerwidow: "True Odds & Value Detector" — Minimum 6 H2H in 10 Jahren fuer belastbare Quotenberechnung
  • Pinnacle: "Soccer Predictions — Past Performance vs. Past Odds" — Markt-Quoten schlagen historische Records
  • Dixon-Coles: "Predicting Football Results with Statistical Modelling" — Time-Weighting mit exponentiellem Decay
  • Journal of Big Data (2024): "Data-driven prediction of soccer outcomes" — Feature-Importance-Analyse