Head-to-Head
Historische Direktvergleichs-Features — PPG, Tordifferenz, Siegquote, BTTS- und Over-2.5-Raten aus vergangenen Begegnungen derselben Teams. H2H-Features liefern ein einzigartiges paarweises Signal, das team-level Features nicht erfassen koennen.
Ueberblick
Head-to-Head-Features quantifizieren die historische Rivalitaet zwischen zwei spezifischen Teams. Sie erfassen taktische Matchups und stilistische Vorteile, die aus allgemeinen Team-Statistiken nicht ableitbar sind.
| # | Feature | Beschreibung | Relevant fuer |
|---|---|---|---|
| 32 | H2H PPG | Punkte pro Spiel in direkten Duellen (Home/Away/Diff) | 1X2 |
| 33 | H2H Goal Diff | Tordifferenz und Avg Goals in direkten Duellen | 1X2, O/U |
| 34 | H2H Win Rate | BTTS-Rate und Over-2.5-Rate in direkten Duellen | BTTS, O/U |
Tier-3-Features: Ergaenzend, nicht kern. In der Feature-Importance-Hierarchie liegen H2H-Features hinter Elo, Implied Probability, xG und Form. Sie liefern ~2-5% marginale Accuracy-Verbesserung bei Hinzufuegung zu starken Basis-Features.
Praediktive Kraft — Was sagt die Forschung?
H2H-Features werden in der oeffentlichen Wahrnehmung oft ueberschaetzt, in akademischen ML-Modellen aber teils unterschaetzt. Die Wahrheit liegt dazwischen.
| Studie | H2H verwendet? | Ergebnis |
|---|---|---|
| Soccer Prediction Challenge 2017 | Nein | Gewinner: 6 Features (pi-ratings, xG, PPG) — 0.2063 RPS, 52.43% Accuracy |
| FiveThirtyEight SPI | Nein | Basiert auf Off/Def Ratings, xG, Heimvorteil — kein H2H |
| 205-Feature-Evaluation (arXiv) | Nein (im Optimum) | Optimales Set: 6 Features, keine H2H-spezifischen |
| Soccerwidow True Odds | Ja | Minimum 6 H2H in 10 Jahren fuer belastbare Berechnung |
Warum wir H2H trotzdem implementieren
- Einzigartiges paarweises Signal: Taktische Matchups und stilistische Vorteile, die aus Team-Statistiken nicht ableitbar sind
- Komplementaere Information: Niedrige Korrelation mit bestehenden Features (r ~ 0.2-0.5)
- Gradient Boosted Trees: Koennen lernen, H2H automatisch zu ignorieren, wenn has_h2h = 0
- Vollstaendigkeit: Komplettiert Sprint 3 der Feature-Pipeline
Berechnung
Parameter
| Parameter | Wert |
|---|---|
| Maximaler Lookback | 5 Jahre |
| Max. Begegnungen | 10 |
| Minimum fuer has_h2h | 3 Begegnungen |
| Time-Weighting | Nicht in Phase 1 (spaeter evaluieren) |
| Venue-spezifisch | Nein — alle Begegnungen unabhaengig von Heim/Auswaerts |
H2H PPG und Tordifferenz
h2h_home_ppg = sum(Punkte Heimteam in H2H) / N
h2h_away_ppg = sum(Punkte Auswaertsteam in H2H) / N
h2h_ppg_diff = h2h_home_ppg - h2h_away_ppg
h2h_home_goals_avg = sum(Tore Heimteam in H2H) / N
h2h_away_goals_avg = sum(Tore Auswaertsteam in H2H) / N
h2h_goal_diff = (Heimtore - Auswaertstote) / N
h2h_goals_per_game = Gesamttore / N
Punkte: Sieg=3, Remis=1, Niederlage=0
Berechnet aus Sicht jedes Teams ueber ALLE Begegnungen
(unabhaengig davon, wer Heim/Auswaerts war)BTTS- und Over-2.5-Rate
h2h_btts_rate = count(Spiele mit Goals_A > 0 AND Goals_B > 0) / N
h2h_over25_rate = count(Spiele mit Gesamttore >= 3) / NMatch-Level Features
h2h_home_ppg — PPG des Heimteams in H2H
h2h_away_ppg — PPG des Auswaertsteams in H2H
h2h_ppg_diff — PPG-Differenz (Home - Away)
h2h_home_goals_avg — Avg Tore Heimteam in H2H
h2h_away_goals_avg — Avg Tore Auswaertsteam in H2H
h2h_goal_diff — Avg Tordifferenz
h2h_goals_per_game — Avg Gesamttore pro Spiel
h2h_btts_rate — BTTS-Rate in H2H
h2h_over25_rate — Over-2.5-Rate in H2H
h2h_matches_played — Anzahl H2H-Begegnungen
has_h2h — 1/0 Sentinel (1 wenn >= 3 Spiele)
Gesamt: 11 Match-Level FeaturesFallstricke und Einschraenkungen
| Problem | Details | Mitigation |
|---|---|---|
| Kaderfluktuation | 20-30% Kaderwechsel/Saison; nach 3 Jahren ~50% anderer Kader | 5-Jahres-Lookback-Limit; spaeter Time-Weighting |
| Kleine Stichprobe | ~2 Spiele/Saison; nach 2 Saisons nur 4 Begegnungen | Min. 3 fuer has_h2h; h2h_matches_played als Zuverlaessigkeits-Signal |
| Heim/Auswaerts-Asymmetrie | Dominanz zuhause, Niederlagen auswaerts — Durchschnitt mischt Kontexte | Overall H2H (nicht venue-spezifisch, zu wenig Daten) |
| Aufsteiger | Keine H2H-Historie nach Ligawechsel | has_h2h = 0; neutrale Fallback-Werte |
| Erstmalige Begegnung | Teams haben sich noch nie getroffen | Alle Features = 0.0; has_h2h = 0 |
Wichtig: Gradient Boosted Trees (XGBoost, CatBoost, LightGBM) koennen ueber das Binary-Flag has_h2h lernen, die H2H-Features automatisch zu ignorieren, wenn keine belastbare Historie vorliegt. Dadurch schaden fehlende H2H-Daten dem Modell nicht.
Korrelation mit vorhandenen Features
| H2H-Feature | Korreliert mit | Erwartete r | Redundanz |
|---|---|---|---|
| h2h_ppg_diff | PPG-Diff, Elo-Diff | r ~ 0.3-0.5 | Mittel |
| h2h_goal_diff | Avg Goal Diff, Elo-Diff | r ~ 0.3-0.5 | Mittel |
| h2h_goals_per_game | Avg Total Goals | r ~ 0.2-0.4 | Niedrig-Mittel |
| h2h_btts_rate | BTTS Rate | r ~ 0.2-0.3 | Niedrig |
| h2h_over25_rate | Avg Total Goals | r ~ 0.2-0.3 | Niedrig |
Die Korrelationen sind deutlich niedriger als z.B. bei HT-Lead-Rate vs. PPG (r ~ 0.7-0.85), was auf hoeheren Zusatzinformationsgehalt hindeutet. Die paarweise Natur der H2H-Daten liefert ein Signal, das in keinem anderen Feature-Typ enthalten ist.
Datenquelle
Basiert auf bereits importierten Fixture-Ergebnissen (Fixture.home_score, Fixture.away_score). Keine zusaetzlichen API-Calls noetig. Der Lookback umfasst bis zu 5 Jahre historische Begegnungen aus der Datenbank. Verfuegbar fuer alle 30 Ligen im Custom Plan.
Phase-2-Erweiterungen (nicht implementiert): Bayesian Shrinkage zum Liga-Prior, Time-Weighting mit exponentiellem Decay (xi ~ 0.001/Tag), venue-spezifische H2H-Features bei ausreichender Datendichte.
Quellen
- Hubacek, Sourek & Zelezny (2019): "Learning to predict soccer results from relational data with gradient boosted trees" — Soccer Prediction Challenge Gewinner
- arXiv: "Evaluating Soccer Match Prediction Models" — 205-Feature-Evaluation, optimales Set ohne H2H
- FiveThirtyEight: "How Our Club Soccer Predictions Work" — SPI-Methodik ohne H2H-History
- Soccerwidow: "True Odds & Value Detector" — Minimum 6 H2H in 10 Jahren fuer belastbare Quotenberechnung
- Pinnacle: "Soccer Predictions — Past Performance vs. Past Odds" — Markt-Quoten schlagen historische Records
- Dixon-Coles: "Predicting Football Results with Statistical Modelling" — Time-Weighting mit exponentiellem Decay
- Journal of Big Data (2024): "Data-driven prediction of soccer outcomes" — Feature-Importance-Analyse