Schuss-Statistiken
Schuss- und Angriffseffizienz-Features aus den Advanced Match Statistics. TSR (Total Shot Ratio) ist zu 86% Skill-getrieben und erklaert 68% der Varianz in Liga-Punkten — stabiler und praediktiver als tatsaechliche Torergebnisse.
Ueberblick
Diese Features nutzen Schuss- und Angriffsstatistiken aus den Advanced Match Statistics, um die offensive/defensive Qualitaet eines Teams jenseits reiner Torergebnisse zu messen. Waehrend Tore seltene Events sind (2–3 pro Spiel), liefern Schuesse (20–30 pro Spiel) deutlich stabilere Signale.
| Feature | Formel | Typ | Skill-Anteil | Primaer fuer |
|---|---|---|---|---|
| TSR (Total Shot Ratio) | Schuesse / (Eigene + Gegnerische) | Ratio | 86% | 1X2, O/U |
| SOTR (Shots on Target Ratio) | SOT / (Eigene + Gegnerische) | Ratio | 86% | 1X2, O/U |
| Shot Accuracy | SOT / Total Shots | Prozent | ~70% | O/U |
| Shot Efficiency | Goals / Total Shots | Prozent | ~40% | O/U |
| Attack Efficiency | Dangerous Attacks / Attacks | Prozent | ~70% | O/U |
| Conversion Rate | Goals / Dangerous Attacks | Prozent | <40% | O/U |
"Year-over-year shot differential is 86% skill-driven vs. 14% luck-driven, while actual goals scored are only ~40% skill. TSR explains 68% of the variance in league points (R² = 0.68, r = 0.83)."
— Pinnacle Sports Analytics, basierend auf 204 EPL-Teamseasons
Ratio-Features: TSR und SOTR
Total Shot Ratio (TSR)
TSR = eigene_schuesse / (eigene_schuesse + gegnerische_schuesse)
Wertebereich: [0.0, 1.0]
0.5 = ausgeglichen (Liga-Durchschnitt, mathematisch erzwungen)
> 0.5 = Schuss-Dominanz
< 0.5 = Schuss-Unterlegenheit
Aggregierte Berechnung (nicht Durchschnitt der Match-Ratios):
tsr_5 = sum(shots_5) / (sum(shots_5) + sum(opp_shots_5))TSR misst den Prozess (Schussdominanz), nicht das Ergebnis (Tore). Teams mit hohem TSR erzielen langfristig mehr Tore und gewinnen mehr Spiele. Auf Einzelspiel-Ebene ist TSR wenig aussagekraeftig (R² = 0.066) — der Wert liegt in der Aggregation ueber mehrere Spiele.
| Team-Tier | TSR-Bereich | Beispiele |
|---|---|---|
| Elite | 0.60 – 0.65 | Man City, Bayern Muenchen |
| Starkes Mittelfeld | 0.52 – 0.58 | Oberes Tabellendrittel |
| Durchschnitt | 0.48 – 0.52 | Liga-Mittelfeld |
| Schwach / Abstieg | 0.35 – 0.45 | Unteres Tabellendrittel |
Shots on Target Ratio (SOTR)
SOTR wurde basierend auf der Recherche als Ergaenzung zum urspruenglichen Plan hinzugefuegt. Die Begruendung:
- Identische Repeatability wie TSR (86% Skill / 14% Glueck)
- Rankt in ML-Studien mit Random Forest und XGBoost konsistent als Top-1 oder Top-2 Feature
- Erfasst eine Qualitaetsdimension, die TSR allein nicht hat (Schussgenauigkeit als Team-Level-Signal)
- Benoetigt dieselben Daten — keine zusaetzlichen API-Kosten
Wichtig: Ratio-Features (TSR, SOTR) werden aus aggregierten Rohdaten berechnet, nicht als Durchschnitt der Einzel-Match-Ratios. Die aggregierte Methode ist robuster gegenueber Ausreissern (z.B. ein Match mit nur 3 Schuessen total).
Prozent-Features: Effizienz-Metriken
Shot Accuracy (Schussgenauigkeit)
Shot Accuracy = shots_on_target / shots_total
EPL-Durchschnitt: ~34%
Elite-Teams: 38 – 42%
Schwache Teams: 26 – 30%Moderately repeatable auf Team-Level. Auf Spieler-Level fast keine Repeatability, was die Team-Aggregation einschraenkt.
Shot Efficiency und Conversion Rate
Shot Efficiency = Goals / Total Shots
→ Wie effizient verwandelt das Team seine Schuesse?
EPL-Durchschnitt: ~10.3%
Conversion Rate = Goals / Dangerous Attacks
→ Wie effizient verwandelt das Team gefaehrliche Angriffe?Achtung — hohe Instabilitaet: Shot Efficiency ist nur ~40% Skill, ~60% Glueck. Teams mit extremen Werten regredieren fast immer zum Mittelwert. Conversion Rate ist noch instabiler (doppelte Rauschquelle: Torzufaelligkeit + subjektive Attack-Klassifikation). Beide Features sind erst ab 10+ Spielen verwertbar und dienen primaer als Regressions-Signal.
Attack Efficiency (Angriffseffizienz)
Attack Efficiency = dangerous_attacks / total_attacks
"Dangerous Attacks" = Angriffe, bei denen das Team
mit dem Ball in den Strafraum-Bereich eindringt
und eine echte Torgefahr schafft.
→ 80% aller WM-2018-Tore kamen aus dieser Zone
→ 78% der Teams mit besserer Attack-Dominanz gewannenDie Definition von "Dangerous Attacks" ist nicht standardisiert zwischen Datenprovidern. Sportmonks nutzt die STATSCORE-Definition. Ergebnisse sind moeglicherweise nicht direkt zwischen Datenquellen vergleichbar.
Stabilisierung und Sample Size
Die Features unterscheiden sich erheblich in ihrer Stabilisierungsgeschwindigkeit. TSR und SOTR liefern bereits nach wenigen Spielen nuetzliche Signale, waehrend Effizienz-Metriken deutlich laenger brauchen.
| Metrik | Stabilisierung bei | 5-Spiele-Window | 10-Spiele-Window | Season-Window |
|---|---|---|---|---|
| TSR | ~10–15 Spiele | Marginal nuetzlich | Gut nuetzlich | Sehr zuverlaessig |
| SOTR | ~10–15 Spiele | Marginal nuetzlich | Gut nuetzlich | Sehr zuverlaessig |
| Shot Accuracy | ~15–20 Spiele | Rauschig | Akzeptabel | Zuverlaessig |
| Shot Efficiency | ~30+ Spiele | Nicht verwertbar | Marginal | Akzeptabel |
| Attack Efficiency | ~15–20 Spiele | Rauschig | Akzeptabel | Zuverlaessig |
| Conversion Rate | ~30+ Spiele | Nicht verwertbar | Marginal | Akzeptabel |
Fuer einen TSR-Unterschied von 0.10 zwischen zwei Teams werden ca. 45 Spiele benoetigt. Einzelspiel-TSR ist "virtually meaningless" — nur aggregierte Werte sind nuetzlich. Der gewichtete Durchschnitt (0.5/0.3/0.2) ueber alle drei Windows fungiert als implizite Regularisierung.
Mehrwert gegenueber vorhandenen Features
Unsere bisherigen Features basieren auf Torergebnissen (Fixture-Scores). Schuss-Features liefern prozessbasierte Information:
| Szenario | Interpretation | Prognose |
|---|---|---|
| avg_gf = 1.0, TSR = 0.65 | Dominiert Spiele, konvertiert schlecht | Kuenftig mehr Tore (Regression nach oben) |
| avg_gf = 2.0, TSR = 0.35 | Ueberperformt massiv | Kuenftig weniger Tore (Regression nach unten) |
| avg_gf = 1.5, TSR = 0.50 | Ergebnis entspricht Leistung | Stabile Prognose |
Schuss-Features sind der beste verfuegbare xG-Proxy, bis xG-Daten hinzugefuegt werden. Sie liefern komplementaere Information zu Toren: TSR = "Wie dominant?" vs. Goals = "Wie viele Tore?"
Korrelation mit vorhandenen Features
| Vorhandenes Feature | Shot-Feature | Korrelation | Redundanz |
|---|---|---|---|
| PPG (Points per Game) | TSR | 0.65 – 0.80 | Hoch |
| Goals Against Avg | TSR (invers) | -0.55 – -0.70 | Moderat |
| Goals For Avg | Shot Efficiency | 0.50 – 0.65 | Moderat |
| Elo-Differenz | TSR Diff | 0.50 – 0.65 | Moderat |
| Clean Sheet Rate | SOTR (invers) | -0.40 – -0.55 | Niedrig |
Warum trotz Korrelation behalten? TSR misst den Prozess, Goals das Ergebnis. Prozessmetriken sind praediktiver fuer zukuenftige Leistung. TSR stabilisiert sich nach 10 Spielen, Tore erst nach 20+. Bei Tree-basierten Modellen (XGBoost) beeintraechtigt Multikollinearitaet die Predictions nicht.
Berechnung
Rolling Windows
Fuer jedes der 6 Features:
feature_5 — Letzte 5 Spiele (cross-season)
feature_10 — Letzte 10 Spiele (cross-season)
feature_season — Nur aktuelle Saison
feature_avg — 0.5 * f_5 + 0.3 * f_10 + 0.2 * f_season
Gesamt: 6 Features × 4 Windows + 1 Meta = 25 Team-FeaturesMatch-Level Features
home_tsr_avg, away_tsr_avg, tsr_diff
home_sotr_avg, away_sotr_avg, sotr_diff
home_shot_accuracy_avg, away_shot_accuracy_avg, shot_accuracy_diff
home_shot_efficiency_avg, away_shot_efficiency_avg
home_attack_efficiency_avg, away_attack_efficiency_avg
home_conversion_rate_avg, away_conversion_rate_avg
home_matches, away_matches
has_shots — 1/0 Sentinel
Gesamt: 18 Match-Level FeaturesFehlende Daten
10 der 30 Ligen haben keine Advanced Statistics. Fuer diese wird has_shots = 0 gesetzt und alle Werte auf 0.0. Auch innerhalb abgedeckter Ligen koennen einzelne Fixtures fehlen — diese werden uebersprungen. Attack-Daten koennen unabhaengig fehlen: TSR, SOTR und Shot Accuracy werden trotzdem berechnet.
Datenquelle
| Statistik | Type ID | Verfuegbarkeit |
|---|---|---|
| Shots Total | 42 | 20/30 Ligen |
| Shots On Target | 86 | 20/30 Ligen |
| Attacks | 43 | 20/30 Ligen |
| Dangerous Attacks | 44 | 20/30 Ligen |
Benoetigt Advanced Fixture Statistics von Sportmonks (im Advanced-Data-Paket enthalten). Verfuegbar fuer alle Big-5-Ligen und starke europaeische Top-Ligen.
Quellen
- Grantland: "What Is Total Shots Ratio?" — Einfuehrung und Validierung von TSR als praediktive Metrik
- Pinnacle Sports Analytics: "TSR & Match Odds in the EPL" — R² = 0.68 mit Season Points, gewichtetes Schussmodell
- Pinnacle: "How to Improve the Predictive Ability of Shot-Based Models" — Gewichtung verbessert R² von 0.57 auf 0.70
- James Grayson: "How Repeatable Are Shots on Target?" — 86% Skill / 14% Glueck fuer Shot Ratios
- The xG Football Club: "Which ML Models Perform Best?" — SOTR als Top-Feature in Random Forest und XGBoost
- STATSCORE: "Soccer Stats Explained" — Definition Dangerous Attacks, Attack-Dominance-Metrik (r = 0.82 mit Win-Wahrscheinlichkeit)
- PLOS One: "Real Time Quantification of Dangerousity in Football" — 80% der WM-2018-Tore aus der Gefahrenzone
- PMC: "Context is Key: Normalization" — Ratios vs. Raw Counts, normalisierte Features uebertreffen absolute Werte