Schuss-Statistiken

Feature #8

Schuss- und Angriffseffizienz-Features aus den Advanced Match Statistics. TSR (Total Shot Ratio) ist zu 86% Skill-getrieben und erklaert 68% der Varianz in Liga-Punkten — stabiler und praediktiver als tatsaechliche Torergebnisse.

Ueberblick

Diese Features nutzen Schuss- und Angriffsstatistiken aus den Advanced Match Statistics, um die offensive/defensive Qualitaet eines Teams jenseits reiner Torergebnisse zu messen. Waehrend Tore seltene Events sind (2–3 pro Spiel), liefern Schuesse (20–30 pro Spiel) deutlich stabilere Signale.

FeatureFormelTypSkill-AnteilPrimaer fuer
TSR (Total Shot Ratio)Schuesse / (Eigene + Gegnerische)Ratio86%1X2, O/U
SOTR (Shots on Target Ratio)SOT / (Eigene + Gegnerische)Ratio86%1X2, O/U
Shot AccuracySOT / Total ShotsProzent~70%O/U
Shot EfficiencyGoals / Total ShotsProzent~40%O/U
Attack EfficiencyDangerous Attacks / AttacksProzent~70%O/U
Conversion RateGoals / Dangerous AttacksProzent<40%O/U

"Year-over-year shot differential is 86% skill-driven vs. 14% luck-driven, while actual goals scored are only ~40% skill. TSR explains 68% of the variance in league points (R² = 0.68, r = 0.83)."

— Pinnacle Sports Analytics, basierend auf 204 EPL-Teamseasons

Ratio-Features: TSR und SOTR

Total Shot Ratio (TSR)

TSR = eigene_schuesse / (eigene_schuesse + gegnerische_schuesse)

Wertebereich: [0.0, 1.0]
  0.5 = ausgeglichen (Liga-Durchschnitt, mathematisch erzwungen)
  > 0.5 = Schuss-Dominanz
  < 0.5 = Schuss-Unterlegenheit

Aggregierte Berechnung (nicht Durchschnitt der Match-Ratios):
  tsr_5 = sum(shots_5) / (sum(shots_5) + sum(opp_shots_5))

TSR misst den Prozess (Schussdominanz), nicht das Ergebnis (Tore). Teams mit hohem TSR erzielen langfristig mehr Tore und gewinnen mehr Spiele. Auf Einzelspiel-Ebene ist TSR wenig aussagekraeftig (R² = 0.066) — der Wert liegt in der Aggregation ueber mehrere Spiele.

Team-TierTSR-BereichBeispiele
Elite0.60 – 0.65Man City, Bayern Muenchen
Starkes Mittelfeld0.52 – 0.58Oberes Tabellendrittel
Durchschnitt0.48 – 0.52Liga-Mittelfeld
Schwach / Abstieg0.35 – 0.45Unteres Tabellendrittel

Shots on Target Ratio (SOTR)

SOTR wurde basierend auf der Recherche als Ergaenzung zum urspruenglichen Plan hinzugefuegt. Die Begruendung:

  • Identische Repeatability wie TSR (86% Skill / 14% Glueck)
  • Rankt in ML-Studien mit Random Forest und XGBoost konsistent als Top-1 oder Top-2 Feature
  • Erfasst eine Qualitaetsdimension, die TSR allein nicht hat (Schussgenauigkeit als Team-Level-Signal)
  • Benoetigt dieselben Daten — keine zusaetzlichen API-Kosten

Wichtig: Ratio-Features (TSR, SOTR) werden aus aggregierten Rohdaten berechnet, nicht als Durchschnitt der Einzel-Match-Ratios. Die aggregierte Methode ist robuster gegenueber Ausreissern (z.B. ein Match mit nur 3 Schuessen total).

Prozent-Features: Effizienz-Metriken

Shot Accuracy (Schussgenauigkeit)

Shot Accuracy = shots_on_target / shots_total

EPL-Durchschnitt: ~34%
Elite-Teams:      38 – 42%
Schwache Teams:   26 – 30%

Moderately repeatable auf Team-Level. Auf Spieler-Level fast keine Repeatability, was die Team-Aggregation einschraenkt.

Shot Efficiency und Conversion Rate

Shot Efficiency  = Goals / Total Shots
  → Wie effizient verwandelt das Team seine Schuesse?
  EPL-Durchschnitt: ~10.3%

Conversion Rate  = Goals / Dangerous Attacks
  → Wie effizient verwandelt das Team gefaehrliche Angriffe?

Achtung — hohe Instabilitaet: Shot Efficiency ist nur ~40% Skill, ~60% Glueck. Teams mit extremen Werten regredieren fast immer zum Mittelwert. Conversion Rate ist noch instabiler (doppelte Rauschquelle: Torzufaelligkeit + subjektive Attack-Klassifikation). Beide Features sind erst ab 10+ Spielen verwertbar und dienen primaer als Regressions-Signal.

Attack Efficiency (Angriffseffizienz)

Attack Efficiency = dangerous_attacks / total_attacks

"Dangerous Attacks" = Angriffe, bei denen das Team
  mit dem Ball in den Strafraum-Bereich eindringt
  und eine echte Torgefahr schafft.

  → 80% aller WM-2018-Tore kamen aus dieser Zone
  → 78% der Teams mit besserer Attack-Dominanz gewannen

Die Definition von "Dangerous Attacks" ist nicht standardisiert zwischen Datenprovidern. Sportmonks nutzt die STATSCORE-Definition. Ergebnisse sind moeglicherweise nicht direkt zwischen Datenquellen vergleichbar.

Stabilisierung und Sample Size

Die Features unterscheiden sich erheblich in ihrer Stabilisierungsgeschwindigkeit. TSR und SOTR liefern bereits nach wenigen Spielen nuetzliche Signale, waehrend Effizienz-Metriken deutlich laenger brauchen.

MetrikStabilisierung bei5-Spiele-Window10-Spiele-WindowSeason-Window
TSR~10–15 SpieleMarginal nuetzlichGut nuetzlichSehr zuverlaessig
SOTR~10–15 SpieleMarginal nuetzlichGut nuetzlichSehr zuverlaessig
Shot Accuracy~15–20 SpieleRauschigAkzeptabelZuverlaessig
Shot Efficiency~30+ SpieleNicht verwertbarMarginalAkzeptabel
Attack Efficiency~15–20 SpieleRauschigAkzeptabelZuverlaessig
Conversion Rate~30+ SpieleNicht verwertbarMarginalAkzeptabel

Fuer einen TSR-Unterschied von 0.10 zwischen zwei Teams werden ca. 45 Spiele benoetigt. Einzelspiel-TSR ist "virtually meaningless" — nur aggregierte Werte sind nuetzlich. Der gewichtete Durchschnitt (0.5/0.3/0.2) ueber alle drei Windows fungiert als implizite Regularisierung.

Mehrwert gegenueber vorhandenen Features

Unsere bisherigen Features basieren auf Torergebnissen (Fixture-Scores). Schuss-Features liefern prozessbasierte Information:

SzenarioInterpretationPrognose
avg_gf = 1.0, TSR = 0.65Dominiert Spiele, konvertiert schlechtKuenftig mehr Tore (Regression nach oben)
avg_gf = 2.0, TSR = 0.35Ueberperformt massivKuenftig weniger Tore (Regression nach unten)
avg_gf = 1.5, TSR = 0.50Ergebnis entspricht LeistungStabile Prognose

Schuss-Features sind der beste verfuegbare xG-Proxy, bis xG-Daten hinzugefuegt werden. Sie liefern komplementaere Information zu Toren: TSR = "Wie dominant?" vs. Goals = "Wie viele Tore?"

Korrelation mit vorhandenen Features

Vorhandenes FeatureShot-FeatureKorrelationRedundanz
PPG (Points per Game)TSR0.65 – 0.80Hoch
Goals Against AvgTSR (invers)-0.55 – -0.70Moderat
Goals For AvgShot Efficiency0.50 – 0.65Moderat
Elo-DifferenzTSR Diff0.50 – 0.65Moderat
Clean Sheet RateSOTR (invers)-0.40 – -0.55Niedrig

Warum trotz Korrelation behalten? TSR misst den Prozess, Goals das Ergebnis. Prozessmetriken sind praediktiver fuer zukuenftige Leistung. TSR stabilisiert sich nach 10 Spielen, Tore erst nach 20+. Bei Tree-basierten Modellen (XGBoost) beeintraechtigt Multikollinearitaet die Predictions nicht.

Berechnung

Rolling Windows

Fuer jedes der 6 Features:
  feature_5      — Letzte 5 Spiele (cross-season)
  feature_10     — Letzte 10 Spiele (cross-season)
  feature_season — Nur aktuelle Saison
  feature_avg    — 0.5 * f_5 + 0.3 * f_10 + 0.2 * f_season

Gesamt: 6 Features × 4 Windows + 1 Meta = 25 Team-Features

Match-Level Features

home_tsr_avg, away_tsr_avg, tsr_diff
home_sotr_avg, away_sotr_avg, sotr_diff
home_shot_accuracy_avg, away_shot_accuracy_avg, shot_accuracy_diff
home_shot_efficiency_avg, away_shot_efficiency_avg
home_attack_efficiency_avg, away_attack_efficiency_avg
home_conversion_rate_avg, away_conversion_rate_avg
home_matches, away_matches
has_shots          — 1/0 Sentinel

Gesamt: 18 Match-Level Features

Fehlende Daten

10 der 30 Ligen haben keine Advanced Statistics. Fuer diese wird has_shots = 0 gesetzt und alle Werte auf 0.0. Auch innerhalb abgedeckter Ligen koennen einzelne Fixtures fehlen — diese werden uebersprungen. Attack-Daten koennen unabhaengig fehlen: TSR, SOTR und Shot Accuracy werden trotzdem berechnet.

Datenquelle

StatistikType IDVerfuegbarkeit
Shots Total4220/30 Ligen
Shots On Target8620/30 Ligen
Attacks4320/30 Ligen
Dangerous Attacks4420/30 Ligen

Benoetigt Advanced Fixture Statistics von Sportmonks (im Advanced-Data-Paket enthalten). Verfuegbar fuer alle Big-5-Ligen und starke europaeische Top-Ligen.

Quellen

  • Grantland: "What Is Total Shots Ratio?" — Einfuehrung und Validierung von TSR als praediktive Metrik
  • Pinnacle Sports Analytics: "TSR & Match Odds in the EPL" — R² = 0.68 mit Season Points, gewichtetes Schussmodell
  • Pinnacle: "How to Improve the Predictive Ability of Shot-Based Models" — Gewichtung verbessert R² von 0.57 auf 0.70
  • James Grayson: "How Repeatable Are Shots on Target?" — 86% Skill / 14% Glueck fuer Shot Ratios
  • The xG Football Club: "Which ML Models Perform Best?" — SOTR als Top-Feature in Random Forest und XGBoost
  • STATSCORE: "Soccer Stats Explained" — Definition Dangerous Attacks, Attack-Dominance-Metrik (r = 0.82 mit Win-Wahrscheinlichkeit)
  • PLOS One: "Real Time Quantification of Dangerousity in Football" — 80% der WM-2018-Tore aus der Gefahrenzone
  • PMC: "Context is Key: Normalization" — Ratios vs. Raw Counts, normalisierte Features uebertreffen absolute Werte