Halbzeit-Features

Feature #9

Features basierend auf Halbzeit-Ergebnissen — Tore pro Halbzeit, Fuehrung zur Pause, Comeback-Raten und Performance-Trends zwischen erster und zweiter Halbzeit. Global werden ca. 44% der Tore in der 1. HZ und 56% in der 2. HZ erzielt — diese zeitliche Dimension wird von Fulltime-Features nicht erfasst.

Ueberblick

Halbzeit-Features nutzen die Halbzeitergebnisse (HZ-Scores) vergangener Spiele, um das Verhalten von Teams in den jeweiligen Spielhaelften zu quantifizieren. Sie ergaenzen die Fulltime-Features um eine zeitliche Dimension: Wann fallen die Tore?

#FeatureBeschreibungPrioritaetWindows
27HZ-Tore (1./2.)Avg Tore pro 1. und 2. Halbzeit (For/Against)Hoch5, 10, Season
312. HZ Performance TrendVerbesserung/Verschlechterung 2. HZ vs. 1. HZMittel5, 10
28Fuehrung zur HZ RateWie oft fuehrt das Team zur HalbzeitNiedrig10, Season
29Comeback-Win RateRueckstand zur HZ, trotzdem gewonnenSehr niedrigSeason
30Lost-Lead RateFuehrung zur HZ verspieltSehr niedrigSeason

Tier-3-Features: Ergaenzend, nicht kern. Die Haupt-Praediktoren bleiben Elo, PPG, Implied Probability und Schuss-Statistiken. HZ-Features liefern inkrementellen Mehrwert, insbesondere fuer HZ-spezifische Maerkte und die zeitliche Zerlegung von Torergebnissen.

Torverteilung nach Halbzeiten

Ueber alle grossen Ligen und Wettbewerbe hinweg werden mehr Tore in der 2. Halbzeit erzielt. Dieser Effekt ist robust und ueber Jahrzehnte stabil, variiert aber erheblich zwischen Ligen.

Liga1. HZ %2. HZ %Tendenz
Premier League50%50%Ausgeglichen
Bundesliga51%49%Ausgeglichen
Ligue 148%52%Leicht 2. HZ
Serie A45%55%Deutlich 2. HZ
La Liga43%57%Stark 2. HZ

Erklaerung fuer den 2. HZ-Effekt: Ermuedung (defensive Kompaktheit laesst nach), taktische Oeffnung bei Rueckstand, frische Einwechsler gegen muede Verteidiger, und systematisch mehr Nachspielzeit in der 2. HZ.

Extreme Team-Level-Variation

Die Torverteilung ist auf Team-Ebene extrem heterogen (2024/25): Union Berlin und Bochum erzielen 83% ihrer Tore in der 1. HZ, waehrend Freiburg 89% in der 2. HZ trifft. Diese extremen Verteilungen deuten auf teamspezifische und teils taktisch bedingte Muster hin.

HZ-Fuehrung und Konversionsraten

Die Konversion von HZ-Fuehrung zum Fulltime-Sieg ist eine der stabilsten Statistiken im Fussball:

SzenarioFT-SiegFT-RemisFT-Niederlage
Heimteam fuehrt zur HZ81.1%13.5%5.8%
Auswaertsteam fuehrt zur HZ73.1%17.5%9.4%
Unentschieden zur HZ36.0% (H)37.1%26.9% (A)

Bei einer HZ-Fuehrung von 2-0 steigt die Konversionsrate auf 97.9% (nur 22 von 1.061 Teams in der PL haben eine 2-0-HZ-Fuehrung verloren). Heimteams konvertieren ~8 Prozentpunkte hoeher als Auswaertsteams.

Berechnung

HZ-Tore (1. und 2. Halbzeit)

avg_1h_goals_for = sum(HT-Tore erzielt) / Anzahl_Spiele
avg_1h_goals_against = sum(HT-Gegentore) / Anzahl_Spiele

2. HZ-Tore werden abgeleitet (nicht gespeichert):
  goals_2h_for = FT_goals_for - HT_goals_for
  goals_2h_against = FT_goals_against - HT_goals_against

Windows: 5, 10, Season + gewichteter Durchschnitt
  avg = 0.5 * val_5 + 0.3 * val_10 + 0.2 * val_season

2. HZ Performance Trend

hz_trend = avg_2h_goals_for - avg_1h_goals_for

Positiv → Team wird in der 2. HZ staerker (spaete Tore wahrscheinlich)
Negativ → Team laesst in der 2. HZ nach
Null    → Gleichmaessige Torverteilung

Windows: 5, 10 (cross-season)

Beispiel PL 2024/25: Arsenal hat eine deutliche 2. HZ-Verbesserung (Platz 1 in der 2. HZ-Tabelle), waehrend Manchester City in der 2. HZ nachlasst (1. HZ-Tabelle Platz 1, 2. HZ-Tabelle nur Platz 7).

Comeback-Win & Lost-Lead Raten

comeback_rate = count(Rueckstand HZ UND Sieg FT) / count(Rueckstand HZ)
lost_lead_rate = count(Fuehrung HZ UND Niederlage FT) / count(Fuehrung HZ)

Window: Nur Season (seltene Ereignisse, instabil bei kleinen Samples)

Achtung — hohe Instabilitaet: Comebacks sind seltene Ereignisse (~10–17% aller Spiele). Ein Team hat vielleicht nur 5–8 Rueckstaende pro Saison, was die Comeback-Rate statistisch instabil macht (<20% Skill). Lost-Lead-Rate ist noch seltener (nur ~2–9% verlieren eine HZ-Fuehrung). Beide Features dienen als ergaenzende Kontext-Information, nicht als Kern-Praediktor.

Match-Level Features

home_avg_1h_gf_avg, away_avg_1h_gf_avg
home_avg_2h_gf_avg, away_avg_2h_gf_avg
home_avg_1h_ga_avg, away_avg_1h_ga_avg
home_avg_2h_ga_avg, away_avg_2h_ga_avg
avg_1h_gf_diff, avg_2h_gf_diff     — Halbzeit-Differenzen
home_hz_trend, away_hz_trend, hz_trend_diff
home_ht_lead_rate, away_ht_lead_rate
home_comeback_rate, away_comeback_rate
home_lost_lead_rate, away_lost_lead_rate
home_matches, away_matches
has_halftime       — 1/0 Sentinel

Gesamt: 22 Match-Level Features

Stabilisierung und Sample Size

HZ-Features unterscheiden sich erheblich in ihrer Stabilisierungsgeschwindigkeit. Tor-Features stabilisieren sich aehnlich wie Fulltime-Tore, waehrend Raten-Features deutlich laenger brauchen.

MetrikStabilisierungSkill-Anteil5-Spiele10-SpieleSeason
HZ-Tore~20–30 Spiele~30–40%Sehr volatilBrauchbarAm besten
2. HZ Trend~20–30 Spiele~30–40%VolatilBrauchbarGut
HZ-Fuehrungs-Rate~20+ Spiele~40%Zu instabilBrauchbarAm besten
Comeback-Rate38+ Spiele<20%Nicht sinnvollNicht sinnvollEinzig sinnvoll
Lost-Lead-Rate38+ Spiele<20%Nicht sinnvollNicht sinnvollEinzig sinnvoll

Allgemein sind in europaeischen Fussballligen ca. 40% der Abweichungen auf Skill zurueckzufuehren, 60% auf Glueck (Holzmeister & Johannesson, 2025). Fuer HZ-spezifische Muster duerfte die Skill-Komponente niedriger sein, da HZ-Ergebnisse eine Teilmenge der Fulltime-Ergebnisse sind.

Korrelation mit vorhandenen Features

HZ-FeatureKorreliert mitKorrelationRedundanz
2h_performance_trendKadertiefe, Substitutionseffektr ~ 0.2–0.4Niedrig
avg_1h_goals_foravg_goals_for (Fulltime)r ~ 0.7–0.8Mittel-Hoch
avg_2h_goals_foravg_goals_for (Fulltime)r ~ 0.7–0.8Mittel-Hoch
ht_lead_ratePPG, Elo-Ratingr ~ 0.7–0.85Hoch
comeback_win_ratePPG (schwaecher)r ~ 0.3–0.5Niedrig
lost_lead_rateavg_goals_against, Clean Sheet Rater ~ 0.4–0.6Mittel

Hoechster Zusatznutzen: 2h_performance_trend hat die niedrigste Korrelation mit bestehenden Features und erfasst Information, die Full-Match- Features nicht enthalten (Kadertiefe, Substitutionseffekt, taktische Anpassungsfaehigkeit). Niedrigster Zusatznutzen: ht_lead_rate ist stark redundant mit PPG und Elo — ein Team das oft fuehrt, ist einfach gut.

Edge Cases und Datenqualitaet

FallBehandlung
Fehlende HZ-ScoresFixture wird im Rolling Window uebersprungen
AET / PenaltiesFT-Score kann Extra-Time-Tore enthalten — 2. HZ-Tore koennen leicht inflationiert sein (selten in Liga-Spielen)
0-0 zur Halbzeit~30–35% aller Spiele. 73% davon haben mindestens ein Tor in der 2. HZ. Wird korrekt als HZ-Unentschieden behandelt.
Keine HZ-Rueckstaende (Comeback)comeback_rate und lost_lead_rate default zu 0.0 wenn der Nenner 0 ist

Datenquelle

Basiert auf bereits importierten Halbzeit-Scores aus den Fixture-Daten (Fixture.home_ht_score, Fixture.away_ht_score). Keine zusaetzlichen API-Calls noetig. Verfuegbar fuer alle 30 Ligen im Custom Plan.

ML-Forschung: Die Studie im Journal of Big Data (2024) zeigt, dass HZ-Features am wertvollsten als In-Game-Features sind. Als Pre-Match-Features ist ihr inkrementeller Wert moderat, insbesondere wenn bereits starke Fulltime-Features im Modell sind. CatBoost mit HZ-Features erreichte 0.1925 RPS und 55.82% Accuracy.

Quellen

  • PMC: "Trends of Goal Scoring Patterns in Soccer" — 63% der WM-Tore in der 2. Halbzeit (5 Turniere, 795 Tore)
  • PMC: "Comparison of Goal Scoring Patterns in The Big Five" — 15-Minuten-Intervall-Analyse, 76.–90. Min = 24.7% aller Tore
  • Sportingpedia: "First vs Second Half Goal Distribution" — Ligaspezifische Analyse aller 96 Teams der Big-5 (2024/25)
  • Football Betting Sites: "HT/FT Win Statistics" — HZ-Fuehrungs-Konversion: 81.1% Heim, 73.1% Auswaerts (PL)
  • Opta Analyst: "Comeback Wins Are More Common Than Ever" — Comeback-Rate ~17.1% (PL 2024/25), historischer Rekord
  • Journal of Big Data (2024): "Data-driven prediction of soccer outcomes" — HZ-Tore als Time-Dependent Variables, CatBoost 0.1925 RPS
  • Holzmeister & Johannesson (2025): "Skills vs. Luck in European Football" — 40% Skill / 60% Luck in europaeischen Ligen
  • Performance Odds: "Second-Half Football Stats" — Spaete Tore als "Rare Events", Cluster rein zufaellig