MLFA(2):足球數據分析常用數據集介紹
要將機器學習算法應用于足球數據分析,就必須先有一套關于比賽內容的數據集。本專欄的第二篇文章將介紹足球數據分析領域常用的兩種數據類型:事件數據 與 追蹤數據,并介紹每種類型中比較知名的數據提供商,以及他們免費公開的數據集。
本篇文章部分內容參考 Soccer Analytics Handbook
事件數據
事件數據(event data, a.k.a. play-by-play data)描述了一場比賽中每次有球處理的詳細信息。具體而言,第三方數據公司從比賽錄像中由人工標注出每一次處理球事件,例如傳球、射門、盤帶、爭頂等等,并記錄下該事件的 球員、時間、地點(在球場上的坐標)以及 其他詳細信息(例如使用的左腳還是右腳、是否成功)。據統(tǒng)計,一場比賽的事件數據大約包含 1700 次事件,且其中約一半的事件為傳球。[1]

比較知名的事件數據提供商有 Wyscout、StatsBomb 以及被 Stats Perform 收購的 Opta 等。其中,Wyscout 和 StatsBomb 各公開了一部分數據,且 StatsBomb 還提供了一種包含 凍結幀(freezing frame)的數據。
Wyscout 公開數據
Wyscout 的公開數據 涵蓋了 1941 場比賽, 約 300 萬個事件,涉及 4299 名球員。具體包含的賽事如下表所示。
賽事賽季比賽數量英超17/18380西甲17/18380德甲17/18306法甲17/18380意甲17/18380歐洲杯201651世界杯201864合計1941StatsBomb 公開數據
StatsBomb 的公開數據 涵蓋的賽事范圍更加廣泛,不僅兼顧男足女足,而且時間跨度上包含了一些年代較久遠的比賽,如英超 03/04 賽季中賽季不敗的阿森納的比賽、梅西在巴塞羅那的生涯中所有出場的西甲比賽、99/00 賽季起的部分歐冠決賽。具體包含的賽事如下表所示。
賽事賽季比賽數量男足世界杯201864歐洲杯202051英超(阿森納)03/0433西甲(梅西)04/05 – 20/21520歐冠(決賽)99/00 – 18/1914女足世界杯201952美國國家聯賽201836英超18/19 – 20/21326合計1096在傳統(tǒng)的事件數據中,一個事件的信息僅包含了與該事件相關的球員位置,而場上其他球員的位置不會被記錄。而 StatsBomb 的數據則包含 凍結幀,即同時記錄了事件發(fā)生瞬間鏡頭中其他球員的位置。不過,StatsBomb 的公開數據僅在 2020 年歐洲杯的 51 場比賽中為每個事件都記錄了凍結幀(這個數據類型被 StatsBomb 稱為 360 data),而在其他賽事中只對每腳射門記錄了凍結幀。

追蹤數據
追蹤數據(tracking data) 記錄了一場比賽中每時每刻足球和場上球員的位置坐標。這類數據是由球員比賽時的穿戴設備直接收集獲得,或者通過計算機視覺的手段從錄像中估算而得。最先進的技術設備可以得到幀率達 25 Hz 的追蹤數據,即每場比賽約 14 萬幀數據。比較知名的追蹤數據提供商有 Matrica Sports、 Stats Perform 、Second Spectrum 等。
然而,想要獲取場上所有球員的追蹤數據需要在場館內裝配相應的硬件設施,并非每一場比賽都有條件得到這類數據。退而求其次,我們可以只關注直播鏡頭中可見的球員位置,這就衍生出了 直播鏡頭追蹤數據(broadcast tracking data)。這類數據的提供商有 SkillCorner、Sportlogiq 等。
Matrica Sports 和 SkillCorner 各公開了一小部分追蹤數據,具體情況如下。
Matrica Sports 公開數據
Matrica Sports 的公開數據 包含三場匿名比賽,幀率為 25 Hz。除了場上所有球員的追蹤數據外,還提供了與追蹤數據時間對齊的事件數據。同時擁有時間對齊的追蹤數據和事件數據往往更有利于分析工作的進行。

SkillCorner 公開數據
SkillCorner 的公開數據 包含了 19/20 賽季五大聯賽冠亞軍之間的共 9 場比賽[2]的直播鏡頭追蹤數據,幀率為 10 Hz。由于 SkillCorner 本身并不是事件數據提供商,因此,必要時,使用這些數據需要將其和其他提供商的事件數據進行時間對齊。
在下圖中,我們可以明顯觀察到該類數據只能追蹤到鏡頭區(qū)域內的球員。據統(tǒng)計,直播鏡頭追蹤數據平均每幀只能捕獲到 14 名場上球員。

由于足球場地大、人員多的特點,數據收集難度大,起步也較晚。在足球以外,例如籃球,NBA 從 2013 年起就引入了 Stats Perform 的 SportVU 系統(tǒng),在場館內安裝設備收集追蹤數據。
雖然如今已有很多數據提供商開始收集足球數據,但免費公開的數據相對于提供商掌握的數據還是鳳毛麟角,希望將來能有更多的公開數據提供給拿不到合作的研究者和足球分析的業(yè)余愛好者使用,促進足球數據分析領域的技術進步。
從下一篇文章開始,我將開始分專題介紹機器學習在足球數據分析中的應用。
PS: 下一篇選什么專題還沒想好,可能先搞點簡單的 :)