手把手教你成為數(shù)據(jù)流懂球帝[足球篇]
注:本文由本文微信公眾號的同名文章修改而成。
最近人工智能、大數(shù)據(jù)這一類的概念非常火爆,感覺就是市場賣菜也能和大數(shù)據(jù)扯上關系。不過,在一些領域,引入數(shù)據(jù)分析的話的確能發(fā)現(xiàn)很多有意思的東西。以體育領域為例,美國棒球職棒大聯(lián)盟奧克蘭運動家隊的前GM(現(xiàn)在是執(zhí)行副總裁)Billy Beane及其Moneyball理念是較早為大眾所知的利用數(shù)據(jù)分析顯著提升球隊成績的案例?,F(xiàn)在基于模式識別、機器學習的數(shù)據(jù)分析技術也逐漸擴散到體育界的各領域。我們大部分都是普通的球迷,沒有需要也沒有能力更沒有原始數(shù)據(jù)來源對實際問題進行專業(yè)的分析。不過對于一些生活中的數(shù)據(jù)控(如本人),更多的數(shù)據(jù)可以提供另一個角度的觀察。下面本文將會對足球領域一些基礎的數(shù)據(jù)來源:
一、相關網(wǎng)站
1 Whoscored(https://www.whoscored.com/)
對于每場比賽,Whoscored都會有完整的數(shù)據(jù)統(tǒng)計:

這是球隊運動熱點圖

對于球員也會有相應的數(shù)據(jù)統(tǒng)計

Whoscored還會有一些個性化的內容,例如會列出來球隊和球員的特點

2 Squawka(Football Statistics, Live Scores, Results, News, Analysis)
Squawka上面的數(shù)據(jù)和Whoscored的數(shù)據(jù)基本類似,不過表現(xiàn)的風格不同
例如對于一場比賽的傳球
Whoscored會用點的形式表示

Squawka會把線路描出來

所以基本看自己的審美,從數(shù)據(jù)上來看是沒有太大區(qū)別的。這是因為Whoscored和Squawka的數(shù)據(jù)提供商都是Opta(Opta Home),他們拿到的數(shù)據(jù)都是基于與球的運動相關的事件,即ball event。對于每個ball event,記錄的是每個事件的種類(傳球、射門、撲救、鏟球)、發(fā)生坐標、結果、相關球員。基于這些數(shù)據(jù)可以生成常見的所有統(tǒng)計數(shù)據(jù)(控球率、射門次數(shù)等等),不過缺點就是沒有無球球員的位置數(shù)據(jù),這也是為什么現(xiàn)在很多人詬病數(shù)據(jù)分析無法揭示體育比賽實際情況的一個重要論點(關于這個問題,這個會在后面詳細說明。)
3 Sky Sports(Sky Sports - Sports News, Transfers, Scores)
光從能提供的數(shù)據(jù)的角度,天空體育肯定是比不上前面提到的兩個網(wǎng)站的,不過上面會有更多的新聞和評論向的文章。另外,Whoscored和Squawka的比賽解說是自動生成的,而天空體育的會有一些真實的解說文字,自行對比感受吧,不要問我為什么會關注那么奇怪的點……


二、科研paper
不是開玩笑,分析體育比賽還真能發(fā)paper……不過這需要專業(yè)的數(shù)據(jù)和研究方法。先說說足球這邊的。
從用到的數(shù)據(jù)來看,從早起的研究大多基于前面提到的ball event,后來隨著技術的發(fā)展,數(shù)據(jù)的收集范圍擴展到每一秒中每一幀球員和球的位置,這樣的話,只要技術達到相應的水平,對于無球球員的情況也是可以分析出來的。因此回到前面提到的那個問題,的確我們平時接觸到的都是一些簡單的統(tǒng)計數(shù)據(jù),但不代表在非常專業(yè)的層面沒有分析諸如無球跑動、球隊陣型這些深層次內容的數(shù)據(jù)和方法,只不過普通球迷沒有辦法獲得而已。順便說一下,目前有這類數(shù)據(jù)的公司叫Prozone,已經(jīng)被一家叫STATS(Sports Data Company
)的公司收購,這樣子的話STATS就壟斷了世界上足球和籃球頂級賽事的數(shù)據(jù)來源,一般只有他們內部或是與他們有合作關系的科研機構才有機會獲到相關的數(shù)據(jù)。
對于足球,利用以上這些數(shù)據(jù),可以做的東西有:球隊分類、球員之間傳球情況分析、下一時刻足球位置預測、射門結果預測、球隊陣型分析……在此不一一介紹,推薦一篇近期出來的review(終于要上文章了好興奮~),里面主要介紹的是足球和籃球相關的,對于相關的文章介紹非常全面:
[1]Gudmundsson J, Horton M. Spatio-Temporal Analysis of Team Sports--A Survey[J]. arXiv preprint arXiv:1602.06994, 2016.
足球分析的話推薦一位大神Patrick Lucey(http://www.patricklucey.com/Site/Home.html),最近幾年在一些比較好的數(shù)據(jù)挖掘會議上關于足球的文章幾乎全是他的team發(fā)的,已經(jīng)被挖到STATS做數(shù)據(jù)科學家了,所以說不定很快就看不到他的文章了??偛荒茉谕扑屠锩嬷vpaper吧……所以大家有興趣的自己去他的主頁看就好了。不過(還是沒忍住……)推薦一下這篇:
[2]Bialkowski A, Lucey P, Carr P, et al. Large-scale analysis of soccer matches using spatiotemporal tracking data[C]//Data Mining (ICDM), 2014 IEEE International Conference on. IEEE, 2014: 725-730.
里面講的是如何利用整場比賽所有球員的位置數(shù)據(jù)來估計球隊的陣型,下圖([2])是對某一年英超進行分析得到的幾種常見陣型,看著還挺像那么回事的,像442,4231,433這些都能看到。另外根據(jù)陣型去猜具體是哪支球隊能做到75%的準確率也是相當厲害的(20支球隊,隨機猜的話只有5%的正確率)。

最后推薦一個會議,MIT Sloan Sports Analytics Conference(MIT Sloan Sports Analytics Conference),每年的三月份召開,會聚集很多學界和體育界的專業(yè)人士,可以投稿,被錄取的paper也會在官網(wǎng)上發(fā)布。
總結
在當前這個時代,各種各樣的數(shù)據(jù)充斥著社會生活的方方面面,體育比賽也不例外。對于足球領域(其實對于其他體育領域也一樣)來說,由于原始數(shù)據(jù)的稀缺性和壟斷性,我們很難直接得到可以分析的數(shù)據(jù),但現(xiàn)實中仍存在很多資源讓我們去接觸和體驗分析足球比賽的方法,不管是直觀的可視化手段,或是嚴謹?shù)目茖W研究。這些會給予我們另一個視覺去領略足球比賽的美。
以上。
掃描二維碼推送至手機訪問。
版權聲明:本文由財神資訊-領先的體育資訊互動媒體轉載發(fā)布,如需刪除請聯(lián)系。