【名家專欄】還在迷信數(shù)據(jù)?足球要這么簡單 球盲過濾器就失業(yè)了
文/The Athletic
作者/Tom Worville
翻譯/遠風(fēng)(筆者在pp體育發(fā)表的翻譯文章)
“在足球領(lǐng)域,為何數(shù)據(jù)并非確定無疑的角度?為何數(shù)據(jù)統(tǒng)計無法呈現(xiàn)一切?數(shù)據(jù)統(tǒng)計的主觀程度如何?能否提供合適的范例?證明哪些球員雖然數(shù)據(jù)看似糟糕,但他們卻是球隊不可或缺的肱股?”

帶著這樣的思考,我們不妨來深入聊聊數(shù)據(jù)對足球的輔助作用,以及它們并不能反映足球比賽的本質(zhì)。
數(shù)據(jù)分析并非萬能
足球是一項復(fù)雜的運動,很多年來,大多數(shù)人一直持這樣的觀點,即單靠干巴巴、了無趣味和靈魂的數(shù)據(jù),根本無法總結(jié)如此復(fù)雜的運動。近年來,這種觀點似乎不再流行——BBC的《比賽日(Match of the day)》欄目經(jīng)常分析預(yù)期進球數(shù)據(jù)(xG),利物浦之所以獲得成功除了最佳的人員配置,也要感謝對數(shù)據(jù)的充分利用。
好吧,體育類文章要變得受讀者歡迎,最佳方案之一就是聘請一位致力于數(shù)據(jù)分析的專欄作家。

數(shù)據(jù)分析的廣泛應(yīng)用,并沒有改變足球本身的復(fù)雜性。數(shù)據(jù)還會被用來陳述某種觀點,又或者贏得某場爭論,因為數(shù)據(jù)分析是提供證據(jù)、進而支持某種觀點的最佳方式。數(shù)據(jù)分析在足球(其他運動領(lǐng)域同樣如此)領(lǐng)域廣泛應(yīng)用的原因,是缺乏更好的媒介從客觀的角度,支撐針對某支球隊或某個球員的觀點。
如果比賽的連續(xù)鏡頭更容易截取,而且版權(quán)持有者能夠放寬對視頻的使用,或許情況會有所不同。數(shù)據(jù)分析或許是客觀分析和探討比賽的最佳方式,但這并不意味著我們應(yīng)當(dāng)視其為真理。
首先,總會有某些東西是數(shù)據(jù)無法精確顯示的。比如誰是英超一腳停球最出色的球員?你也可以要求衡量某些相似的范疇,比如球員控球失誤后球權(quán)落到隊友腳下的比重。用fbref給出的數(shù)據(jù),我們會發(fā)現(xiàn)阿斯頓維拉中衛(wèi)恩格斯是整個英超第一腳停球最出色的球員——他接球時的停球的失誤率為0,略高于0.1%的衛(wèi)范戴克。

然而,這種數(shù)據(jù)統(tǒng)計并沒有涉及到傳球的類型,以及球員接球時所處的環(huán)境等客觀條件。伯恩茅斯前鋒威爾遜的“控球失誤率”高達16%,為英超之首,但他接到傳球時絕大多數(shù)時間是在前場,受到后衛(wèi)的壓迫自然非常嚴重。
此外,也很難判斷這些停球究竟是直接用腳停住,還是碰到脛骨、膝蓋后再落下來——停球失誤的數(shù)據(jù)參照點只有兩個選項,即“成功”和“失誤”,因此即便傳球類型或者所承受的壓力這兩大因素也考慮進去,計算出的結(jié)果,仍不足以判定究竟誰是英超一腳停球最出色的球員。
此外值得一提的是,雖然我們獲取的數(shù)據(jù)被認為是“絕對客觀”的,但其實同樣是有人手工采集的。問題是只要有人的參與,就可能出現(xiàn)偏見和錯誤,乃至不理性的因素,所有這些都不應(yīng)該與數(shù)據(jù)扯上關(guān)系。正因為這樣,目前所采集的數(shù)據(jù)中總會存在這樣那樣的錯誤,不管質(zhì)量保證操作有多么先進。

數(shù)據(jù)的采集過程中,不僅僅存在著人為的錯誤,還存在著因為不同尺度帶來的偏差。
從某種程度來講,無論Opta還是Statsbomb,又或者其他數(shù)據(jù)公司,都要給予他們想要采集的數(shù)據(jù)某種定義:什么是傳球?什么是直塞球?什么是1對1?擋出和撲出有什么區(qū)別?
判斷這些并不像區(qū)分黑白那么簡單明了。
如果對針對上述問題的判斷進行探究,我們就會發(fā)現(xiàn),創(chuàng)造數(shù)據(jù)采集過程(無論對象是足球或者其他范疇)時,主觀因素總會或多或少地起著作用。數(shù)據(jù)從來都不是毫無偏頗的,主觀性是數(shù)據(jù)采集不可避免的因素。
說這些并不是要質(zhì)疑數(shù)據(jù)供給商,也不是說數(shù)據(jù)不足為信。數(shù)據(jù)采集本就是困難的過程,而數(shù)據(jù)采集的局限性也意味著僅僅通過數(shù)據(jù),并不能完全客觀地解讀足球。
糟糕的數(shù)據(jù)和優(yōu)秀球員可以共存
有時候,某個球員數(shù)據(jù)糟糕,可能是因為對于其數(shù)據(jù)的錯誤理解。
就拿西漢姆聯(lián)中鋒阿萊為例吧。本賽季,他爭頂失敗的次數(shù)達到187次,為整個英超第2高,但爭頂成功的次數(shù)達到186次,為整個英超最高。

這兩項數(shù)據(jù)可能會被拿來判斷他爭頂能力的優(yōu)劣,但更加準(zhǔn)確的理解應(yīng)該是他參與爭頂?shù)拇螖?shù)極高,而且對于一名英超中鋒而言,他的爭頂成功率真的很高(根據(jù)smarterscout的統(tǒng)計,阿萊在陣地戰(zhàn)的爭頂成功率為82/99)。
謊言,數(shù)據(jù)有時候真的跟謊言相差不遠。
此外,球員數(shù)據(jù)糟糕的部分原因,是他們在球場上做了很多“份外之事”。上賽季薩里執(zhí)教切爾西期間,若日尼奧的助攻數(shù)據(jù)欠奉,但很少有人站出來為他說話:助攻真的不是若鳥的首要任務(wù)。

作為切爾西的拖后組織核心,他最重要的任務(wù)是串聯(lián)前后場、控制節(jié)奏,以及將皮球第一時間輸送給能夠創(chuàng)造進球機會的隊友。他在這方面真的做得很棒——切爾西許多陣地進攻取得的進球,來源于若日尼奧的鋪墊,他參與球隊陣地進攻進球的次數(shù)為上賽季英超最高。
此外他的傳球次數(shù)也很多,根據(jù)Opta的預(yù)期助攻模板,他的助攻數(shù)應(yīng)該達到5次。當(dāng)然,這還需要考慮一些運氣因素。
本賽季,數(shù)據(jù)無法顯示球員整體能力的最佳典型,要數(shù)謝聯(lián)的麥戈德里克。
沒錯,在預(yù)期進球達到6.2個的情況下,麥戈德里克的聯(lián)賽進球數(shù)實際為0。如果主帥懷爾德看重的是他的進球能力,他早已經(jīng)被踢出首發(fā)陣容。

然而,麥戈德里克的斷球次數(shù)卻是所有英超中鋒中最高的,而他的防守貢獻恰恰是確保其位置的關(guān)鍵因素,這也讓他成為球隊?wèi)?zhàn)術(shù)體系中極為重要的環(huán)節(jié)。
數(shù)據(jù)分析不是一切
說白了,使用數(shù)據(jù)只是為了更好地理解足球這項復(fù)雜的運動,畢竟22名球員在1.5個小時內(nèi)追著球瘋跑,想要解讀這樣的運動真的不容易。
在足球領(lǐng)域,最常見的數(shù)據(jù)設(shè)置自然是圍繞球本身完成的,這些數(shù)據(jù)往往能夠告訴你球本身發(fā)生了什么(傳球、傳球、解圍、斷球、傳球、射門、進球),但它往往只涉及到控球球員,跟其他21個球員的關(guān)系真的不大。

正因為這樣,我們往往會錯過無球階段發(fā)生的事情。比如抓住對方防守空當(dāng)?shù)臒o球跑動,防守型中場阻斷對方威脅傳球路線的舉動等等。從這種角度而言,數(shù)據(jù)無法全面地捕捉球場上發(fā)生的一切,因為采集中存在著許多缺陷。
現(xiàn)階段,足球數(shù)據(jù)的一個最大的缺陷就是無法有效地衡量比賽中兩隊的防守。跟防守相關(guān)的數(shù)據(jù)(鏟球、攔截以及搶斷等等)并不能作為我們判斷一名中衛(wèi)優(yōu)劣的依據(jù),只能反映防守球員的積極性,又或者反映出該球員以及他所效力球隊的風(fēng)格。我此前也曾經(jīng)提到過,這些數(shù)據(jù)受到球隊控球比重的影響,更多的控球時間意味著用在防守端的時間更少。
對方每1000次觸球,阿斯頓維拉中衛(wèi)明斯才有1次鏟球嘗試,這個比重是英超所有中衛(wèi)中最低的。但這并不意味著明斯是個糟糕的中衛(wèi),只能說明他并不愿意積極地去拼搶球權(quán)。

通過數(shù)據(jù),我們還能夠了解到明斯不俗的位置感,他是英超所有中衛(wèi)中本賽季封堵射門次數(shù)最多的。維拉主帥迪恩-史密斯更喜歡將他放在較深的位置,作為球門的屏障,而不是讓他主動出擊去爭奪球權(quán)。
數(shù)據(jù)統(tǒng)計或許無法告訴我們一名后衛(wèi)究竟有多么出色,但作為這些統(tǒng)計基礎(chǔ)的原始數(shù)據(jù),卻能夠起到出人意料的效果。使用這些數(shù)據(jù)來判斷中衛(wèi)能力的最佳途徑,是將它作為某種標(biāo)記,用來指明該中衛(wèi)球員在比賽中可能會受到考驗的場合。這名中衛(wèi)或許不是對方每次將傳中送入禁區(qū)時都會做出反應(yīng),但明眼人仍然能夠判斷出他反應(yīng)的對與錯。通過這樣的片段,球探們能夠判斷出一名中衛(wèi)表現(xiàn)的優(yōu)劣,能夠?qū)υ撝行l(wèi)的實力形成主觀的判定。

目前,我們會采集失誤導(dǎo)致對方射門或者進球的數(shù)據(jù),本賽季,在所有非門將球員當(dāng)中,貝德納雷克是該數(shù)據(jù)最高的球員,由于他的失誤,送給比賽對手3個進球。而這些錯誤通常在外行人看來是不可思議的,比如腳后跟回傳門將力量太輕,導(dǎo)致被對方斷球繼而單刀破門。
這種錯誤出現(xiàn)的可能性較低,而且沒有一次是過于隨意導(dǎo)致的錯誤,也很難在同個賽季發(fā)生第二次,但它卻被認為是比較所有中衛(wèi)的可靠依據(jù)。更理想的衡量方法,應(yīng)該是捕捉那些導(dǎo)致對方進球的更為微妙的動作。
對方的每次射門和進球,自然是因為在防守環(huán)節(jié)中有人犯了錯誤??赡苁呛笮l(wèi)球員丟掉了自己盯防的人,或者是中場球員沒能阻斷對方的傳球線路,又或者是其他類似的錯誤。這些都是導(dǎo)致對方出現(xiàn)射門機會的重要因素,但現(xiàn)階段的數(shù)據(jù)統(tǒng)計形式無法有效地予以總結(jié)。
很可能一次丟球并不是因為某名球員的一次失誤,而是一連串錯誤綜合作用的結(jié)果。

盡管如此,事件數(shù)據(jù)和跟蹤數(shù)據(jù)的結(jié)合應(yīng)該能夠打開一扇門,幫助我們回答這個問題以及其他類似的問題,但足球比賽的復(fù)雜性仍然遠超于此。
想象一下,某家數(shù)據(jù)供應(yīng)商已經(jīng)全面地破解了足球比賽,他們能夠采集到所有能夠想到的數(shù)據(jù):針對某一球員的所有傳球選項,他們所承受壓力的大小,他們是否斗志昂揚,無球隊友何時開始穿插跑動,他們是否系好了鞋帶等等。

擁有這樣豐富的數(shù)據(jù),決定該衡量什么已不再是問題,但在此基礎(chǔ)上,那些已經(jīng)衡量過的內(nèi)容,哪些才更加重要呢?
……
事實上,我們遠未達到這樣的高度,我們對發(fā)生在球場上的一切知之甚少,唯一不變的是我們要求衡量的、那些真正重要的范疇。
近年來,預(yù)期進球得到普遍應(yīng)用,因為這個數(shù)據(jù)本身擁有足夠的描述及預(yù)期能力——我們因此了解到許多以往未曾了解的東西,也能夠?qū)⑦@一信息作為預(yù)測此后表現(xiàn)的信號。
簡而言之,就是數(shù)據(jù)分析會朝著無限還原比賽內(nèi)容的方向前進,但在足球的復(fù)雜性面前,它還遠達不到“真理”的高度。
掃描二維碼推送至手機訪問。
版權(quán)聲明:本文由財神資訊-領(lǐng)先的體育資訊互動媒體轉(zhuǎn)載發(fā)布,如需刪除請聯(lián)系。