巴西隊(duì)提前出線,預(yù)定大力神杯?數(shù)據(jù)分析告訴你,到底誰才是冠軍
2022年卡塔爾世界杯的第一輪小組賽,已經(jīng)在眾多驚詫、悲傷、驚喜的情緒中結(jié)束,而僅僅是第一輪的小組比賽,不斷爆出的冷門就足以使人大跌眼鏡了:
連續(xù)34場世界大賽不敗的潘帕斯雄鷹——阿根廷,1-2負(fù)于世界排名51的沙特;
四屆世界杯冠軍得主的德意志戰(zhàn)車——德國隊(duì),1-2負(fù)于從未進(jìn)過8強(qiáng)的日本;
讓無數(shù)強(qiáng)隊(duì)忌憚的南美洲天藍(lán)軍團(tuán)——烏拉圭,0-0被稱為世界杯魚腩的韓國隊(duì)逼平;
自從揭幕戰(zhàn)上卡塔爾打破了“世界杯揭幕戰(zhàn)東道主必勝”的鐵律,就預(yù)示了2022年卡塔爾世界杯注定是一場不平凡的大戲,也許世界杯冠軍的寶座上會(huì)迎來又一位新王。
歡喜的背面一定是悲傷,此時(shí)一定有無數(shù)的球迷為自己的球隊(duì)歡欣鼓舞,也一定有無數(shù)的球迷正在黯然神傷,最終究竟誰能捧起大力神杯,是眾星璀璨的新人、還是老驥伏櫪的舊主,沒有人能猜得出,但我們或許可以從大數(shù)據(jù)預(yù)測中窺得一二。
構(gòu)建世界杯預(yù)測的模型
(想看預(yù)測的直接略過這部分)
自從現(xiàn)代足球逐漸商業(yè)化之后,無數(shù)人開創(chuàng)了大數(shù)據(jù)分析模型來試圖預(yù)測足球比賽的勝負(fù),然而因?yàn)樽闱虮荣惖挠绊懸蛩乇瘸燥埡人獜?fù)雜的多,球隊(duì)陣容、球員能力、球員狀態(tài)、球員心理、球隊(duì)?wèi)?zhàn)術(shù)、球隊(duì)磨合度、球隊(duì)配合度等等,每一個(gè)因素的風(fēng)吹草動(dòng),都會(huì)牽一發(fā)而動(dòng)全身,影響最終的結(jié)果,預(yù)測的結(jié)果可能會(huì)與現(xiàn)實(shí)大相徑庭。
但是大多數(shù)模型背后的機(jī)理,基本都有著泊松概率分布模型的影子:
這個(gè)模型看起來復(fù)雜難懂,其實(shí)它有著樸素且美麗的魔力,能夠“準(zhǔn)確”預(yù)測幾乎所有事件的發(fā)生概率,它的原理則更為簡單,可以用幾句話就解釋清楚:
我工作時(shí)會(huì)喝水這個(gè)事情,要么發(fā)生、要么不發(fā)生;
我喝水這個(gè)事情在某個(gè)時(shí)間段內(nèi)我是已知的,比如平均一上午喝兩次水;
我喝水這個(gè)事情在某個(gè)時(shí)間段內(nèi)發(fā)生的概率是一樣,任何時(shí)候都可能喝水;
我這次喝水和下次喝水的事件是獨(dú)立的,互不影響;
那么,這個(gè)事件就可以用泊松分布的公式進(jìn)行解釋,以足球預(yù)測為例,我們可以以“某隊(duì)在一場比賽中進(jìn)球”為事件,用K表示我們期望球隊(duì)進(jìn)幾個(gè)球(事件發(fā)生多少次),用λ表示在一場比賽的時(shí)間內(nèi)發(fā)生事件的平均數(shù),這個(gè)我們可以通過每個(gè)球隊(duì)世界杯上每場比賽的場均進(jìn)球即可,最后得到一個(gè)概率圖形,進(jìn)而得出一個(gè)球隊(duì)進(jìn)1個(gè)球的概率、進(jìn)2個(gè)球的概率、進(jìn)N個(gè)球的概率分別是多少:
而正是因?yàn)樽闱蚴菑?fù)雜多變的,不能僅僅用場均進(jìn)球來估計(jì)結(jié)果,因此我們通過球隊(duì)的場均進(jìn)球、場均失球、場均勝率、場均敗率、場均平率等數(shù)據(jù)來綜合估算出一個(gè)球隊(duì)的實(shí)力,當(dāng)然這個(gè)模型就各有各的算法,我們就取最簡單的“攻擊力”模型。
通過BI進(jìn)行分析和解釋
首先就是解決數(shù)據(jù)的問題,好在所有國家隊(duì)的數(shù)據(jù)都可以從網(wǎng)上進(jìn)行下載,然后在excel中計(jì)算出每個(gè)球隊(duì)進(jìn)球的泊松概率:
然后我們將數(shù)據(jù)導(dǎo)入到專業(yè)的數(shù)據(jù)分析軟件FineBI中,進(jìn)行進(jìn)一步的數(shù)據(jù)清洗和處理,首先就是對數(shù)據(jù)進(jìn)行數(shù)據(jù)合并,按照世界杯小組賽的分組將不同的數(shù)據(jù)進(jìn)行合并,組建出“某隊(duì)對戰(zhàn)某隊(duì)”的數(shù)據(jù)格式,然后利用我們的“攻擊力”模型,導(dǎo)入數(shù)據(jù)函數(shù)新建出幾個(gè)數(shù)據(jù)列,表示球隊(duì)的進(jìn)攻力指數(shù):
具體過程這里就不贅述了,數(shù)據(jù)清洗階段結(jié)束后就要對數(shù)據(jù)進(jìn)行可視化分析了,利用FineBI的可視化操作界面可以很輕松的組合出我們想要的數(shù)據(jù),比如身價(jià)對比、奪冠對比、凈勝球?qū)Ρ鹊鹊?,最終美化一下就可以呈現(xiàn)出這樣的效果:
預(yù)測出線概率詳解
最重點(diǎn)的是我們根據(jù)“進(jìn)攻力指數(shù)”估算出了每個(gè)球隊(duì)的進(jìn)攻強(qiáng)度,然后利用泊松概率就可以算出每場比賽球隊(duì)最可能的比分,這里我們用場均進(jìn)球展示:
表中像卡塔爾這種第一次參加世界杯的國家,因?yàn)槿鄙贇v史數(shù)據(jù)參考,因此只能根據(jù)亞洲成績將攻擊力人為地設(shè)定一個(gè)值,所以是比實(shí)際實(shí)力要虛高的。
我們可以以G組為例,表格中的數(shù)據(jù)展示,喀麥隆對瑞士的凈勝球大概率為-0.57,而瑞士對喀麥隆的凈勝球大概率為0.71,即雙方差距1.28個(gè)球;而現(xiàn)實(shí)結(jié)果中,瑞士與喀麥隆的成績是1:0,與數(shù)據(jù)預(yù)測的相差無幾;
這時(shí)候我們再來看一看為什么說開頭的那三場比賽,冷門的離譜:
數(shù)據(jù)預(yù)測,阿根廷對沙特的凈勝球大概率為3.29,比分預(yù)測為3:0,而實(shí)際結(jié)果是1:2落??;
德國對日本的凈勝球大概率為2.48,比分預(yù)測為2:0,而實(shí)際結(jié)果是1:2落??;
烏拉圭對韓國的凈勝球大概率為1.06,比分預(yù)測為1:0小勝,而實(shí)際結(jié)果確實(shí)0:0被韓國逼平;
根據(jù)其他專業(yè)機(jī)構(gòu)的預(yù)測數(shù)據(jù)現(xiàn)實(shí),賽前沙特戰(zhàn)勝阿根廷的勝利不足1%,然而種種因素卻造就了本屆世界杯上最大最大的冷門,也讓阿根廷人品嘗了亞洲足球的苦果。
用這個(gè)模型繼續(xù)推導(dǎo)可以模型出最終淘汰賽的最終結(jié)果,這里因?yàn)橄到y(tǒng)還需要優(yōu)化就沒有繼續(xù)推導(dǎo),但是在finebi里計(jì)算了一下,結(jié)果顯示巴西本屆世界杯奪冠的概率是最大的,概率與前幾天瘋狂流傳的大數(shù)據(jù)機(jī)構(gòu)預(yù)測機(jī)構(gòu)相差不多:
此外我還做了一些其他有意思的數(shù)據(jù)統(tǒng)計(jì),比如球員身價(jià)統(tǒng)計(jì):
冠亞軍數(shù)量對比:
國家隊(duì)平均年齡對比:
加納平均年齡只有24歲,絕對的青春風(fēng)暴;而西班牙也只有25歲,這支斗牛士軍團(tuán)正在更新?lián)Q代的關(guān)鍵期,以加維為代表將繼續(xù)扛起伊比利亞足球的大旗;
巴西、比利時(shí)、阿根廷、克羅地亞的平均年齡都在27歲以上,陣中老將非常多,如內(nèi)馬爾、德布勞內(nèi)、莫德里奇、梅西、迪馬利亞等足球歷史上閃耀的明星,都已進(jìn)入了職業(yè)生涯末期,世人最不肯見英雄遲暮,但他們都將為了自己一生的理想而拼盡最后一秒。
數(shù)據(jù)是冰冷的,足球是溫暖的,數(shù)據(jù)預(yù)測并不能取代和代表現(xiàn)實(shí),贏負(fù)勝敗并不全部,真正讓我們著迷的是場上的22名球員、與場下的教練、球迷一起為追求理想而不斷敲開緊閉的大門,奮力揭開幸運(yùn)女神身上冰冷的面紗,而這正是足球、正是世界杯的魅力所在。
因?yàn)?,我們愛足球?dāng)然不是愛他的成敗,我們愛的就是那種氣質(zhì),不是嗎?
掃描二維碼推送至手機(jī)訪問。
版權(quán)聲明:本文由財(cái)神資訊-領(lǐng)先的體育資訊互動(dòng)媒體轉(zhuǎn)載發(fā)布,如需刪除請聯(lián)系。