數(shù)據(jù)分析實(shí)例——足球運(yùn)動(dòng)員數(shù)據(jù)集(1)
又開始做實(shí)例了~在本次數(shù)據(jù)集中,包含了2017年所有活躍的足球運(yùn)動(dòng)員的個(gè)人數(shù)據(jù),包括身高體重等基本數(shù)據(jù),以及力量、速度、技巧等多個(gè)指標(biāo)。C羅、梅西、內(nèi)馬爾,到底誰比較厲害呢?答案我們可以從數(shù)據(jù)中獲得。(有意思~)
數(shù)據(jù)來源:
本次數(shù)據(jù)集的來源是kesci,提供者是Ustinian,想自己動(dòng)手試試的同學(xué)可以去了解一下~
下面開始我們的實(shí)例學(xué)習(xí)之路~
一、了解數(shù)據(jù)集
下面是和鯨社區(qū)中,對(duì)數(shù)據(jù)集的描述,主要包括了:數(shù)據(jù)集的主要內(nèi)容、以及數(shù)據(jù)內(nèi)的各個(gè)標(biāo)簽的中文注釋。
(1)數(shù)據(jù)內(nèi)容:
2017年所有活躍的足球運(yùn)動(dòng)員。
(2)數(shù)據(jù)說明(標(biāo)簽名):
Name 姓名
Nationality 國籍
National_Position 國家隊(duì)位置
National_Kit 國家隊(duì)號(hào)碼
Club 所在俱樂部
Club_Position 所在俱樂部位置
Club_Kit 俱樂部號(hào)碼
Club_Joining 加入俱樂部時(shí)間
Contract_Expiry 合同到期時(shí)間
Rating 評(píng)分
Height 身高
Weight 體重
Preffered_Foot 擅長左(右)腳
Birth_Date 出生日期
Age 年齡
Preffered_Position 擅長位置
Work_Rate 工作效率
Weak_foot 非慣用腳使用頻率
Skill_Moves 技術(shù)等級(jí)
Ball_Control 控球技術(shù)
Dribbling 盤球(帶球)能力
Marking 盯人能力
Sliding_Tackle 鏟球
Standing_Tackle 逼搶能力
Aggression 攻擊能力
Reactions 反擊
Attacking_Position 攻擊性跑位
Interceptions 搶斷
Vision 視野
Composure 鎮(zhèn)靜
Crossing 下底傳中
Short_Pass 短傳
Long_Pass 長傳
Acceleration 加速度
Speed 速度
Stamina 體力
Strength 強(qiáng)壯
Balance 平衡
Agility 敏捷度
Jumping 跳躍
Heading 投球
Shot_Power 射門力量
Finishing 射門
Long_Shots 遠(yuǎn)射
Curve 弧線
Freekick_Accuracy 任意球精準(zhǔn)度
Penalties 點(diǎn)球
Volleys 凌空能力
GK_Positioning 門將位置感
GK_Diving 撲救能力
GK_Kicking 門將踢球能力
GK_Handling 撲球脫手幾率
GK_Reflexes 門將反應(yīng)度(3)導(dǎo)入數(shù)據(jù):
(4)查看數(shù)據(jù)基本信息:


查看數(shù)據(jù)缺失情況:

從運(yùn)行結(jié)果可以看到,出現(xiàn)數(shù)據(jù)缺失的特征總共有六列,而主要缺失的有兩列,分別是:National_Position 國家隊(duì)位置、National_Kit 國家隊(duì)號(hào)碼,出現(xiàn)缺失的原因,有可能是部分球員并沒有在國家隊(duì)里服役,因此也就沒有相應(yīng)的號(hào)碼和位置。同時(shí),由于‘Club 所在俱樂部’、‘Club_Position 所在俱樂部位置’、 ‘Club_Kit 俱樂部號(hào)碼’、 ‘Club_Joining 加入俱樂部時(shí)間 ’、‘Contract_Expiry 合同到期時(shí)間’這5項(xiàng)指標(biāo)也不在我們的研究范圍之內(nèi)。
因此,針對(duì)以上缺失值,我們不做處理。(對(duì)我們接下去的數(shù)據(jù)分析和可視化沒有影響的~)
二、進(jìn)行簡單數(shù)據(jù)分析
(1)查看球員的身高、體重的具體信息
首先我們使用head( )查看一下:

可以看到,我們的數(shù)據(jù)是帶有‘kg’、‘cm’等單位的,因此我們先對(duì)這些單位進(jìn)行移除,同時(shí)修改數(shù)據(jù)類型,以方便后面的操作。
(忘記應(yīng)該怎么做的同學(xué)可以看這里)
我們可以查看修改后的數(shù)據(jù):

使用agg()查看所有球員身高、體重的均值和最值:

可以看到,數(shù)據(jù)集中的球員平均身高達(dá)到了181cm、平均體重75kg。
上述操作的主要目的是想讓大家暖一下手,下面才是我們對(duì)這個(gè)球員數(shù)據(jù)集分析的真正開始。
作為非專業(yè)球員(嘻嘻,球迷or足球愛好者),我們當(dāng)然還是更想看看能不能從數(shù)據(jù)反映出球員的個(gè)人實(shí)力。所以下面我們就要進(jìn)行深入分析。
三、通過球員數(shù)據(jù),鑒定球員能力
在我們的球員數(shù)據(jù)集中,總共有這么兩項(xiàng)數(shù)據(jù):Rating 評(píng)分、Skill_Moves 技術(shù)等級(jí),這兩項(xiàng)數(shù)據(jù)就是我們的主要研究目標(biāo)。我們將圍繞這兩項(xiàng)數(shù)據(jù),建立研究需求。
研究需求:
分值(Rating)高低的評(píng)分依據(jù)是什么?如何構(gòu)建評(píng)分依據(jù)?
技術(shù)等級(jí)(Skill_Moves)的評(píng)價(jià)標(biāo)準(zhǔn)是什么?如何構(gòu)建評(píng)價(jià)標(biāo)準(zhǔn)?
對(duì)研究需求的初步解讀:
首先我們還是先對(duì)我們的目標(biāo)列加深認(rèn)知:
(1)分值(Rating):


可以看到,分值(Rating)這一目標(biāo)值是連續(xù)型的,總共有49個(gè)不同值。
(2)技術(shù)等級(jí)(Skill_Moves):


可以看到,技術(shù)等級(jí)(Skill_Moves)更像是分類型的,總共有1-5五個(gè)等級(jí)。
進(jìn)行球員分析前的須知:
總所周知,足球場上總共有11個(gè)球員,大致可以分為兩類,分別是:1個(gè)守門員,及非守門員(前鋒、中場、后衛(wèi)),守門員的能力與非守門員的能力肯定是有區(qū)別的,因此我們在通過球員數(shù)據(jù)鑒定球員能力時(shí),不能按照同一套標(biāo)準(zhǔn)。
對(duì)于守門員,我們更多的考究他的護(hù)框能力,與其他非守門員球員是截然不同的。
我們可以通過查看數(shù)據(jù),進(jìn)一步觀察守門員和非守門員能力的差異:
我們提取出7列特征:
Name 姓名Preffered_Position 擅長位置Speed 速度Finishing 射門Freekick_Accuracy 任意球精準(zhǔn)度Shot_Power 射門力量GK_Diving 撲救能力GK_Reflexes 門將反應(yīng)度接著,我們查看前五名球員的這些數(shù)值差距:

在上面五位球員中,前四位是非守門員,第五位是守門員。
從數(shù)值上,可以明顯看出區(qū)別。(忘記各個(gè)特征中文名的同學(xué)可以去上面看哦,我就不改數(shù)據(jù)表了)
下面開始正式分析球員能力值的評(píng)分標(biāo)準(zhǔn)~
1、守門員的評(píng)分標(biāo)準(zhǔn)
在數(shù)據(jù)集中,GK是表示守門員(門將)的意思,同時(shí),主要有5個(gè)特征用于衡量守門員的能力,分別是:
GK_Positioning 門將位置感GK_Diving 撲救能力GK_Kicking 門將踢球能力GK_Handling 撲球脫手幾率GK_Reflexes 門將反應(yīng)度因此,我們可以將這幾列特征提取出來,連同球員得分及技能等級(jí),繪制成一個(gè)新數(shù)據(jù)表——門將數(shù)據(jù)表。
查看表格情況:

查看一下技能等級(jí)(Skill_Moves)的分級(jí)情況:

可以看到,在所有守門員中,技術(shù)等級(jí)只有1和2兩個(gè)等級(jí)。
我們進(jìn)一步查看等級(jí)的個(gè)數(shù):

可以看到,在技術(shù)等級(jí)為1的球員有2002個(gè),等級(jí)為2的只有1個(gè),差距太大,這里其實(shí)L考慮過做數(shù)據(jù)平衡化,但是效果不是很好。
綜合考慮后,決定在考量守門員的能力時(shí),僅考慮分值(Rating)這一項(xiàng)數(shù)據(jù),不考慮技術(shù)等級(jí)(Skill_Moves)。
(由于在數(shù)據(jù)表中,球員的單項(xiàng)特征的得分越高,證明這名球員的這項(xiàng)能力更突出,也就是說,這里的特征均屬于數(shù)值類型,而不是類別型特征。因此,在這里我們不需要進(jìn)行one-hot獨(dú)熱編碼。)

下面,我們將結(jié)合這五項(xiàng)特征,使用機(jī)器學(xué)習(xí)的方法技巧進(jìn)行分析。(這里總共分為幾個(gè)部分,由于篇幅原因,可能會(huì)將所有內(nèi)容分為幾篇文章。)
一、回歸樹
首先,我們使用決策樹中的DecisionTreeRegressor(回歸樹)進(jìn)行分析。
1、將數(shù)據(jù)集分割成訓(xùn)練集和測試集
導(dǎo)入做決策樹相應(yīng)需要的包:
首先,將原數(shù)據(jù)集按特征和目標(biāo)進(jìn)行分割:

然后,使用train_test_split將數(shù)據(jù)分成訓(xùn)練集和測試集。
注意~在這里我們指定了拆分系數(shù)為0.3,也是說將7/10的數(shù)據(jù)作為訓(xùn)練集,剩下3/10的數(shù)據(jù)作為測試集。
下面開始建模,并進(jìn)行數(shù)據(jù)訓(xùn)練:
查看一下在測試集上的準(zhǔn)確度(將經(jīng)過訓(xùn)練集訓(xùn)練后的模型,應(yīng)用到測試集里,并查看擬合的得分情況)
可以看到,擬合度是比較高的,也就是說這里我們可以借助回歸樹對(duì)球員評(píng)分進(jìn)行預(yù)測。
2、同時(shí),我們也可以畫出決策樹.(但是如果考慮實(shí)際問題的話,這里其實(shí)并不建議這么做)
除此之外,我們也可以利用隨機(jī)森林回歸、線性回歸、邏輯回歸包括支持向量機(jī)等方法,進(jìn)行模型擬合及預(yù)測,當(dāng)然了,使用每種方法的步驟與注意點(diǎn)均有些許不同,這些我也將會(huì)在下次為大家說明。
以上便是<數(shù)據(jù)分析實(shí)例——足球運(yùn)動(dòng)員數(shù)據(jù)集(1)>的內(nèi)容,感謝大家的細(xì)心閱讀,同時(shí)歡迎感興趣的小伙伴一起討論、學(xué)習(xí),想要了解更多內(nèi)容的可以看我的其他文章,同時(shí)可以持續(xù)關(guān)注我的動(dòng)態(tài)~
掃描二維碼推送至手機(jī)訪問。
版權(quán)聲明:本文由財(cái)神資訊-領(lǐng)先的體育資訊互動(dòng)媒體轉(zhuǎn)載發(fā)布,如需刪除請(qǐng)聯(lián)系。