久久精品中文字幕免费_91香蕉国产亚洲一区二区三区_国产精品巨作无遮拦_亚洲人成电影

    <center id="oy65s"><ol id="oy65s"></ol></center>

  • <menu id="oy65s"></menu>
    當(dāng)前位置:首頁(yè) > 籃球資訊 > 正文內(nèi)容

    基于虎撲數(shù)據(jù)的中美籃球運(yùn)動(dòng)員熱度統(tǒng)計(jì)

    杏彩體育2年前 (2022-11-28)籃球資訊211

    1. 前言

    在互聯(lián)網(wǎng)這個(gè)汪洋大海中,有一個(gè)網(wǎng)站叫虎撲,據(jù)稱“可能是最好的籃球網(wǎng)站”?;湟浴皾窈鹾醢鍓K”為核心,集聚了大量的籃球運(yùn)動(dòng)愛(ài)好者。就像“濕乎乎”的字面意思一樣,虎撲里時(shí)不時(shí)會(huì)因?yàn)闊狳c(diǎn)實(shí)現(xiàn)事件、話題掀起海嘯一般的唾沫星子——這都是JRs爭(zhēng)論時(shí)噴出來(lái)的。以前,這個(gè)網(wǎng)站里有很多清涼圖片,年少的我每天逛得樂(lè)不思蜀。后來(lái),虎撲好像要做個(gè)好人,主要呈現(xiàn)體育運(yùn)動(dòng)相關(guān)相關(guān)信息,沒(méi)有啥刺激性內(nèi)容了。

    作為一個(gè)老JR,我在開(kāi)放區(qū)、步行街、濕乎乎潛行十幾年,發(fā)現(xiàn)大家最喜歡的話題,莫過(guò)于“誰(shuí)是最XX的”。假如說(shuō),我發(fā)一個(gè)帖子問(wèn)“姚明是當(dāng)時(shí)最厲害的中鋒嗎”,估計(jì)58秒內(nèi)會(huì)有4000個(gè)JRs提著40米的大刀前來(lái)發(fā)言?!白頧X”的話題中,最讓人欲罷不能的,當(dāng)屬“誰(shuí)是最紅的巨星”、“誰(shuí)是籃球界的門面”這類討論。由于大家沒(méi)有具體的數(shù)據(jù),只能憑感覺(jué)比較或者基于簡(jiǎn)介數(shù)據(jù)來(lái)佐證,這種討論沒(méi)辦法得出令所有人性福的結(jié)論。

    作為一個(gè)做NLP算法的JR,我利用手上的技能和工具,對(duì)虎撲最近若干個(gè)月的所有帖子(各大板塊的3160340個(gè)主貼和128162300個(gè)跟帖)進(jìn)行了簡(jiǎn)單的統(tǒng)計(jì),試圖給大家伙一個(gè)參考。我是這么做的:識(shí)別所有帖子中的人名,并統(tǒng)計(jì)每個(gè)人名的出現(xiàn)次數(shù),然后直接以名字的頻數(shù)作為對(duì)應(yīng)球員的熱度。這里使用的NER和分詞算法都來(lái)自阿帕比技術(shù)公司開(kāi)發(fā)的NLP工具包。

    本文的主要內(nèi)容是:首先介紹文本的目的和意義;然后直接給出結(jié)論,即誰(shuí)是最火的籃球運(yùn)動(dòng)員;接著介紹從數(shù)據(jù)獲取到得出結(jié)論的整個(gè)過(guò)程,包括必要的軟件系統(tǒng)設(shè)計(jì)與開(kāi)發(fā)、數(shù)據(jù)的基本情況和數(shù)據(jù)統(tǒng)計(jì)的具體方法,以說(shuō)明結(jié)論的合理性。

    2. 目的和意義

    我做這個(gè)分析的首要目的,是想調(diào)查一下,中國(guó)男子職業(yè)籃球聯(lián)賽(China Basketball Association, CBA)在國(guó)內(nèi)的受眾廣度。另外,我也想知道CBA的發(fā)展階段,比如相比NBA,其受眾廣度的大小。這是好奇心驅(qū)動(dòng)的一個(gè)項(xiàng)目。

    其次,在這個(gè)過(guò)程中,把數(shù)據(jù)采集、目標(biāo)范圍定義、數(shù)據(jù)清洗、建模、可視化等等環(huán)節(jié)——都玩耍一下。是的,工作一般來(lái)說(shuō)比較枯燥,各種形式的玩??梢哉{(diào)劑一下。

    再次,我需要一個(gè)形式,把目前的思維方式、方法論、技術(shù)水平等等記錄下來(lái),以便以后復(fù)盤和優(yōu)化。

    最后,這種分享行為是學(xué)術(shù)公益活動(dòng)的一種,可以幫很多需要入門的人避免踩坑。

    3. 誰(shuí)是虎撲籃球熱度南波萬(wàn)

    在虎撲,誰(shuí)是最火的籃球運(yùn)動(dòng)員?是無(wú)極尊嗎?廢話少說(shuō),先上結(jié)論。

    3.1. 中美籃球職業(yè)籃球運(yùn)動(dòng)員熱度排行榜

    3.1.1. 中美明星球員熱度比較

    如表3-1,是中國(guó)職業(yè)男子籃球聯(lián)賽和美國(guó)職業(yè)男子籃球聯(lián)賽本賽季注冊(cè)運(yùn)動(dòng)員的熱度排行前20名(可視為中美籃球明星)。中美籃球明星榜被美職籃球員統(tǒng)治了——只有4位CBA球員進(jìn)入了這個(gè)榜單,他們是新疆飛虎隊(duì)的周琦、廣東華南虎隊(duì)的易建聯(lián)、遼寧飛豹隊(duì)的郭艾倫和北京鴨隊(duì)的林書(shū)豪。

    表 3-1中美現(xiàn)役籃球運(yùn)動(dòng)員熱度排行top 20

    從明星球員的公司情況可以看出,在虎撲網(wǎng),中職籃明星球員的熱度大幅度地低于美職籃明星球員。按理說(shuō),虎撲作為一個(gè)中文體育網(wǎng)站,是我們的主場(chǎng),中職籃應(yīng)該向朱芳雨一樣,輕輕松松“一拳打開(kāi)了天”,如圖3-1。實(shí)際情況是,美職籃依靠其更高的經(jīng)濟(jì)水平和觀賞性,以及更高的運(yùn)營(yíng)和推廣能力,統(tǒng)治了我們的主場(chǎng)。中職籃產(chǎn)生流量的能力水平其實(shí)是比較菜的,類似圖3-2。

    圖 3-1 朱8化身為龍(圖片來(lái)源http://mini.eastday.com/mobile/191023171648625.html)
    圖 3?2 我們的真實(shí)水平(圖片來(lái)源www.fabiaoqing.com)

    3.1.2. 中美普通球員熱度比較

    籃球是一項(xiàng)集體運(yùn)動(dòng),不只有璀璨的明星,更多的是普通球員。在中美的普通球員之間,有沒(méi)有類似明星球員那樣的熱度差距呢?如圖3-3,是中職籃和美職籃球員熱度的箱型圖。由于普通球員的熱度相對(duì)明星球員非常低,我的“箱子”被壓得非常扁,肉眼看不出來(lái)最廣大人民的情況。

    圖 3?3 中美球員熱度分布對(duì)比

    這時(shí)候,我們可以用直方圖來(lái)分析一下。如圖3-4,有4個(gè)子圖,其中左邊一列是中職籃和美職籃全體球員的熱度直方圖。我又截取了兩個(gè)聯(lián)盟里熱度值小于等于90分位數(shù)的球員數(shù)據(jù),形成了圖3-4里右邊一列子圖。

    圖3-4左邊一列子圖告訴我們,中職籃和美職籃都是明星當(dāng)?shù)?,少?shù)高水平球員產(chǎn)生了絕大部分的熱度。剩下的都是默默無(wú)聞的普通球員。注意右邊一列子圖橫軸的取值范圍,中職籃的普通球員熱度,比美職籃的普通球員熱度低了一個(gè)數(shù)量級(jí)。

    看來(lái)我們和人家的差距,是全方位的。

    圖表 3?4 中美球員熱度直方圖

    總的來(lái)說(shuō),我國(guó)運(yùn)動(dòng)員的熱度,在一個(gè)國(guó)內(nèi)網(wǎng)友為主的論壇里,是低于美職籃運(yùn)動(dòng)員的。

    3.2. CBA人物熱度榜

    如表3-2,是中職籃球員的熱度排行。我已經(jīng)多年不看球了,這個(gè)榜單中的一小部分名字不熟、大部分球員不熟,只挑幾個(gè)熟悉的說(shuō)說(shuō)。周琦在CBA球員中的領(lǐng)先優(yōu)勢(shì),比“美國(guó)周琦”在NBA球員中的領(lǐng)先優(yōu)勢(shì)要大得多。易建聯(lián)、孫悅、周鵬這幾個(gè)老家伙,依然具有明星級(jí)別的熱度。其中易建聯(lián)依靠不懈的努力,依然具有頂尖的競(jìng)技水平。 林書(shū)豪作為當(dāng)年在NBA的“黃人之光”,受到了極高的關(guān)注。到了CBA,他直接成為聯(lián)盟里最火熱的球星。從這里也能看出我們的聯(lián)賽,在推廣方面,可以提升的空間還是很大的。小霸王斯塔德邁爾依靠在美職籃的野獸派+技術(shù)流打法,有著不錯(cuò)的人氣,也進(jìn)入了前20。

    有個(gè)現(xiàn)象還是挺好的。這里絕大部分是我們的本土球員,說(shuō)明大家關(guān)注的,主要還是自己人。不論水平如何,咱們對(duì)國(guó)內(nèi)球員的支持還是一如既往,希望依靠自己人來(lái)提升我國(guó)籃球的競(jìng)技水平。

    中職籃和美職籃這兩個(gè)商業(yè)體育賽事的熱度,主要還是靠明星球員來(lái)產(chǎn)生。人們圍繞這些明星球員創(chuàng)作了各種各樣的概念和梗,讓體育比賽更有故事性、從而進(jìn)入球迷的茶余飯后。作為一個(gè)產(chǎn)品,體育賽事的用戶粘性也就得到了提升。中職籃要加油了,我們的比賽、球員水平需要提升,讓球迷們感覺(jué)這是個(gè)具有美感的體育賽事;也需要用球隊(duì)文化、故事之類的東西包裝一下我們的球員,讓他們可以成為球迷們口頭禪的一部分。

    表 3-2 中職籃球員熱度排行top20

    3.3. NBA人物熱度榜

    如表3-3,是美職籃球員熱度排行榜。老詹球場(chǎng)上實(shí)力超群,場(chǎng)下也是“流量皇帝”,熱度值大幅領(lǐng)先于他的同事。據(jù)我所知,在濕乎乎里隨便發(fā)一個(gè)關(guān)于老詹的帖子,就可以收割曝光量了。雷霆三兄弟不光都成為了了最有價(jià)值球員,還都成了最具熱度球員。三弟的排行超過(guò)了大哥,看來(lái)好平臺(tái)的作用還是非常大的。萊昂納德依靠高超的技藝,和最近幾年的爭(zhēng)議性事件,也積累了極高的人氣,竟然能排在威少的前面,把雷霆仨兄弟給分開(kāi)。

    這里有一個(gè)比較明顯的問(wèn)題,就是金州勇士隊(duì)的庫(kù)里沒(méi)有進(jìn)入top20。他的熱度竟然排在了第76位,不尋常。主要原因是我的球員名字?jǐn)?shù)據(jù)庫(kù)構(gòu)建的不完整,沒(méi)有收錄類似“庫(kù)日天”“庫(kù)昊”“小學(xué)生”“金州拉文”“萌庫(kù)”這樣的別稱。眾所周知,庫(kù)里的球迷特別喜歡為庫(kù)里其各種各樣的綽號(hào),比如用“庫(kù)日天”來(lái)表達(dá)對(duì)庫(kù)里精湛的投籃技術(shù)的贊美。漏掉了這些別稱的后果,就是這位球員的熱度被大大低估了。由于任務(wù)架構(gòu)設(shè)計(jì)失誤,沒(méi)有保存人名抽取的中間結(jié)果,再算一遍的成本抬高,我這里就不重算啦。

    表 3-3 美職籃球員熱度排行top20

    3.4. 特色球員簡(jiǎn)介

    我發(fā)現(xiàn)了虎撲里流量最高的籃球運(yùn)動(dòng)員,是時(shí)候蹭一波熱度了。這時(shí)候,我需要發(fā)揮比大師那種鉆研精神,好好地研究一下他們。

    說(shuō)什么最吸引流量呢?當(dāng)然是有爭(zhēng)議性的話題。這里就選最具爭(zhēng)議性的話題:球星的梗。

    3.4.1. 流量皇帝勒布朗-詹姆斯

    果然,詹姆斯在現(xiàn)役籃球運(yùn)動(dòng)員中,是熱度最高的。

    由于沒(méi)有統(tǒng)計(jì)退役球員的數(shù)據(jù),沒(méi)有考慮喬丹、科比這樣的流量達(dá)人,這里只能說(shuō)“現(xiàn)役”。

    如果這是篇學(xué)術(shù)論文,我會(huì)把詹姆斯的幾十個(gè)綽號(hào)全都收錄并展示出來(lái)。然而這是個(gè)“技術(shù)討論貼”,不利于大家團(tuán)結(jié)的內(nèi)容就不展示了(一些極端球迷使用了不和諧的措辭,給詹姆斯起了大量涉及人身攻擊的綽號(hào)),這里只展示圍繞生活和籃球的部分綽號(hào)。

    表3-4 詹姆斯的外號(hào)與梗

    如圖,我統(tǒng)計(jì)了老詹今年(實(shí)際是從2018年末開(kāi)始,但是這個(gè)階段的數(shù)據(jù)缺失太多)3月份以來(lái),每一個(gè)周的熱度情況。由于代碼的bug,我的聚合操作,是按照“周五-下周四”這樣的時(shí)間范圍來(lái)做的。為了避免這幾臺(tái)機(jī)器的運(yùn)轉(zhuǎn),造成我家氣溫繼續(xù)上升,我決定不重算啦。統(tǒng)計(jì)的bug不影響曲線所要表達(dá)的內(nèi)容。

    今年湖人隊(duì)沒(méi)有進(jìn)入季后賽,所以老詹的熱度在相應(yīng)時(shí)間段里比較低,和“長(zhǎng)草期”差不多。七月份時(shí),老詹的熱度突然升高了一下。當(dāng)時(shí)濃眉哥快要轉(zhuǎn)會(huì)到湖人隊(duì),大家都在關(guān)注這支球隊(duì)、討論濃眉能否成功轉(zhuǎn)會(huì)。十月中下旬開(kāi)始,由于新賽季馬上就要開(kāi)始,老詹的熱度一下就上來(lái)了。

    可以說(shuō),球員的熱度主要依靠比賽帶來(lái)的曝光量來(lái)維持。

    圖 3?5 2019年老詹的熱度變化(每周)

    3.4.2. 男籃旗幟易建聯(lián)

    易建聯(lián)是中國(guó)男籃歷史上難得的一號(hào)人物,不論是國(guó)內(nèi)比賽,還是國(guó)際比賽,都能火力全開(kāi)。當(dāng)然他從早期的一個(gè)身體素質(zhì)男,一步步成長(zhǎng)為后姚明時(shí)代的帶頭大哥,也是有一個(gè)過(guò)程的。

    表 3-5易建聯(lián)的外號(hào)和梗

    3.4.3. 奇男子克里斯-保羅

    這位奇男子,如圖3-6,在傳奇的職業(yè)生涯里,積累了無(wú)數(shù)名號(hào),如表3-6。如此之多的梗,足以體現(xiàn)廣大球迷對(duì)保羅的關(guān)注程度之高。

    圖 3?6 克里斯-保羅(圖片來(lái)源https://www.zhihu.com/question/321529580)

    表 3-6保羅的常見(jiàn)稱號(hào)

    4. 數(shù)據(jù)處理系統(tǒng)的設(shè)計(jì)和開(kāi)發(fā)

    知乎和虎撲都有點(diǎn)類似草榴社區(qū)的“技術(shù)討論區(qū)”,沒(méi)有干貨的人是混不開(kāi)的。接下來(lái)是方法和技術(shù)方面的干貨。

    4.1. 任務(wù)需求分析

    為了知道誰(shuí)是虎撲籃球熱度第一人,我需要一份虎撲數(shù)據(jù),需要從數(shù)據(jù)中識(shí)別出命名實(shí)體并做簡(jiǎn)單的計(jì)數(shù)。為此,我需要3個(gè)工具:(1)一個(gè)用來(lái)獲取虎撲帖子數(shù)據(jù)的爬蟲(chóng);(2)一個(gè)用于從文本中抽取人的名字的工具;(3)一個(gè)用來(lái)對(duì)人名進(jìn)行個(gè)數(shù)統(tǒng)計(jì)和可視化的工具。如圖2-1,是用于完成任務(wù)的系統(tǒng)結(jié)構(gòu)。

    為了確保這個(gè)任務(wù)在可接受的時(shí)間內(nèi)結(jié)束,我需要估計(jì)一下各個(gè)環(huán)節(jié)的耗時(shí):

    (1) 數(shù)據(jù)獲取大概需要10天。這段時(shí)間里我可以開(kāi)發(fā)調(diào)試命名實(shí)體識(shí)別環(huán)節(jié)和數(shù)據(jù)統(tǒng)計(jì)分析環(huán)節(jié)的代碼,并完成報(bào)告的大綱和部分內(nèi)容的撰寫。

    (2) 之后,就需要盡快完成命名實(shí)體識(shí)別任務(wù)。數(shù)據(jù)是2019年3月11日21點(diǎn)41分開(kāi)始至XXXX的所有帖子,包括大約300萬(wàn)篇主貼加1.2億回帖(平均每個(gè)帖子里的回帖數(shù)量大約是40),總共約1.23億條數(shù)據(jù)。假設(shè)每條數(shù)據(jù)的處理速度是50毫秒,就需要兩個(gè)月。這怎么行,都跨年了。必須想辦法提升任務(wù)的并行度,降低耗時(shí)。

    (3) 剩下的就是一個(gè)頻率統(tǒng)計(jì)任務(wù),也許3秒就夠了。

    圖 4?1 數(shù)據(jù)處理系統(tǒng)結(jié)構(gòu)

    4.2. 爬蟲(chóng)及獲取虎撲數(shù)據(jù)概況

    4.2.1. 爬蟲(chóng)

    我是個(gè)野生的爬蟲(chóng)選手,無(wú)力開(kāi)發(fā)一套高水平的爬蟲(chóng),因此選擇依靠開(kāi)源框架。這里選擇的是python的爬蟲(chóng)類第三方庫(kù)中,最受歡迎的scrapy。

    還在學(xué)校的時(shí)候,我花了超過(guò)一個(gè)月的時(shí)間開(kāi)發(fā)了一個(gè)用來(lái)下載虎撲數(shù)據(jù)的爬蟲(chóng)。后來(lái)又對(duì)爬蟲(chóng)做了幾次升級(jí)。然而2018年下半年,虎撲的頁(yè)面數(shù)據(jù)結(jié)構(gòu)發(fā)生了變動(dòng),我需要對(duì)爬蟲(chóng)進(jìn)行大改。然而我是個(gè)打工仔,沒(méi)有那么多的時(shí)間搞這個(gè),只能作罷。后來(lái)聽(tīng)同事軍偉大哥說(shuō),他基于scrapy開(kāi)發(fā)爬蟲(chóng)可順手了,于是我也調(diào)研了一下。果然是真香——過(guò)年的時(shí)候,我一邊陪孩子玩,一邊從零開(kāi)始重寫,不到一個(gè)禮拜就完工了。當(dāng)然了,這里還需要感謝lxml這個(gè)庫(kù),它通過(guò)支持xpath語(yǔ)法,極大地減少了我們解析html的工作量。

    爬蟲(chóng)的結(jié)構(gòu)非常簡(jiǎn)單:獲取數(shù)據(jù),然后存到mongo中。由于不清楚分享爬蟲(chóng)代碼算不算違法,代碼就不分享了。

    獲取的數(shù)據(jù)包括兩部分:帖子的主貼和對(duì)應(yīng)的回帖。

    4.2.2. 虎撲帖子文本數(shù)據(jù)基本情況

    如表4-1,是爬蟲(chóng)獲取到的數(shù)據(jù)概況??赡芑鋽?shù)據(jù)庫(kù)的content字段類型為varchar,最大長(zhǎng)度為19999,因此主貼和跟帖的最大長(zhǎng)度接近或等于這個(gè)數(shù)。

    主貼字?jǐn)?shù)的中位數(shù)是66,說(shuō)明大家發(fā)帖的時(shí)候,還是比較勤快的,為了闡述自己的想法或者疑問(wèn),愿意費(fèi)一點(diǎn)口舌。

    跟帖的字?jǐn)?shù)中位數(shù)是19,說(shuō)明JRs喜歡一句話解決戰(zhàn)斗。據(jù)我目測(cè),濕乎乎的網(wǎng)友說(shuō)話很少能到這個(gè)字?jǐn)?shù)。

    表 4-1 數(shù)據(jù)獲取結(jié)果概況

    4.3. 命名實(shí)體識(shí)別工具

    4.3.1. 選擇一個(gè)合適的人名識(shí)別方法

    文本中的人名識(shí)別,是命名實(shí)體識(shí)別任務(wù)的一種具體情形,可以使用NER的方法來(lái)實(shí)現(xiàn)。這是一個(gè)典型的計(jì)算密集型任務(wù),最好使用Spark這樣 分布式框架來(lái)處理數(shù)據(jù)量較大的情況。不過(guò)呢,我的Hadoop集群已經(jīng)被自己弄壞了,恢復(fù)起來(lái)需要一段時(shí)間,修完也就跨年了。因此,這里使用了一個(gè)搭建

    NER方案的制定過(guò)程說(shuō)來(lái)話長(zhǎng),放在第5部分。

    4.3.2. 用HTTP服務(wù)封裝NER模型

    前面提到,NER環(huán)節(jié)的耗時(shí)會(huì)非常長(zhǎng),需要想辦法提升并行度。由于模型加載到內(nèi)存里需要占大約500兆的內(nèi)存,24G內(nèi)存里最多放48個(gè)進(jìn)程,也就是最快24小時(shí)可以完成計(jì)算——不過(guò)CPU核心數(shù)只有8,進(jìn)程再多也沒(méi)用。因此,我這個(gè)估算是極度樂(lè)觀的,實(shí)際操作中的耗時(shí)肯定遠(yuǎn)遠(yuǎn)超過(guò)24小時(shí),而且不可控。

    為了保證任務(wù)耗時(shí)可控,我決定用一個(gè)簡(jiǎn)單的分布式架構(gòu)來(lái)處理這些數(shù)據(jù):在僅有的3臺(tái)機(jī)器上部署NER服務(wù),然后并發(fā)地、以一個(gè)設(shè)計(jì)好的概率分布調(diào)用集群?,F(xiàn)在的資源是:24G+16G+8G=48G,8+12+24=44個(gè)CPU核心。這樣,一秒鐘可以處理約4500篇個(gè)文檔,一天就是”2億”,應(yīng)該是夠了。樂(lè)觀情況下,半天計(jì)算完畢。如果實(shí)際情況不樂(lè)觀,那就把家里的筆記本也加到集群里。分布式架構(gòu)的可擴(kuò)展性還是挺有幫助。

    經(jīng)過(guò)仔細(xì)優(yōu)化的集群,實(shí)際用了8個(gè)小時(shí)就處理完全部數(shù)據(jù)。當(dāng)時(shí)我家室內(nèi)氣溫明顯上升。

    5. 人名識(shí)別方案

    用來(lái)識(shí)別文本中的人名方法非常多,可以參考

    統(tǒng)計(jì)人名頻數(shù)任務(wù)看起來(lái)是最簡(jiǎn)單的任務(wù),實(shí)際上是我花時(shí)間最多的一個(gè)環(huán)節(jié)。

    我需要回答一個(gè)問(wèn)題:如何判斷文本中的一個(gè)字符串是否為人名。我的“答案”經(jīng)過(guò)多次修改,終于成熟了。

    當(dāng)然,“真理”是值得追求的。在這個(gè)任務(wù)中,我只能在成本允許的情況下盡量接近他啦。

    5.1. 初步的人名統(tǒng)計(jì)方法

    一開(kāi)始的時(shí)候,我選擇的是一個(gè)基于神經(jīng)網(wǎng)路的NER模型。使用神經(jīng)網(wǎng)絡(luò)的原因主要是兩個(gè):首先是我已經(jīng)有一個(gè)成熟的NER模型了;其次,神經(jīng)網(wǎng)絡(luò)高級(jí)啊,說(shuō)起來(lái)倍兒有面子。

    這個(gè)模型是阿帕比技術(shù)公司自己開(kāi)發(fā)NLP工具集中的一個(gè)模塊,如果想體驗(yàn)這個(gè)模型,可以到這里看一下:

    。這個(gè)模型對(duì)中文人名、音譯人名的識(shí)別能力非常強(qiáng),F(xiàn)1-score超過(guò)了0.9。由于訓(xùn)練語(yǔ)料里沒(méi)有外文人名,我的模型無(wú)法識(shí)別“Yao Ming”這樣的外文人名。這里選擇忽略所有沒(méi)有以中文表達(dá)的人名。這樣做的損失是比較小的——虎撲里活躍的絕大部分人是中國(guó)人,極少使用外文來(lái)稱呼一個(gè)人,比如我們很少稱呼邁克爾-喬丹為“Jordan”(一般是喬丹、幫主、籃球之神、GOAT等)。

    我用一份比較小的數(shù)據(jù)進(jìn)行了人名統(tǒng)計(jì)。在看統(tǒng)計(jì)結(jié)果的時(shí)候,我發(fā)現(xiàn)機(jī)器找出來(lái)的人名中,絕大部分不是籃球運(yùn)動(dòng)員——難不成還要把這幾百個(gè)人的頻數(shù)挑出來(lái)?

    這樣做的成本有點(diǎn)高,而且萬(wàn)一數(shù)據(jù)處理流程有Bug、需要重新計(jì)算一遍,成本會(huì)更高。另外,基于神經(jīng)網(wǎng)絡(luò)的模型計(jì)算效率太低了,處理完整的數(shù)據(jù)集需要十幾天。成本要爆炸了,不可行。

    我得仔細(xì)琢磨一下這個(gè)場(chǎng)景,看看還有沒(méi)有更好的選擇。

    5.2. 更好一點(diǎn)的統(tǒng)計(jì)方法

    實(shí)際上,這個(gè)任務(wù)是一個(gè)典型的詞語(yǔ)集合受控的場(chǎng)景:我只需要統(tǒng)計(jì)籃球運(yùn)動(dòng)員的名字,其他的可以采取類似多諾萬(wàn)教練的態(tài)度(可參考“我跟他不熟”)。這種場(chǎng)景非常適合使用基于詞典的NER方法。

    這樣的話,我這個(gè)方案就簡(jiǎn)單了,需要解決兩個(gè)問(wèn)題:(1)人名詞庫(kù)的設(shè)計(jì)和建設(shè);(2)找到文本與人名詞庫(kù)的匹配方法。

    5.2.1. 籃球人物姓名數(shù)據(jù)庫(kù)設(shè)計(jì)和構(gòu)建

    籃球運(yùn)動(dòng)員的個(gè)人資料非常好找:

    CBA運(yùn)動(dòng)員信息的數(shù)據(jù)源為

    NBA運(yùn)動(dòng)員信息的數(shù)據(jù)源是

    如圖5-1,是虎撲網(wǎng)的球隊(duì)信息中,球員部分。對(duì)中國(guó)球員,所有球員的姓名全稱(比如“易建聯(lián)”)收錄到詞庫(kù)中,其中一部分我個(gè)人比較熟悉的球員配備了別稱(比如“阿聯(lián)”、“太空易”)。對(duì)外國(guó)球員,所有球員的姓名全稱(例如”索尼-威姆斯”,“索尼威姆斯”)收錄到詞庫(kù),部分稀少、或不存在歧義的姓(比如“詹姆斯”通常指勒布朗-詹姆斯)作為對(duì)應(yīng)球員的別稱收錄到詞典,部分我個(gè)人比較熟悉的球員配備了盡量齊全的別稱。

    這個(gè)詞典里實(shí)際上存在幾種偏見(jiàn):

    (1) 首先,類似勒布朗-詹姆斯獨(dú)占“詹姆斯”這個(gè)姓氏作為別稱的做法,是對(duì)其他小眾、姓氏同為“詹姆斯”的球員的不公平。這樣做會(huì)把這些小眾球員的一點(diǎn)數(shù)據(jù)轉(zhuǎn)移到勒布朗-詹姆斯的身上,導(dǎo)致一種強(qiáng)者更強(qiáng)的結(jié)果。

    (2) 我個(gè)人越熟悉的球員,具有越詳盡的別稱,可以以更高的查全率統(tǒng)計(jì)得到更精準(zhǔn)的熱度。其他球員的熱度則或多或少地被低估了。

    (3) 由于我個(gè)人的喜好,一些別稱沒(méi)有被收錄到詞庫(kù)中,導(dǎo)致相關(guān)球員的熱度值被低估了。黑粉也是粉嘛,帶來(lái)的也是流量。

    圖 5?1 虎撲的CBA球員信息

    這兩份數(shù)據(jù)已經(jīng)整理為結(jié)構(gòu)化數(shù)據(jù),存儲(chǔ)在excel文件中:

    人名庫(kù)構(gòu)建的主要工作是球員別稱的收集整理。在任務(wù)的過(guò)程中,首先基于領(lǐng)域知識(shí),即對(duì)籃球運(yùn)動(dòng)員的了解,構(gòu)建了人名數(shù)據(jù)庫(kù)的字段,并添加了一部分別稱;其次,基于那個(gè)用神經(jīng)網(wǎng)絡(luò)做的NER模型,找了一大堆人名,然后從中找了一些別稱;另外,我又從論壇、搜索引擎里收集了一部分別稱。

    5.2.2. 人名匹配方法

    按照直覺(jué),我們可以使用子字符串匹配算法來(lái)統(tǒng)計(jì)人名,這樣做起來(lái)簡(jiǎn)單。

    不過(guò)呢,這樣做會(huì)遇到嚴(yán)重的歧義問(wèn)題。比方說(shuō),“我想叫姚明天過(guò)來(lái)給大家展示一下投籃”這句話中,“姚”這個(gè)字指的是姚明,“明天”是一個(gè)時(shí)間。如果使用自字符串匹配,我們就稀里糊涂的把“明天”拆開(kāi)了。這個(gè)例子里只是碰巧對(duì)了。如何避免歧義的干擾呢?

    我選擇使用分詞的方式,基于語(yǔ)言模型將文本切分為一個(gè)個(gè)小單元,然后與人名詞庫(kù)比對(duì)、找人名。語(yǔ)言模型可以基于對(duì)語(yǔ)法、語(yǔ)義的了解,把類似“姚明天”這樣的字詞精準(zhǔn)切分開(kāi)。這里使用了一個(gè)基于最短路徑求解的馬爾科夫模型分詞工具(也是阿帕比技術(shù)公司的)。算法原理可以參考

    6. 結(jié)束語(yǔ)

    至此,這個(gè)由好奇心驅(qū)動(dòng)的項(xiàng)目就告一段落。

    馬上就要過(guò)春節(jié)了,這里提前送上對(duì)所有人的祝福,如圖6-1。

    圖 6?1 鼠年的祝福!

    注意:本文為李鵬宇(知乎個(gè)人主頁(yè)https://www.zhihu.com/people/py-li-34)原創(chuàng)作品,受到著作權(quán)相關(guān)法規(guī)的保護(hù)。如需引用、轉(zhuǎn)載,請(qǐng)注明來(lái)源信息:(1)作者名,即“李鵬宇”;(2)原始網(wǎng)頁(yè)鏈接,即當(dāng)前頁(yè)面地址。如有疑問(wèn),可發(fā)郵件至我的郵箱:lipengyuer@126.com。

    掃描二維碼推送至手機(jī)訪問(wèn)。

    版權(quán)聲明:本文由財(cái)神資訊-領(lǐng)先的體育資訊互動(dòng)媒體轉(zhuǎn)載發(fā)布,如需刪除請(qǐng)聯(lián)系。

    本文鏈接:http://www.daniuzhishi.com/?id=851

    “基于虎撲數(shù)據(jù)的中美籃球運(yùn)動(dòng)員熱度統(tǒng)計(jì)” 的相關(guān)文章

    116比108 莫蘭特29分5板8助庫(kù)里三雙 灰熊勝勇士十連勝

    116比108 莫蘭特29分5板8助庫(kù)里三雙 灰熊勝勇士十連勝

    1月12日,NBA常規(guī)賽,金州勇士客場(chǎng)挑戰(zhàn)灰熊。 此役,勇士克萊復(fù)出第二場(chǎng),追夢(mèng)格林繼續(xù)缺陣;灰熊在人見(jiàn)人愛(ài)的“腰王”莫蘭特帶領(lǐng)下,一鼓作氣拿下九連勝,團(tuán)隊(duì)士氣正盛,本場(chǎng)狄龍布魯克斯、亞當(dāng)斯缺陣,灰熊...

    原創(chuàng)
            蔡徐坤和baby飛躍花車獲勝,網(wǎng)友:不愧是打籃球出身的!

    原創(chuàng) 蔡徐坤和baby飛躍花車獲勝,網(wǎng)友:不愧是打籃球出身的!

    原標(biāo)題:蔡徐坤和baby飛躍花車獲勝,網(wǎng)友:不愧是打籃球出身的! 節(jié)目中,跑男團(tuán)和請(qǐng)到的女嘉賓兩兩結(jié)組要穿過(guò)花車,座位上有兩位拿著蒼蠅拍的嘉賓,另外兩位嘉賓要從車尾通過(guò),被擊中次數(shù)少的一組就可以獲勝,在玩的過(guò)程中,有靠老婆保護(hù)過(guò)關(guān)的,比如沙溢,有靠老公過(guò)關(guān)的,...

    「籃球世界杯」賽事指南+商業(yè)百科:一篇文章給你安排得明明白白

    「籃球世界杯」賽事指南+商業(yè)百科:一篇文章給你安排得明明白白

    點(diǎn)擊△藍(lán)字關(guān)注我們,添加星標(biāo)留住圈哥 籃球世界杯時(shí)間到! 不管你是硬核球迷還是籃壇小白,這次有中國(guó)隊(duì)參與的「世界杯」盛宴,請(qǐng)務(wù)必關(guān)注!而這份由「ECO氪體」出品的2019年FIBA籃球世界杯全看點(diǎn)解析,相信一定會(huì)對(duì)你的觀賽有所幫助。 讓我們開(kāi)始吧...

    男籃世界杯預(yù)選賽!亞洲區(qū)僅剩唯一懸念,中國(guó)男籃不會(huì)放水

    男籃世界杯預(yù)選賽!亞洲區(qū)僅剩唯一懸念,中國(guó)男籃不會(huì)放水

    2023年男籃世界杯預(yù)選賽進(jìn)入尾聲,還剩兩場(chǎng)比賽,出線形勢(shì)基本明朗。E組黎巴嫩穩(wěn)居第一,約旦第二,新西蘭第三,新西蘭領(lǐng)先排名第四的沙特2場(chǎng),不出意外,E組晉級(jí)的三支球隊(duì)是黎巴嫩、約旦、新西蘭。F組目前的前三名分別是澳大利亞、中國(guó)、伊朗,日本和哈薩克斯坦都是5勝5負(fù),分別位列第四、第五。...

    中國(guó)方案讓卡塔爾世界杯體育場(chǎng)“堅(jiān)固且輕盈”

    中國(guó)方案讓卡塔爾世界杯體育場(chǎng)“堅(jiān)固且輕盈”

    本報(bào)記者金 鳳 外觀如同一顆閃亮的鉆石,還會(huì)隨著太陽(yáng)在空中照射的角度變化來(lái)改變自身顏色……有“沙漠鉆石”之稱的卡塔爾教育城體育場(chǎng)(以下簡(jiǎn)稱教育城體育場(chǎng))于22日晚迎來(lái)它在2022年世界杯的“首秀”。...

    上線17年,《街頭籃球》為啥依舊堅(jiān)挺

    上線17年,《街頭籃球》為啥依舊堅(jiān)挺

    自1978年雅達(dá)利把那臺(tái)名叫《PONG》的乒乓球街機(jī)擺到酒吧柜臺(tái)旁邊開(kāi)始,體育游戲就成為了電子游戲的一個(gè)重要分類。多年過(guò)去,2K sports、Konami等海外大廠已經(jīng)靠著與現(xiàn)實(shí)體育職業(yè)聯(lián)盟的合作和不斷的產(chǎn)品迭代,打造起了自家的成熟IP并收割全球游戲市場(chǎng)。但與體育游戲在大洋彼岸占暢銷游戲...

    ?