騰訊 AI Lab 2020 年度回顧
來(lái)源:騰訊AI實(shí)驗(yàn)室
【前言】
剛剛過(guò)去的 2020 年算不上是平靜的一年。貫穿全年的新冠肺炎疫情仍未平息,各類偶發(fā)事件也層出不窮。
即便如此,秉承「科技向善」信念和「Make AI Everywhere」愿景的騰訊 AI Lab 仍在這一年中做出了許多有價(jià)值的成果,其中包括將 AI 技術(shù)應(yīng)用于疫情防控及病理篩查等其它醫(yī)療應(yīng)用。
同時(shí),在以往研究的基礎(chǔ)上,騰訊 AI Lab 在虛實(shí)集成世界與虛擬人、機(jī)器人、智慧藥物研發(fā)、智慧農(nóng)業(yè)、數(shù)據(jù)安全等領(lǐng)域都取得了進(jìn)一步的重要進(jìn)展。除了通過(guò)研究論文與開(kāi)源項(xiàng)目與社區(qū)共享研究成果,騰訊 AI Lab 也在積極與高校、企業(yè)和研究機(jī)構(gòu)合作,共同探索 AI 技術(shù)的潛在可能性。
下面首先將介紹 2020 年騰訊 AI Lab 在虛擬集成世界與機(jī)器人兩大研究方向上的重要探索,會(huì)分AI+醫(yī)療、AI+醫(yī)藥、AI+游戲、AI+農(nóng)業(yè)、AI+內(nèi)容幾大主題總結(jié)這一年的行業(yè)應(yīng)用成果,最后會(huì)概述這一年騰訊 AI Lab 在不同研究方向上的前沿進(jìn)展。
雙軌并行邁向通用人工智能:虛實(shí)集成世界與機(jī)器人
通用人工智能(AGI)是騰訊 AI Lab 成立伊始便已確立的核心長(zhǎng)遠(yuǎn)目標(biāo),即創(chuàng)造能感知和理解真實(shí)世界并能有效執(zhí)行各種不同任務(wù)的 AI 系統(tǒng)。為了實(shí)現(xiàn)這一目標(biāo),我們既需要軟件上的突破,也需要硬件的迭代創(chuàng)新,還更需要目前行業(yè)普遍缺乏的軟硬件的有效整合與集成。
2020 年,騰訊 AI Lab 和 Robotics X 實(shí)驗(yàn)室主任張正友博士提出了一個(gè)全新的概念:虛實(shí)集成世界(Integrated Physical-Digital World,IPhD)。
它將當(dāng)前在 AI、虛擬現(xiàn)實(shí)(VR)、增強(qiáng)現(xiàn)實(shí)(AR)、混合現(xiàn)實(shí)(MR)領(lǐng)域的前景展望乃至互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的思想融合到了一起。在此基礎(chǔ)上,一個(gè)通過(guò)互相交織和共同進(jìn)化的軟件與硬件、虛擬與現(xiàn)實(shí)、人與人工智能和機(jī)器人實(shí)現(xiàn)通用人工智能的愿景呈現(xiàn)在了世人眼前。
目前騰訊 AI Lab 的所有研究都可以納入到虛實(shí)集成世界的整體框架之下,有關(guān)該概念的更詳細(xì)說(shuō)明可參看張博士的演講《Hello,虛實(shí)集成世界》。
在虛實(shí)集成世界框架下,現(xiàn)實(shí)虛擬化、虛擬真實(shí)化、全息互聯(lián)網(wǎng)、智能執(zhí)行體四大發(fā)展方向?qū)⒊蔀轵v訊 AI Lab 和 Robotics X 實(shí)驗(yàn)室未來(lái)發(fā)展的重要指導(dǎo)。
下面將呈現(xiàn)騰訊 AI Lab 和 Robotics X 實(shí)驗(yàn)室在 2020 年取得的兩項(xiàng)重大突破:虛擬人和機(jī)器人。我們也可將它們描述為虛擬集成世界框架下的軟件和硬件智能執(zhí)行體,同時(shí)也涵蓋其它三大方向的一些核心技術(shù),比如將人臉建模成數(shù)字版本就是一項(xiàng)現(xiàn)實(shí)虛擬化成果。
虛擬人:或是人類的虛擬化身,或是數(shù)字世界原住民
虛擬人是一類多模態(tài)技術(shù),涉及計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別和生成、自然語(yǔ)言理解和生成等多種技術(shù)。根據(jù)來(lái)源的不同,虛擬人可大致分為兩類:人類的數(shù)字化模型和虛擬世界原生虛擬人。
在建造人類的數(shù)字化模型方面,其實(shí)騰訊早在 2018 年就公布了一個(gè)基于演員姜冰潔建模得到的虛擬人 Siren。Siren 的動(dòng)作和表情的擬真度都非常高,但由于采用了業(yè)內(nèi)頂尖的動(dòng)作捕捉和實(shí)時(shí)渲染技術(shù),Siren 也具有相對(duì)較高的制作成本。
2020 年 10 月,騰訊 AI Lab 提出了一種基于 RGB-D 自拍視頻創(chuàng)建高擬真度 3D 虛擬人的方法。這項(xiàng)技術(shù)的核心是 3D 人臉 Mesh 估計(jì)、高清紋理貼圖及法線細(xì)節(jié)貼圖的合成算法,實(shí)現(xiàn)了成本極低但速度很快的 3D 人臉合成——僅需手機(jī)拍攝的視頻作為輸入和 30 秒處理時(shí)間即可!
基于人類建模的虛擬人具有豐富的應(yīng)用場(chǎng)景,首當(dāng)其沖的是作為人類在虛擬世界中的化身(avatar),讓用戶能以自然的形象參與虛擬世界的各種互動(dòng)。另外,這項(xiàng)技術(shù)還能用于數(shù)字祭奠,紀(jì)念已逝之人;還能讓人類演員在動(dòng)畫(huà)或游戲中扮演角色(比如基努·李維斯在《賽博朋克2077》中扮演的 Johnny Sliverhand)等應(yīng)用。
而在創(chuàng)造虛擬世界原生虛擬人方面,騰訊 AI Lab 開(kāi)發(fā)的多模態(tài)虛擬人「 AI 艾靈」已于 2020 年 5 月與公眾見(jiàn)面并于兒童節(jié)與青年演員歌手王俊凱和雄安孩子共同演繹了新歌《點(diǎn)亮》?,F(xiàn)在,你也能在嗶哩嗶哩直播間觀看艾靈 24 小時(shí)不間斷賣力表演:https://live.bilibili.com/21927742

AI 艾靈是騰訊 AI Lab 多年來(lái)在視覺(jué)、語(yǔ)音、自然語(yǔ)言、人機(jī)交互等多模態(tài)方面的研究結(jié)晶。比如其采用的 DurIAN 語(yǔ)音合成框架[2]融合了騰訊 AI Lab 在語(yǔ)音領(lǐng)域多年深耕的經(jīng)驗(yàn),其不僅能實(shí)現(xiàn)精準(zhǔn)且穩(wěn)健的語(yǔ)音合成,而且還能生成與合成語(yǔ)音同步的高質(zhì)量人臉表情。

DurIAN 工作過(guò)程示意圖
虛擬世界原生虛擬人在虛擬偶像、虛擬助理、在線教育、數(shù)字內(nèi)容生成等領(lǐng)域有著廣泛的應(yīng)用前景。比如 AI 艾靈就是一個(gè)虛擬主播兼虛擬歌手,而且她還是一個(gè)創(chuàng)作型歌手,其采用的 SongNet 歌詞創(chuàng)作模型可以根據(jù)任意格式和模板來(lái)生成相契合的文本,結(jié)合上面的 DurIAN 模型,艾靈就能以自然動(dòng)聽(tīng)的聲音唱出自己寫(xiě)的歌。
虛擬人是虛實(shí)集成世界的重要組成部分。為了實(shí)現(xiàn)虛實(shí)集成世界的長(zhǎng)遠(yuǎn)目標(biāo),我們還需要打造高速實(shí)時(shí)的物聯(lián)網(wǎng)基礎(chǔ)設(shè)施,構(gòu)建高精度的真實(shí)世界模型和更有趣有用的虛擬世界,創(chuàng)造更安全高效的自動(dòng)化機(jī)器。面向這一目標(biāo),騰訊正在砥礪前行。
移動(dòng)機(jī)器人新突破:夯實(shí)AI+機(jī)器人雙基礎(chǔ)
自 2018 年在深圳建立以來(lái),騰訊 Robotics X 機(jī)器人實(shí)驗(yàn)室一直在與騰訊 AI Lab 合作推進(jìn)「AI+機(jī)器人」的發(fā)展。2020 年 11 月,兩項(xiàng)在移動(dòng)機(jī)器人領(lǐng)域的新進(jìn)展問(wèn)世:一是讓四足機(jī)器人 Jamoca 學(xué)會(huì)了走梅花樁,二是提出了一種能讓輪式機(jī)器人自主平衡的新方法。
為了讓 Jamoca 具備走梅花樁的能力,騰訊 Robotics X 實(shí)驗(yàn)室基于自研的機(jī)器人控制技術(shù)為 Jamoca 打造了一個(gè)能應(yīng)對(duì)復(fù)雜環(huán)境的智能大腦。這個(gè)大腦讓 Jamoca 能行走、小跑和跳躍,并賦予了它自主定位和避障的能力。
這是騰訊 Robotics X 實(shí)驗(yàn)室在機(jī)器人感知以及運(yùn)動(dòng)規(guī)劃與控制這些核心技術(shù)方向的一次能力展示,也顯現(xiàn)了騰訊 Robotics X 實(shí)驗(yàn)室在整機(jī)系統(tǒng)設(shè)計(jì)與搭建方面的重要能力。
而在自平衡研究上,騰訊 Robotics X 研究了能自行保持平衡的兩輪式移動(dòng)機(jī)器人,這是騰訊 Robotics X 實(shí)驗(yàn)室的首個(gè)整機(jī)自研機(jī)器人。
它在傳統(tǒng)輪式移動(dòng)機(jī)器人的基礎(chǔ)上,增加了動(dòng)量輪及其電機(jī)驅(qū)動(dòng)系統(tǒng),使得機(jī)器人可以在靜止及行進(jìn)狀態(tài)下均保持平衡不倒。
基于該移動(dòng)機(jī)器人平臺(tái)的兩篇研究論文被機(jī)器人行業(yè)國(guó)際頂會(huì) IROS 2020 接受為 Oral 展示論文。該項(xiàng)目可以視作騰訊在機(jī)器人的機(jī)械設(shè)計(jì)和整機(jī)系統(tǒng)設(shè)計(jì)與搭建方向能力上的一大里程碑。
移動(dòng)機(jī)器人是虛實(shí)集成世界框架中「智能執(zhí)行體」的核心組成部分之一,也是實(shí)現(xiàn)通用人工智能終極目標(biāo)的重要途徑。
接下來(lái),除了繼續(xù)讓移動(dòng)機(jī)器人能以更高的精度理解周圍環(huán)境并能及時(shí)采取合理動(dòng)作,騰訊 Robotics X 實(shí)驗(yàn)室和騰訊 AI Lab 還會(huì)繼續(xù)研究如何將多模態(tài) AI 能力與機(jī)器人相整合,從而創(chuàng)造出能密切參與人類生產(chǎn)生活,甚至可作為人類的同事和朋友的智能機(jī)器人。
行業(yè)應(yīng)用,科技向善
「科技向善」是騰訊整個(gè)公司層面的核心使命愿景。作為騰訊大家庭的一員,騰訊 AI Lab 也同樣秉承著這一使命。同時(shí),作為 AI 科技的前沿探索者,騰訊 AI Lab 深知 AI 變革世界的潛力。因此,騰訊 AI Lab 在積極探索最前沿的 AI 技術(shù)的同時(shí),也致力于將這樣的潛力轉(zhuǎn)化為切實(shí)可行的應(yīng)用,以更好地服務(wù)用戶和造福社會(huì)。
總體而言,這些探索可歸納為 AI+醫(yī)療、AI+醫(yī)藥、AI+游戲、AI+農(nóng)業(yè)、AI+內(nèi)容幾大方向;其中包括使用 AI 助力抗擊新冠疫情的實(shí)際應(yīng)用、更經(jīng)濟(jì)高效的藥物發(fā)現(xiàn)平臺(tái)、智慧農(nóng)業(yè)的進(jìn)一步發(fā)展、機(jī)器翻譯服務(wù)的再度升級(jí)以及基于復(fù)雜游戲場(chǎng)景攻堅(jiān)真實(shí)世界難題的前沿探索成果。
AI+醫(yī)療:用AI抗擊疫情和輔助病理醫(yī)生
「AI+醫(yī)療」是騰訊 AI Lab 的核心研究方向之一,這也是一個(gè)有望造福全人類的研究課題。尤其是在新冠疫情肆虐全球一整年的背景下,AI 技術(shù)在醫(yī)療領(lǐng)域更是具有無(wú)可比擬的應(yīng)用前景。
2020 年 7 月,鐘南山院士團(tuán)隊(duì)與騰訊 AI Lab 聯(lián)合發(fā)布了一項(xiàng)利用AI預(yù)測(cè)COVID-19患者病情發(fā)展至危重概率的研究成果,可分別預(yù)測(cè)5天、10天和30天內(nèi)病情危重的概率,有助于合理地為病人進(jìn)行早期分診。
該研究發(fā)表于國(guó)際頂級(jí)期刊 Nature 子刊 Nature Communications。同時(shí),騰訊 AI Lab 也在第一時(shí)間開(kāi)源了相關(guān)源代碼并構(gòu)建了一個(gè)免費(fèi)的在線查詢服務(wù)平臺(tái),為抗擊新冠疫情貢獻(xiàn)了自己的力量。

重癥 COVID-19 患者早期分期的深度學(xué)習(xí)生存模型計(jì)算工具
而在之前的 4 月份,騰訊 AI Lab 聯(lián)合研發(fā)的智能顯微鏡獲得 NMPA 注冊(cè)證,成為國(guó)內(nèi)首個(gè)獲準(zhǔn)進(jìn)入臨床應(yīng)用的智能顯微鏡產(chǎn)品。該智能顯微鏡產(chǎn)品集成了目前病理分析與診斷方面的最新技術(shù),并針對(duì)病理醫(yī)生工作流程和習(xí)慣進(jìn)行多次產(chǎn)品迭代。
測(cè)試表明,這款智能顯微鏡能有效提升病理醫(yī)生的工作效率、病理分析的精確度和一致性,有望緩解醫(yī)院(尤其是基層醫(yī)院)病理醫(yī)生數(shù)量短缺且經(jīng)驗(yàn)不足的問(wèn)題,也是精準(zhǔn)醫(yī)療從前沿研究走向落地探索的一個(gè)良好例證。
之后的 11 月 25 日,在中華醫(yī)學(xué)會(huì)病理分會(huì)細(xì)胞學(xué)組專家們的見(jiàn)證下,安必平、騰訊 AI Lab 以及騰訊覓影正式啟動(dòng)「科技部醫(yī)療影像國(guó)家人工智能開(kāi)放創(chuàng)新平臺(tái)——宮頸液基細(xì)胞學(xué)AI數(shù)據(jù)庫(kù)建設(shè)」項(xiàng)目,共同助力宮頸液基細(xì)胞學(xué)數(shù)據(jù)庫(kù)建設(shè)與標(biāo)準(zhǔn)規(guī)范的制定,同時(shí)還將共同推進(jìn)病理科數(shù)字化、病理大數(shù)據(jù)、人工智能應(yīng)用等多個(gè)方向的探索。
AI+藥物:首個(gè)AI驅(qū)動(dòng)的藥物發(fā)現(xiàn)平臺(tái)問(wèn)世
2020 年 7 月,騰訊 AI Lab 重磅發(fā)布了首個(gè) AI 驅(qū)動(dòng)的藥物發(fā)現(xiàn)平臺(tái)「云深智藥」。云深智藥整合了騰訊 AI Lab和騰訊云在前沿算法、優(yōu)化數(shù)據(jù)庫(kù)以及計(jì)算資源上的優(yōu)勢(shì),提供覆蓋臨床前新藥發(fā)現(xiàn)流程的五大模塊,包括蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、虛擬篩選、分子設(shè)計(jì)/優(yōu)化、 ADMET 屬性預(yù)測(cè)及合成路線規(guī)劃。

在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方面,云深智藥采用了騰訊 AI Lab 自研的冠軍級(jí)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)技術(shù),其中涵蓋兩項(xiàng)關(guān)鍵技術(shù)突破:一種基于自監(jiān)督學(xué)習(xí)的蛋白質(zhì)折疊方法和一種基于深度學(xué)習(xí)的可迭代方法。
該技術(shù)在全球唯一的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)自動(dòng)評(píng)估平臺(tái) CAMEO 半年內(nèi)五次奪得月度冠軍,領(lǐng)先眾多國(guó)際知名研究團(tuán)隊(duì)。
11 月,騰訊 AI Lab 在國(guó)際頂級(jí)期刊 Nature 子刊《Nature Communications》發(fā)表了一項(xiàng)研究,介紹了采用「從頭折疊」的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法幫助解析 SRD5A2 晶體結(jié)構(gòu)的成果,揭示了治療脫發(fā)和前列腺增生的藥物分子「非那雄胺」對(duì)于該酶的抑制機(jī)制。
在虛擬篩選方面,「云深智藥」平臺(tái)的虛擬篩選模塊首次將元學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)算法用于LBDD(基于配體的藥物設(shè)計(jì))任務(wù),通過(guò)AI「遷移」從其他靶點(diǎn)上面學(xué)習(xí)到的知識(shí)(如分子局部結(jié)構(gòu)對(duì)靶點(diǎn)結(jié)合強(qiáng)度的影響),應(yīng)用在目標(biāo)靶點(diǎn)上來(lái)提高模型預(yù)測(cè)精度。目前該算法在數(shù)千個(gè)實(shí)驗(yàn)數(shù)據(jù)集上預(yù)測(cè)精度(預(yù)測(cè)活性與實(shí)驗(yàn)測(cè)量活性的相關(guān)性)的中位數(shù)從目前最高記錄0.36提升到0.42,且篩選可用模型的百分比從56%提升到60%,突破業(yè)界標(biāo)準(zhǔn)。
在分子生成方面,云深智藥的分子生成算法通過(guò)人工智能來(lái)學(xué)習(xí)現(xiàn)有數(shù)據(jù)庫(kù)中小分子的各種結(jié)構(gòu)信息和靶點(diǎn)的關(guān)系,進(jìn)而能夠?qū)W習(xí)到一個(gè)分子空間?,F(xiàn)有模型目前支持對(duì) 319 個(gè)Kinase和 52 個(gè) GPC R靶點(diǎn)進(jìn)行分子生成。在分子生成這一過(guò)程中,云深智藥的算法能夠針對(duì)不同靶點(diǎn)在分子空間中的映射進(jìn)行針對(duì)性采樣,從而生成新的可能對(duì)靶點(diǎn)有活性的分子。
而在 ADMET 屬性預(yù)測(cè)方面,云深平臺(tái)也有出色表現(xiàn),其藥物小分子 ADMET 屬性預(yù)測(cè)模塊已在多個(gè)數(shù)據(jù)集上優(yōu)于學(xué)術(shù)界現(xiàn)有最好模型 3%~11%;在合作伙伴的反饋中,平臺(tái)的自研算法精度超過(guò)現(xiàn)有商業(yè)軟件 6%~37% 不等。不僅如此,云深智藥還采用了注意力等機(jī)制來(lái)可視化分子中的子結(jié)構(gòu)對(duì)結(jié)果的影響,提供模型的可解釋性。此外,平臺(tái)還可提供本地版本等靈活的部署形式,保障用戶的數(shù)據(jù)安全。
騰訊 AI Lab 還在繼續(xù)推進(jìn)基于 AI 的藥物發(fā)現(xiàn)技術(shù)并為云深智藥平臺(tái)提供更多且范圍更廣的功能。
除此之外,騰訊 AI Lab 還開(kāi)源了一個(gè)大規(guī)模自監(jiān)督分子圖預(yù)訓(xùn)練模型GROVER。GROVER 是業(yè)界首個(gè)開(kāi)源的基于深度圖神經(jīng)網(wǎng)絡(luò)的圖數(shù)據(jù)的大規(guī)模預(yù)訓(xùn)練模型,研究人員可以快速將其作為基礎(chǔ)組件應(yīng)用到需要對(duì)小分子進(jìn)行編碼的藥物研發(fā)相關(guān)研究中,助力藥物研發(fā)相關(guān)應(yīng)用,例如分子屬性預(yù)測(cè)、虛擬篩選等任務(wù)。
GROVER模型:https://drug.ai.tencent.com/cn/news/5論文:https://arxiv.org/abs/2007.02835
AI+農(nóng)業(yè):iGrow再獲豐收,農(nóng)業(yè)仿真落地現(xiàn)實(shí)世界
農(nóng)業(yè)是事關(guān)人類生存的基礎(chǔ)性行業(yè)。2020 年是騰訊 AI Lab 的「AI+農(nóng)業(yè)」方向的又一個(gè)「豐收年」。
6 月份,騰訊 AI Lab 與世界著名農(nóng)業(yè)學(xué)府荷蘭瓦赫寧根大學(xué)(WUR)聯(lián)辦的「第二屆國(guó)際智慧溫室種植挑戰(zhàn)賽」落幕。復(fù)賽的五支隊(duì)伍挑戰(zhàn)用 AI 和 IoT 物聯(lián)網(wǎng)等前沿技術(shù)優(yōu)化種植決策,并遠(yuǎn)程自動(dòng)控制溫室種植小番茄。
復(fù)賽隊(duì)的五個(gè) AI 收成均超過(guò)有20年經(jīng)驗(yàn)的農(nóng)業(yè)種植專家組,其中冠軍組 Automatoes 得到滿分,實(shí)現(xiàn)畝產(chǎn)資源消耗減少16%,凈利增加121%,充分展現(xiàn)了農(nóng)業(yè)智能決策與溫室自動(dòng)控制的技術(shù)價(jià)值,和為農(nóng)民減負(fù)的未來(lái)潛力。
此外,騰訊 AI Lab 還攜手騰訊TEG架構(gòu)平臺(tái)部借助在第一屆比賽中自研的 AI 算法和技術(shù)經(jīng)驗(yàn)打造的云原生「騰訊AIoT智慧種植方案 iGrow」在 2020 年已落地中國(guó)農(nóng)業(yè)大省遼寧。第一期番茄試點(diǎn)迎來(lái)「小豐收」,每畝每季凈利潤(rùn)增加數(shù)千元,iGrow 的商業(yè)價(jià)值得到了初步驗(yàn)證。

iGrow方案在遼寧溫室試點(diǎn)
11 月 27 日,騰訊云(莘縣)農(nóng)業(yè)數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)基地開(kāi)園,這是騰訊集團(tuán)在全國(guó)布局的首個(gè)農(nóng)業(yè)數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)基地。在新的一年里,騰訊 AI Lab 研發(fā)的 iGrow 解決方案將在該基地得到進(jìn)一步的研究和應(yīng)用。
繼化肥、農(nóng)藥和大規(guī)模機(jī)械化種植之后,AI 和物聯(lián)網(wǎng)有望讓農(nóng)業(yè)更進(jìn)一步擺脫靠天吃飯的傳統(tǒng)模式。通過(guò)分析和預(yù)測(cè)天氣條件、溫濕度、二氧化碳濃度變化動(dòng)態(tài)調(diào)整種植策略,可讓產(chǎn)量得到最優(yōu)的提升。未來(lái)如果再配合自動(dòng)化溫室和垂直農(nóng)場(chǎng)等新型農(nóng)業(yè)技術(shù),農(nóng)業(yè)的生產(chǎn)效率可望實(shí)現(xiàn)質(zhì)的飛躍,甚至可推廣到原本不適宜農(nóng)業(yè)生產(chǎn)的地區(qū),助力消除人類社會(huì)仍未解決的饑餓問(wèn)題。
AI+游戲:游戲仿真世界,「絕悟」AI 策略協(xié)作能力再升級(jí)
「AI+游戲」也是騰訊 AI Lab 深耕的研究領(lǐng)域?;趪?、《王者榮耀》、《毀滅戰(zhàn)士》、《星際爭(zhēng)霸》等游戲平臺(tái),騰訊 AI Lab 已經(jīng)研發(fā)許多有價(jià)值的前沿技術(shù),并創(chuàng)造了中國(guó)國(guó)家隊(duì)圍棋訓(xùn)練專用 AI 等真實(shí)應(yīng)用。此外,基于游戲環(huán)境開(kāi)發(fā)的深度強(qiáng)化學(xué)習(xí)方法也在機(jī)器人等領(lǐng)域也有著非常重要的應(yīng)用前景。
4 月份,騰訊 AI Lab 開(kāi)發(fā)的圍棋 AI「絕藝」與中國(guó)國(guó)家圍棋隊(duì)續(xù)約三年。作為「教練」,絕藝能從對(duì)弈、復(fù)盤、拆解、分析等多個(gè)維度,為中國(guó)圍棋事業(yè)的發(fā)展提供助力,與人類頂尖棋手一起探索圍棋的更多可能。
立足于國(guó)民手游《王者榮耀》,騰訊 AI Lab 開(kāi)發(fā)出了策略協(xié)作型 AI 「絕悟」。2020 年,通過(guò)開(kāi)放挑戰(zhàn)和職業(yè)競(jìng)技,騰訊 AI Lab 在復(fù)雜環(huán)境決策、多智能體合作與博弈以及策略預(yù)測(cè)與規(guī)劃方面的成果得到了展現(xiàn):
(1)2020 年 5 月 1-4 日,「絕悟」首次向玩家大規(guī)模開(kāi)放。在此期間,從職業(yè)玩家到游戲主播再到普通業(yè)余玩家,大量不同游戲水平的游戲玩家向絕悟發(fā)起了挑戰(zhàn),見(jiàn)識(shí)了絕悟在戰(zhàn)術(shù)規(guī)劃、玩家行為預(yù)測(cè)、多英雄配合等方面的能力。
(2)8 月 18 日,騰訊牽頭構(gòu)建的 AI 多智能體與復(fù)雜決策開(kāi)放研究平臺(tái)「開(kāi)悟」正式對(duì)高校開(kāi)放,同時(shí)開(kāi)啟了首屆「開(kāi)悟AI+游戲高校大賽」。依托于騰訊 AI Lab 和「王者榮耀」在算法、數(shù)據(jù)(脫敏)、算力方面的核心優(yōu)勢(shì),向?qū)W術(shù)研究人員和算法開(kāi)發(fā)者開(kāi)放的開(kāi)悟致力于發(fā)展成為國(guó)內(nèi)領(lǐng)先、國(guó)際一流的研究與應(yīng)用探索平臺(tái)。
(3)11 月 28 日,「絕悟完全體」進(jìn)入王者峽谷并在 28-30 日間開(kāi)啟了三天公眾體驗(yàn)。不同于 5 月份開(kāi)放的版本,完全體版本的絕悟解禁了全部英雄池,掌握了所有英雄的所有技能,同時(shí)其它多項(xiàng)策略也得到優(yōu)化,相關(guān)已被 AI 頂級(jí)會(huì)議 NeurIPS 2020 與頂級(jí)期刊 TNNLS 收錄。
為了讓絕悟 AI 掌握全部英雄,騰訊 AI Lab 提出的一種新方法:課程自對(duì)弈學(xué)習(xí)。這是一種讓 AI 從易到難的漸進(jìn)式學(xué)習(xí)方法:先引入「老師分身」模型,每個(gè) AI 老師通過(guò)深度強(qiáng)化學(xué)習(xí)技術(shù)在單個(gè)陣容上訓(xùn)練至精通;再引入一個(gè) AI 學(xué)生模仿學(xué)習(xí)所有的 AI 老師;最終讓絕悟掌握了所有英雄的所有技能,成為一代宗師。

CSPL流程圖設(shè)計(jì)思想:任務(wù)由易到難,模型從簡(jiǎn)單到復(fù)雜,知識(shí)逐層深入
《王者榮耀》等 MOBA 類游戲具有非常的復(fù)雜度,同時(shí)還涉及到非常多樣化的合作與對(duì)抗博弈方式,因此非常適合作為策略型 AI 的開(kāi)發(fā)平臺(tái),用于研發(fā)適用于不同場(chǎng)景的通用型 AI 技術(shù)。
這類技術(shù)在許多真實(shí)世界場(chǎng)景中也有重要的應(yīng)用價(jià)值,比如可以協(xié)調(diào)在路況復(fù)雜的城市道路上行駛的自動(dòng)駕駛汽車以及為快遞員或快遞無(wú)人機(jī)規(guī)劃配送區(qū)域和路線。
除此之外,2020 年 12 月,騰訊 AI Lab 絕悟團(tuán)隊(duì)借助「開(kāi)悟」平臺(tái)開(kāi)發(fā)的足球 AI 「絕悟-WeKick 版本」在 Google Research 與英超曼城俱樂(lè)部聯(lián)合舉辦的足球 AI Kaggle 競(jìng)賽上獲得冠軍。
該競(jìng)賽使用 Google Brain 基于開(kāi)源足球游戲 Gameplay Football 開(kāi)發(fā)的強(qiáng)化學(xué)習(xí)環(huán)境 Google Research Football。這場(chǎng) Kaggle 競(jìng)賽也是首場(chǎng)相關(guān)競(jìng)賽。不同于《王者榮耀》,足球 AI 比賽涉及到 11 個(gè)智能體的相互配合以及與另外 11 個(gè)智能體的對(duì)抗,同時(shí)獎(jiǎng)勵(lì)相比于 MOBA 游戲還更稀疏。
即便如此,WeKick 依然以顯著優(yōu)于第二名的成績(jī)獲得了冠軍。這體現(xiàn)了完全體「絕悟」底層技術(shù)和框架的通用性。
雖然都是 RTS (即時(shí)戰(zhàn)略)游戲,星際爭(zhēng)霸中需要控制多種不同類型不同數(shù)量的單位,這些單位又有各自的運(yùn)動(dòng)和攻擊特點(diǎn),因而動(dòng)作空間更大、策略空間更豐富。
騰訊 Robotics X 開(kāi)源了首個(gè)通用的大規(guī)模多智能體博弈訓(xùn)練框架TLeague,并據(jù)此訓(xùn)練出能擊敗大師級(jí)選手的星際爭(zhēng)霸強(qiáng)AI TStarBot-X。這個(gè)星際AI只使用了AlphaStar的50分之一的算力。
AI+內(nèi)容:TranSmart再升級(jí),用AI賦能人工翻譯
騰訊交互翻譯TranSmart是目前業(yè)界唯一可實(shí)現(xiàn)人機(jī)交互的互聯(lián)網(wǎng)機(jī)器翻譯產(chǎn)品。經(jīng)過(guò)三年積累,功能已覆蓋人工翻譯全流程,如按鍵、詞、短語(yǔ)、句子、翻譯記憶等。2020年,TranSmart開(kāi)啟商業(yè)化探索之旅,獲得業(yè)界伙伴積極認(rèn)可:
閱文集團(tuán):國(guó)內(nèi)排名第一的正版數(shù)字閱讀平臺(tái),將通過(guò)網(wǎng)文定制翻譯引擎賦能海外編輯人員,翻譯上千部出海的小說(shuō)作品。華泰證券:國(guó)內(nèi)前五的券商,其證券分析師通過(guò)翻譯記憶融合與交互翻譯,高效發(fā)布中英雙語(yǔ)研報(bào);騰訊云官網(wǎng):在國(guó)際版官網(wǎng)和技術(shù)文檔翻譯過(guò)程中,定制翻譯引擎準(zhǔn)確處理Markdown、XML等標(biāo)記文本,高效復(fù)用術(shù)語(yǔ)、雙語(yǔ)句對(duì)等語(yǔ)言資產(chǎn),助力騰訊云數(shù)百款產(chǎn)品出海遠(yuǎn)航。
TranSmart繼承和發(fā)展了交互翻譯的技術(shù)概念,在保證人作為翻譯主體的同時(shí),量身定制的個(gè)性化機(jī)器翻譯全方位賦能人工翻譯過(guò)程:
自動(dòng)翻譯質(zhì)量:在目標(biāo)場(chǎng)景中,通過(guò)語(yǔ)料增強(qiáng)和模型優(yōu)化,自動(dòng)翻譯質(zhì)量穩(wěn)居行業(yè)前列;
實(shí)時(shí)譯文建議:譯文片段智能推薦和整句補(bǔ)全,顯著減少用戶反復(fù)修改錯(cuò)誤譯文的困擾,大幅改善人工翻譯體驗(yàn);
翻譯記憶融合:動(dòng)態(tài)結(jié)合用戶已完成的雙語(yǔ)句對(duì),生成更符合期望的自動(dòng)譯文,性能顯著優(yōu)于傳統(tǒng)靜態(tài)和增量式訓(xùn)練的機(jī)器翻譯;
翻譯輸入法:參照原文上下文和機(jī)器翻譯知識(shí),實(shí)現(xiàn)精準(zhǔn)組詞,加快人工翻譯過(guò)程中的輸入效率。
前沿研究進(jìn)展
作為國(guó)內(nèi)領(lǐng)先、世界一流的企業(yè)級(jí)人工智能實(shí)驗(yàn)室,騰訊 AI Lab 一直秉承開(kāi)放合作的理念與全球高校和研究機(jī)構(gòu)共同探索 AI 技術(shù)前沿。
2020 年騰訊AI Lab的高校合作項(xiàng)目「犀牛鳥(niǎo)專項(xiàng)研究計(jì)劃」完成第三年度閉環(huán),共發(fā)表高水平論文 50 多篇,項(xiàng)目的多項(xiàng)成果已應(yīng)用于智能語(yǔ)音交互產(chǎn)品、直播自動(dòng)解說(shuō)系統(tǒng)和視覺(jué)識(shí)別系統(tǒng)等。新的一年,「犀牛鳥(niǎo)」還將繼續(xù)飛翔,繼續(xù)發(fā)現(xiàn)前沿研究中的挑戰(zhàn)性問(wèn)題并開(kāi)展原創(chuàng)性研究,同時(shí)探索新技術(shù)的行業(yè)應(yīng)用案例,打造持續(xù)共贏的產(chǎn)學(xué)研合作生態(tài)和科研成果轉(zhuǎn)化平臺(tái)。
此外,騰訊 AI Lab 還啟動(dòng)了「開(kāi)悟」AI多智能體與復(fù)雜決策開(kāi)放研究平臺(tái)產(chǎn)學(xué)研生態(tài)建設(shè),發(fā)起首屆王者榮耀開(kāi)悟 AI 學(xué)術(shù)交流賽,邀請(qǐng)清華大學(xué)、北京大學(xué)、中科院等 18 所高校師生開(kāi)展百人專項(xiàng)培訓(xùn)和競(jìng)賽,為今后開(kāi)悟平臺(tái)向高校的更大規(guī)模開(kāi)放打下良好基礎(chǔ)。
在學(xué)術(shù)成果上,2020 年騰訊 AI Lab 和 Robotics X 實(shí)驗(yàn)室在計(jì)算機(jī)視覺(jué)、語(yǔ)音、自然語(yǔ)言處理、多模態(tài)、知識(shí)圖譜、機(jī)器學(xué)習(xí)、機(jī)器人等更眾多 AI 領(lǐng)域都做出了業(yè)界領(lǐng)先的貢獻(xiàn),并通過(guò)學(xué)術(shù)會(huì)議、期刊和公開(kāi)平臺(tái)分享了這些勞動(dòng)成果。在 ACL、INTERSPEECH、IROS、NeurIPS、AAAI 等主要頂級(jí)學(xué)術(shù)會(huì)議上,騰訊 AI Lab 和 Robotics X 實(shí)驗(yàn)室都做出了較為顯著的貢獻(xiàn),整體發(fā)表的論文數(shù)量位居國(guó)內(nèi)企業(yè)實(shí)驗(yàn)室前列。
據(jù)上海交通大學(xué) Acemap 學(xué)術(shù)地圖統(tǒng)計(jì),騰訊 2020 年在 AI 領(lǐng)域的論文(其中相當(dāng)大一部分來(lái)自騰訊 AI Lab)發(fā)表數(shù)位列全球大學(xué)與機(jī)構(gòu)第 8 位,H-index 全球并列第 5 位。在中國(guó)的大學(xué)和機(jī)構(gòu)排名中,騰訊的 AI 論文數(shù)量排名第 4, H-index 并列第 2,大幅領(lǐng)先國(guó)內(nèi)其它企業(yè)。

騰訊 2020 年在 AI 領(lǐng)域的論文發(fā)表情況,其中論文發(fā)表數(shù)全球第 8 位,H-index 全球并列第 5 位,來(lái)自 https://www.acemap.info/ranking
下面將分主題簡(jiǎn)單梳理騰訊 AI Lab 在 2020 年發(fā)布的一些重要研究成果。
多模態(tài)研究
多模態(tài)研究的目標(biāo)是讓 AI 或機(jī)器人能通過(guò)整合多種不同來(lái)源的信號(hào)來(lái)理解環(huán)境和做出判斷,比如視覺(jué)、雷達(dá)、GPS、語(yǔ)音、語(yǔ)言和互聯(lián)網(wǎng)數(shù)據(jù)等。也因此,多模態(tài)研究對(duì)通用人工智能和虛實(shí)集成世界兩大長(zhǎng)期愿景而言具有極其重要的價(jià)值。
雖然多模態(tài)研究非常重要,但 AI 領(lǐng)域目前還沒(méi)有專門面向多模態(tài)研究的頂級(jí)會(huì)議或頂級(jí)期刊,也因此騰訊 AI Lab 的多模態(tài)研究成果分散地發(fā)表在不同的學(xué)術(shù)會(huì)議和期刊上。
2020 年騰訊 AI Lab 在多模態(tài)方向上的研究主要集中于音頻/視頻/圖像與文本的多模態(tài)學(xué)習(xí)。除了前文已經(jīng)介紹過(guò)的虛擬人成果,騰訊 AI Lab 還提出了一種針對(duì)視頻中時(shí)序句子定位和事件描述學(xué)習(xí)模態(tài)間交互的新方法,該方法能學(xué)習(xí)成對(duì)的模態(tài)交互,從而改善兩項(xiàng)任務(wù)的性能。
另外,騰訊 AI Lab 還研究了如何基于場(chǎng)景圖分解來(lái)生成自然語(yǔ)言描述,通過(guò)遞歸子查詢構(gòu)造改善視覺(jué)和自然語(yǔ)言匹配[6]以及一種新的視覺(jué)-文本匹配模型。
用于描述并定位視頻事件的視頻-文本多模態(tài)學(xué)習(xí)框架
除了視頻-文本多模態(tài),騰訊 AI Lab 也在視頻-音頻多模態(tài)上取得了一些研究成果。比如在一項(xiàng) INTERSPEECH 2020 研究中,騰訊 AI Lab 提出了一種利用跨域視覺(jué)生成特征輔助障礙語(yǔ)音識(shí)別的方法。
該方法可利用大量域外的音頻-視覺(jué)數(shù)據(jù)進(jìn)行訓(xùn)練,從而為那些只有有限或者沒(méi)有視覺(jué)數(shù)據(jù)的說(shuō)話人生成視覺(jué)特征。這項(xiàng)幫助有發(fā)音障礙的說(shuō)話人,提出的語(yǔ)音識(shí)別技術(shù),有望實(shí)現(xiàn)一些重要的「科技向善」應(yīng)用。
多模態(tài)語(yǔ)音分離框架
另外,在多模態(tài)人機(jī)交互上, 騰訊 AI Lab 還提出了多模態(tài)說(shuō)話人diarization[9];多模態(tài)語(yǔ)音分離[10]; 以及多模態(tài)語(yǔ)音識(shí)別方案[11]。這是融合音頻、視頻、 聲紋、空間信息等多個(gè)模態(tài),針對(duì)「雞尾酒會(huì)」一類復(fù)雜場(chǎng)景的人機(jī)交互整體解決方案。
多模態(tài)語(yǔ)音分離和識(shí)別的聯(lián)合訓(xùn)練框架
騰訊 AI Lab 還提出了一種新的深度多模融合框架:信道交換網(wǎng)絡(luò)(CEN) [12]。該框架通過(guò)在訓(xùn)練中自我引導(dǎo)地、動(dòng)態(tài)地交換特定通道的特征,從而可在保持足夠的模態(tài)內(nèi)自身特征學(xué)習(xí)的同時(shí),促進(jìn)模態(tài)間的特征交互。
機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)是 AI 的核心過(guò)程和標(biāo)志性能力,近些年的 AI 發(fā)展熱潮正是源自深度學(xué)習(xí)這種機(jī)器學(xué)習(xí)技術(shù)的突破。
近段時(shí)間,機(jī)器學(xué)習(xí)領(lǐng)域的研究重心除了繼續(xù)優(yōu)化深度學(xué)習(xí)方法和拓展其應(yīng)用范圍外,也在積極探索其與其它學(xué)習(xí)范式的組合,并由此誕生了深度強(qiáng)化學(xué)習(xí)和生成對(duì)抗網(wǎng)絡(luò)的成功技術(shù),此外,擅長(zhǎng)梳理網(wǎng)絡(luò)關(guān)系的深度圖學(xué)習(xí)也已成為領(lǐng)域的一大熱門研究方向。
2020 年,騰訊 AI Lab 在多個(gè)機(jī)器學(xué)習(xí)方向上都得到了重要的研究成果,也為機(jī)器學(xué)習(xí)模型的可解釋性、魯棒性等理論分析做出了貢獻(xiàn)。這些研究成果可見(jiàn)于 NeurIPS 2020 等 AI 領(lǐng)域頂級(jí)會(huì)議和 Nature Communications 等頂級(jí)期刊。
在這其中,深度強(qiáng)化學(xué)習(xí)是騰訊 AI Lab 的一大核心研究方向。立足于圍棋和《王者榮耀》等視頻游戲等場(chǎng)景,騰訊 AI Lab 在深度強(qiáng)化學(xué)習(xí)方面的探索已達(dá)世界前列水平?;诖思夹g(shù)開(kāi)發(fā)的圍棋 AI 「絕藝」已在中國(guó)國(guó)家圍棋隊(duì)訓(xùn)練中得到了實(shí)際應(yīng)用,《王者榮耀》AI 「絕悟」也已進(jìn)化為「完全體」并通過(guò)首次大規(guī)模 MOBA AI 智能體性能測(cè)試接受了廣大玩家的檢驗(yàn)。
完全體絕悟的成功基于騰訊 AI Lab 對(duì)新提出的方法與成熟方法的有效組合,其中包括課程自博弈學(xué)習(xí)、多頭價(jià)值估計(jì)、策略注入、蒙特卡洛樹(shù)搜索和離策略等。
騰訊 AI Lab 在深度圖學(xué)習(xí)方面也成績(jī)斐然,其中包括前文已提到的完全基于自監(jiān)督訓(xùn)練的圖神經(jīng)網(wǎng)絡(luò)框架 GROVER。通過(guò)在原子、化學(xué)鍵、分子級(jí)別的自監(jiān)督任務(wù)設(shè)計(jì),GROVER可以從海量的無(wú)標(biāo)簽分子中學(xué)習(xí)到大量結(jié)構(gòu)/語(yǔ)義信息。
與此同時(shí),為了可以編碼分子中海量的復(fù)雜信息,GROVER 還整合了消息傳播網(wǎng)絡(luò)和Transformer,得到一個(gè)有更強(qiáng)表達(dá)能力的圖神經(jīng)網(wǎng)絡(luò)模型 GTransformer。這對(duì)藥物研發(fā)方面具有廣闊的應(yīng)用潛力。
騰訊 AI Lab 還提出了一種基于狄利克雷分布的圖變分自編碼器框架并證明了該框架與經(jīng)典平衡圖分割方法的等價(jià)性。另外騰訊 AI Lab 還通過(guò)分子逆合成分析探索了深度圖學(xué)習(xí)在化學(xué)領(lǐng)域的應(yīng)用。
此外,在 2020 年的 ACM SIGKDD 會(huì)議上,騰訊AI Lab、清華大學(xué)、香港中文大學(xué)等機(jī)構(gòu)聯(lián)合組織,通過(guò)一場(chǎng)為期一天的課程系統(tǒng)性地講解了圖神經(jīng)網(wǎng)絡(luò)。
騰訊 AI Lab 還有一項(xiàng)將深度強(qiáng)化學(xué)習(xí)與圖學(xué)習(xí)組合起來(lái)的研究成果,這是一種針對(duì)文字游戲提出的基于分層堆疊注意力機(jī)制的深度強(qiáng)化學(xué)習(xí)算法。這項(xiàng)研究使用了知識(shí)圖進(jìn)行顯式推理以進(jìn)行決策,從而通過(guò)可解釋的推理程序生成并支持智能體的決策。加上一種新提出的分層堆疊注意力機(jī)制,可通過(guò)利用知識(shí)圖的結(jié)構(gòu)來(lái)構(gòu)造推理過(guò)程的顯式表示。
分層堆疊注意力網(wǎng)絡(luò)架構(gòu)
騰訊 AI Lab 在網(wǎng)絡(luò)架構(gòu)搜索方面也取得了一些進(jìn)展。相較于人工設(shè)計(jì)網(wǎng)絡(luò)架構(gòu),自動(dòng)化網(wǎng)絡(luò)架構(gòu)搜索效率更高,而且還可能找到人類難以構(gòu)想出的結(jié)構(gòu),目前該技術(shù)已經(jīng)在諸多領(lǐng)域得到了廣泛應(yīng)用。
在用于提升網(wǎng)絡(luò)架構(gòu)搜索的計(jì)算效率方面,騰訊 AI Lab 提出了一種過(guò)渡性的仿射參數(shù)共享訓(xùn)練策略,對(duì)參數(shù)共享的程度進(jìn)行了量化分析,并動(dòng)態(tài)地調(diào)整搜索訓(xùn)練速度和備選網(wǎng)絡(luò)結(jié)構(gòu)的可區(qū)分性,以提升網(wǎng)絡(luò)搜索的效率與精度。
在結(jié)合多任務(wù)學(xué)習(xí)方面,騰訊 AI Lab 采用了基于任務(wù)的結(jié)構(gòu)控制器,來(lái)針對(duì)不同的任務(wù)產(chǎn)生針對(duì)性的網(wǎng)絡(luò)結(jié)構(gòu),并采用元學(xué)習(xí)的方式,使得網(wǎng)絡(luò)參數(shù)可以快速適應(yīng)到新的任務(wù)上。
此外,騰訊 AI Lab 還在相關(guān)理論分析方面做出了一些貢獻(xiàn),包括一項(xiàng)評(píng)估神經(jīng)機(jī)器翻譯的可解釋性方法,可幫助我們打開(kāi)深度學(xué)習(xí)黑箱。另外,騰訊 AI Lab 還研究了選擇性機(jī)制對(duì)自注意網(wǎng)絡(luò)的改善情況,解釋了該機(jī)制在順序編碼和結(jié)構(gòu)建模上的主要貢獻(xiàn),這對(duì)于進(jìn)一步改進(jìn)自注意力網(wǎng)絡(luò)有一定的啟發(fā)和指導(dǎo)意義。
最后,騰訊 AI Lab 的一篇 ECCV 2020 論文也提出了一種基于神經(jīng)科學(xué)研究的新式卷積:語(yǔ)境門限卷積(Context-Gated Convolution。這是一種輕量級(jí)的組件,可以很好地應(yīng)用在現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)中,在圖像識(shí)別、視頻理解、機(jī)器翻譯上都可以顯著提升現(xiàn)有模型性能。
門限卷積示意圖
自然語(yǔ)言處理
隨著 BERT 與 OpenAI GPT 等基于 Transformer 的大規(guī)模語(yǔ)言模型的出現(xiàn),一些專家認(rèn)為自然語(yǔ)言處理領(lǐng)域?qū)⒃谖磥?lái)十年內(nèi)迎來(lái)重大突破。騰訊 AI Lab 正在為推動(dòng)自然語(yǔ)言處理技術(shù)的發(fā)展而開(kāi)展研究工作。在 2020 年 7 月舉辦的自然語(yǔ)言處理領(lǐng)域頂級(jí)會(huì)議 ACL 2020 上,騰訊 AI Lab 貢獻(xiàn)了 20 篇論文,位列國(guó)內(nèi)企業(yè)研究機(jī)構(gòu)前列。
在文本理解方面,2020 年 4 月騰訊 AI Lab 開(kāi)放了文本理解系統(tǒng)TexSmart,可對(duì)中文和英文兩種語(yǔ)言的文本進(jìn)行詞法、句法和語(yǔ)義分析。
與其它現(xiàn)有公開(kāi)的文本理解工具相比,TexSmart除了支持分詞、詞性標(biāo)注、粗粒度命名實(shí)體識(shí)別(NER)、句法分析、語(yǔ)義角色標(biāo)注等常見(jiàn)功能外,還提供細(xì)粒度命名實(shí)體識(shí)別、語(yǔ)義聯(lián)想、深度語(yǔ)義表達(dá)等特色功能。TexSmart 系統(tǒng)獲得了2020 中國(guó)計(jì)算語(yǔ)言學(xué)大會(huì)(CCL)最佳系統(tǒng)演示獎(jiǎng)。
在對(duì)話理解方面,騰訊AI Lab提出了對(duì)話語(yǔ)義角色標(biāo)注(Conversational Semantic Role Labeling)技術(shù),該技術(shù)將對(duì)話的語(yǔ)義表示成多個(gè)「謂詞-論元」結(jié)構(gòu),可以同時(shí)處理對(duì)話中常見(jiàn)的信息缺失和指代問(wèn)題,有效地提升了對(duì)話的理解和下游任務(wù)的性能,如對(duì)話改寫(xiě)[21]和對(duì)話生成。
同時(shí),騰訊AI Lab將該項(xiàng)技術(shù)和對(duì)話理解的其他技術(shù)結(jié)合,在京東智能客服對(duì)話比賽中獲得第一名。
此外,騰訊 AI Lab 還在長(zhǎng)文本閱讀理解、從高資源語(yǔ)言向低資源語(yǔ)言的泛化、基于對(duì)話的關(guān)系抽取等方面取得了一些研究進(jìn)展。
在語(yǔ)言生成與對(duì)話方面,除了前文已經(jīng)描述過(guò)的能生成格式可控的歌詞、詩(shī)詞文本的 SongNet[25],騰訊 AI Lab 還研究了如何更好地理解對(duì)話上下文、如何打造千人千面的對(duì)話機(jī)器人、如何融合常識(shí)等知識(shí)、如何在保證流暢性的同時(shí)生成符合邏輯的自然語(yǔ)言等課題。
相關(guān)研究成果包括面向多輪對(duì)話的語(yǔ)義角色標(biāo)注與對(duì)話改寫(xiě)[26]、利用灰度數(shù)據(jù)增強(qiáng)多輪對(duì)話理解、知識(shí)融合型對(duì)話生成、基于開(kāi)放領(lǐng)域表格的邏輯性自然語(yǔ)言生成、提升對(duì)話一致性的三階段生成模型等。
在機(jī)器翻譯方面,我們致力于改善翻譯模型的效果。我們提出的數(shù)據(jù)重生和多領(lǐng)域通用翻譯模型可更有效利用大規(guī)模多領(lǐng)域混合訓(xùn)練數(shù)據(jù)。
同時(shí),我們繼續(xù)深耕于理解并改進(jìn)Transformer模型,其中包括理解選擇性機(jī)制對(duì)自注意力網(wǎng)絡(luò)的重要性,推理置信度校準(zhǔn)研究和評(píng)估神經(jīng)機(jī)器翻譯的可解釋性方法。受益于此,我們的自動(dòng)翻譯(中英和英中)系統(tǒng)準(zhǔn)確度繼續(xù)保持國(guó)內(nèi)前列,在國(guó)際翻譯比賽WMT2020中也取得了1項(xiàng)第一,3項(xiàng)第二的成績(jī)。
計(jì)算機(jī)視覺(jué)
2020 年,騰訊 AI Lab 在計(jì)算機(jī)視覺(jué)方面成果頗豐。在計(jì)算機(jī)視覺(jué)領(lǐng)域頂級(jí)會(huì)議 CVPR 和 ECCV 上,騰訊 AI Lab 各有 11 和 18 篇論文入選,多模態(tài)學(xué)習(xí)、視頻內(nèi)容理解、對(duì)抗攻擊與對(duì)抗防御、基于生成模型的圖像編輯等多項(xiàng)課題。此外在 NeurIPS 2020 上也有多篇相關(guān)論文入選。
首先來(lái)看針對(duì)視覺(jué)的對(duì)抗攻擊問(wèn)題,這是基于深度神經(jīng)網(wǎng)絡(luò)的計(jì)算機(jī)視覺(jué)模型的一大核心弱點(diǎn),也是很多實(shí)際計(jì)算機(jī)視覺(jué)應(yīng)用的最后一道門檻。當(dāng)然,這也是騰訊 AI Lab 的一大重要研究課題。
2020 年,騰訊 AI Lab 提出了一些實(shí)現(xiàn)對(duì)抗攻擊的新策略,比如一種針對(duì)深度聚類的對(duì)抗策略可以挖掘易于使聚類層出現(xiàn)預(yù)測(cè)偏差,但卻不會(huì)影響深度嵌入網(wǎng)絡(luò)性能的樣本,這種無(wú)監(jiān)督對(duì)抗聚類網(wǎng)絡(luò)能利用對(duì)抗攻擊與防御訓(xùn)練方法提升深度聚類網(wǎng)絡(luò)的魯棒性;另一項(xiàng)發(fā)表在ECCV上的研究也提出了利用擾動(dòng)分解實(shí)現(xiàn)稀疏對(duì)抗攻擊的新思路。
稀疏對(duì)坑攻擊示例
同時(shí),騰訊 AI Lab 也提出了一些用于防御對(duì)抗攻擊的技術(shù),包括一種針對(duì)對(duì)抗攻擊的魯棒目標(biāo)跟蹤方法,它能在產(chǎn)生輕量對(duì)抗擾動(dòng)時(shí)候?qū)r(shí)序信息納入考慮,從而提升模型魯棒性。
騰訊 AI Lab 在圖像去模糊和超分辨率方面也成果頗豐。
比如在 ECCV 入選論文中,騰訊 AI Lab 有兩篇論文研究了如何消除視覺(jué)場(chǎng)景的雨滴,其中包括一種基于語(yǔ)義理解的雙目去雨方法和一種利用雨痕和雨霧分析進(jìn)行圖像去雨的技術(shù)。
超分辨率方面,騰訊 AI Lab 提出了一種結(jié)合3D臉部結(jié)構(gòu)先驗(yàn)的人臉超分辨算法,該算法能充分利用臉部結(jié)構(gòu)及身份信息來(lái)輔助處理困難的臉部姿態(tài)變化。
當(dāng)然,騰訊 AI Lab 也沒(méi)有缺席熱門的視頻研究領(lǐng)域,這能幫助機(jī)器理解不斷動(dòng)態(tài)變化的世界,對(duì)多模態(tài)學(xué)習(xí)而言也具有重要價(jià)值。2020 年的相關(guān)研究包括一種可用于時(shí)序動(dòng)作分割的邊界感知級(jí)聯(lián)網(wǎng)絡(luò),這種新的級(jí)聯(lián)模式能讓模型自適應(yīng)地調(diào)整感受野以及對(duì)語(yǔ)義模糊的視頻幀做出更加有信心的預(yù)測(cè)。
此外,騰訊 AI Lab 還提出了一種新的短時(shí)序動(dòng)作檢測(cè)框架——移動(dòng)中心點(diǎn)檢測(cè)器(MOC-Detector),其可將動(dòng)作實(shí)例視為運(yùn)動(dòng)點(diǎn)的軌跡,實(shí)現(xiàn)高質(zhì)量的長(zhǎng)時(shí)動(dòng)作檢測(cè)。
騰訊 AI Lab 也在手語(yǔ)自動(dòng)翻譯上做出了一些研究進(jìn)展,其提出了一種基于多粒度視頻片段的手語(yǔ)翻譯層次化特征學(xué)習(xí)方法,該方法能自適應(yīng)地利用多粒度時(shí)序信息,對(duì)視頻語(yǔ)義進(jìn)行局部和全局的建模,從而能極大緩解對(duì)手勢(shì)分割的需要,提升翻譯質(zhì)量。希望這項(xiàng)研究能更進(jìn)一步轉(zhuǎn)化為「科技向善」的應(yīng)用成果。
語(yǔ)音
高質(zhì)量語(yǔ)音數(shù)據(jù)識(shí)別是一個(gè)已經(jīng)基本得到解決的問(wèn)題,但在現(xiàn)實(shí)生活應(yīng)用中,語(yǔ)音領(lǐng)域還面臨著雞尾酒會(huì)問(wèn)題以及人們自由聊天口語(yǔ)化表達(dá)風(fēng)格多樣的問(wèn)題。而在語(yǔ)音合成方面,高自然度和表現(xiàn)力的合成語(yǔ)音仍舊還是需要不斷努力到達(dá)的目標(biāo)。
2020 年,語(yǔ)音技術(shù)頂級(jí)會(huì)議 INTERSPEECH 共接收了 16 篇騰訊 AI Lab 論文,其中既有在語(yǔ)音前沿技術(shù)方向的進(jìn)一步探索,也包含一些理論研究和分析,同時(shí)還有在科技向善與文化遺產(chǎn)保護(hù)等方面的應(yīng)用成果。
在這其中,騰訊 AI Lab 為解決雞尾酒會(huì)問(wèn)題提出了多項(xiàng)潛在的解決策略。一是前面多模態(tài)學(xué)習(xí)部分已經(jīng)介紹的使用視覺(jué)數(shù)據(jù)輔助識(shí)別;二是使用帶強(qiáng)干擾的聲源數(shù)據(jù)來(lái)進(jìn)行學(xué)習(xí),這能「迫使」模型在非常糟糕的干擾條件下學(xué)習(xí)到足夠具有區(qū)分和泛化性能的表征,三是不斷改進(jìn)多通道語(yǔ)音增強(qiáng)波束形成技術(shù),通過(guò)提出全新的基于遞歸神經(jīng)網(wǎng)絡(luò)的波束形成方法,首次突破傳統(tǒng)波束形成技術(shù),在PESQ等客觀指標(biāo)和WER等語(yǔ)音識(shí)別指標(biāo)上同時(shí)達(dá)到最優(yōu)。四是提出了一種端到端的多通道語(yǔ)音分離技術(shù), 比傳統(tǒng)的多通道技術(shù)性能提高10%。
另外,在語(yǔ)音識(shí)別方面,騰訊 AI Lab 著力提升復(fù)雜條件下的識(shí)別性能,通過(guò)有效結(jié)合分離和識(shí)別技術(shù),使得在背景音樂(lè)及干擾人聲下的語(yǔ)音識(shí)別準(zhǔn)確率獲得相對(duì)20% 的大幅提升,該技術(shù)正廣泛應(yīng)用于信息流產(chǎn)品視頻內(nèi)容理解、短視頻及直播視頻字幕生成中。
而在語(yǔ)音合成方面,DurIAN 是騰訊 AI Lab 多年研究的重要結(jié)晶,也是騰訊虛擬人語(yǔ)音系統(tǒng)的核心組件。
DurIAN 不僅能合成更加自然流暢的說(shuō)話語(yǔ)音,還能用于合成歌聲,騰訊 AI Lab 甚至還探索了其在京劇合成方面的應(yīng)用[47],從技術(shù)角度為中國(guó)傳統(tǒng)文化的保護(hù)和傳承提供一個(gè)方向。
騰訊 AI Lab 的語(yǔ)音合成技術(shù)在2020 年完成端到端合成工業(yè)化落地之后,不斷朝著更高的目標(biāo)演進(jìn),不但發(fā)音人音色數(shù)量大幅增加,每個(gè)音色都具有多種情感和多種不同風(fēng)格的語(yǔ)音合成能力,可綜合不同風(fēng)格和情感實(shí)現(xiàn)針對(duì)不同場(chǎng)景不同文本更自然的表達(dá)。
在此基礎(chǔ)上,騰訊 AI Lab 還實(shí)現(xiàn)了韻律詞、字級(jí)別的細(xì)粒度控制能力,可以靈活地對(duì)單個(gè)字、詞的語(yǔ)氣情感進(jìn)行調(diào)節(jié),在一句話內(nèi)部也可有豐富的變化,大幅提升了合成語(yǔ)音的表現(xiàn)力和感染力。細(xì)粒度控制的合成技術(shù)正在落地到游戲解說(shuō)和小說(shuō)合成這樣對(duì)表現(xiàn)力和感染力要求更高的應(yīng)用場(chǎng)景中。
總結(jié)與展望
過(guò)去的 2020 年是必然會(huì)被寫(xiě)入歷史書(shū)的一年,如何讓這個(gè)世界變得更好已成為更多人積極思考和探索的問(wèn)題,而科技必將在其中發(fā)揮至關(guān)重要的作用。
繼續(xù)秉承「科技向善」的信念和「Make AI Everywhere」的愿景,以通用人工智能和虛實(shí)集成世界為長(zhǎng)期目標(biāo),騰訊 AI Lab 在這一年中做出了更多積極的應(yīng)用和研究貢獻(xiàn),涵蓋虛擬人、多智能體、農(nóng)業(yè)、醫(yī)療、藥物研發(fā)和機(jī)器人等諸多領(lǐng)域。
面對(duì)未知的未來(lái),騰訊 AI Lab 還將繼續(xù)砥礪前行,努力用科學(xué)技術(shù)攻克這個(gè)世界所面臨的的許多宏觀難題和日常生活中的許多微觀任務(wù)。新的一年,我們不會(huì)放松在前沿科技上的進(jìn)一步探索,同時(shí)還將拓展 AI 技術(shù)的更多行業(yè)應(yīng)用。
如果你曾在王者峽谷與完全體「絕悟」對(duì)戰(zhàn)過(guò),如果你曾在 AI 艾靈的舞臺(tái)前點(diǎn)歌并傾聽(tīng)過(guò)她的演唱,或者如果你也曾借鑒騰訊 AI Lab 的思路開(kāi)展自己的項(xiàng)目,不妨與我們分享一下你的經(jīng)歷和感受。
2021,新年快樂(lè)!
開(kāi)源項(xiàng)目
● hifi3dface:高速低成本創(chuàng)建高擬真度 3D 虛擬人https://github.com/tencent-ailab/hifi3dface
● SongNet:可以根據(jù)任意格式和模板來(lái)生成相契合的文本(詩(shī)詞歌賦),該項(xiàng)目還發(fā)布了一個(gè)預(yù)訓(xùn)練漢語(yǔ)模型和一個(gè)已經(jīng)過(guò)微調(diào)的宋詞模型。https://github.com/lipiji/SongNet
● GROVER:大規(guī)模自監(jiān)督分子圖預(yù)訓(xùn)練模型(可用于 ADMET 分子屬性預(yù)測(cè)等任務(wù))https://ai.tencent.com/ailab/ml/gnnpretrain.html
● 重癥COVID-19患者早期分期的深度學(xué)習(xí)生存模型https://github.com/cojocchen/covid19_critically_ill
● LogicNLG:基于開(kāi)放領(lǐng)域表格的邏輯性自然語(yǔ)言生成https://github.com/wenhuchen/LogicNLG
● Graph2Tree:用于自動(dòng)解數(shù)學(xué)應(yīng)用題的圖到樹(shù)學(xué)習(xí)https://github.com/2003pro/Graph2Tree
● recurrent-transformer:用于生成更連貫視頻語(yǔ)言描述的記憶增強(qiáng)型循環(huán)Transformerhttps://github.com/jayleicn/recurrent-transformer
● InfECE:神經(jīng)機(jī)器翻譯中推理階段的置信度校準(zhǔn)研究https://github.com/shuo-git/InfECE
● SSAN:選擇性自注意網(wǎng)絡(luò)https://github.com/xwgeng/SSAN
● Data Rejuvenation:數(shù)據(jù)重生:讓神經(jīng)機(jī)器翻譯中的不活躍樣本「復(fù)活」https://github.com/wxjiao/Data-Rejuvenation
● metaHypernymy:基于元學(xué)習(xí)的低資源語(yǔ)言上下位預(yù)測(cè)的方法https://github.com/ccclyu/metaHypernymy
● DialogRE:基于對(duì)話的關(guān)系抽取(RE)數(shù)據(jù)集https://github.com/nlpdata/dialogre與https://dataset.org/dialogre
● AMR-multiview:圖到文本生成中的結(jié)構(gòu)化信息保留https://github.com/Soistesimmer/AMR-multiview
● lab-zp-joint:基于多任務(wù)訓(xùn)練框架的聯(lián)合零指代還原和消解訓(xùn)練https://github.com/freesunshine0316/lab-zp-joint
● Sub-GC:基于場(chǎng)景圖分解的自然語(yǔ)言描述生成https://github.com/YiwuZhong/Sub-GC
● FeatherWave:一種高效的多頻帶并行式高質(zhì)量語(yǔ)音合成器https://wavecoder.github.io/FeatherWave/
● TSPNet:基于時(shí)序語(yǔ)義金字塔的手語(yǔ)翻譯層次化特征學(xué)習(xí)https://github.com/verashira/TSPNet
● ALRDC:基于對(duì)抗學(xué)習(xí)的魯棒性深度聚類https://github.com/xdxuyang/ALRDC
● ProxyGML:使用更少代理的深度圖度量學(xué)習(xí)方法https://github.com/YuehuaZhu/ProxyGML
● CEN:信道交換網(wǎng)絡(luò)https://github.com/yikaiw/CEN
● TStarBot-X:純機(jī)器學(xué)習(xí)的星際爭(zhēng)霸II強(qiáng)AIhttps://github.com/tencent-ailab/tleague_projpage
● TLeague:通用的大規(guī)模多智能體博弈訓(xùn)練框架https://github.com/tencent-ailab/tleague_projpage
開(kāi)放項(xiàng)目
開(kāi)悟:用游戲探索通用人工智能,現(xiàn)已面向高校開(kāi)放
● https://aiarena.tencent.com/aiarena/zh/index/重癥COVID-19患者早期分期的深度學(xué)習(xí)生存模型查詢服務(wù)
● https://aihealthcare.tencent.com/COVID19-Triage.htmlAI安全攻擊矩陣:業(yè)內(nèi)首個(gè) AI 安全攻擊矩陣,一份具有高實(shí)用性的AI安全技術(shù)指導(dǎo)框架
● https://share.weiyun.com/8InYhaYZTexSmart:開(kāi)放自然語(yǔ)言理解系統(tǒng),詳見(jiàn)《騰訊AI Lab開(kāi)放文本理解系統(tǒng)TexSmart,讓AI想得更深更廣》
掃描二維碼推送至手機(jī)訪問(wèn)。
版權(quán)聲明:本文由財(cái)神資訊-領(lǐng)先的體育資訊互動(dòng)媒體轉(zhuǎn)載發(fā)布,如需刪除請(qǐng)聯(lián)系。