中國需要更懂中國人的ChatGPT,國內(nèi)產(chǎn)學研三方必須“組隊對抗”
作為 AIGC 的典型應用之一,ChatGPT 正以勢不可擋的態(tài)勢席卷全球。國內(nèi)外科技互聯(lián)網(wǎng)巨頭紛紛入局。ChatGPT 爆火后,許多科技公司紛紛跟進,或?qū)⑵湔线M自家產(chǎn)品,或嘗試開發(fā)類似的語言模型。

(來源:資料圖)
從短期(目前的技術(shù)水平)和長期(技術(shù)成熟之后)的角度來看,ChatGPT 類的模型和產(chǎn)品到底有哪些典型應用場景?美國伊利諾伊大學香檳分校計算機系教授李博表示,目前搜索是一個比較熱門的應用場景。
從短期來看,她覺得 ChatGPT 作為文章寫作 Coding 生成的輔助查錯工具還不錯,但是還不能完全依賴 ChatGPT 來做回答和搜索,因為它的回答不能保證正確性。從長期角度來看,她認為 ChatGPT 可以和不同的 AI 模型工具結(jié)合,做更友好的自動問答系統(tǒng)、學習工具等輔助性工具。
有人認為 ChatGPT 的影響力不亞于互聯(lián)網(wǎng)的誕生,它將帶來下一次技術(shù)革命。據(jù)介紹,ChatGPT 是依賴大量語料訓練出來的,所以它從某些 Task 和場景下來看有很優(yōu)秀的表現(xiàn),比如 Summarization、Dialogue 之類的,所以她對這項技術(shù)非??春谩2贿^她覺得,如果要長久發(fā)展并用于重要領(lǐng)域中,ChatGPT 的可信賴性保證、糾錯能力等非常重要。
比如,ChatGPT 之類的模型目前仍存在一些根本問題,它會言之鑿鑿地給出看似準確的錯誤答案,或者在用戶的刻意引導下輸出本不應該輸出的內(nèi)容。
原因在于,ChatGPT 的訓練數(shù)據(jù)本身就是大量現(xiàn)有語料,所以它生成數(shù)據(jù)的 Distribution 和現(xiàn)有的其實非常接近,所以在統(tǒng)計角度上很難判斷。
不過,也可以使用一些水印的方式,但是目前水印的方式很容易被破解。所以區(qū)別 ChatGPT 生成文本還需要做更多功課,比如使用更有效的 Cryptography Based 的水印方式等。
解決這些問題是任重而道遠的,畢竟 ChatGPT 是個純 Data-driven 的大模型,之前模型存在的 Vulnerabilities 等問題它也都會有,所以從長遠看來,我們還需要做很多事情。
比如:1)引入 Knowledge、Symbolic reasoning 等去強化他的邏輯性和正確性;2)設計更多好的 Supervision 使得模型可以有效學習正確的星系;3)設計更好的獎勵機制;4)提出更好的數(shù)據(jù)清理整合方法;5)設計有效的解釋機制,以便人們更容易 Debug 模型的輸出。
還有一些研究指出,以 ChatGPT、Stable Diffusion 為代表的 AIGC 技術(shù)可能涉及到隱私和道德問題。由于 ChatGPT、Stable Diffusion 需要用大量數(shù)據(jù)來訓練,所以會有泄漏訓練數(shù)據(jù)隱私的問題等。
針對此,我們可以:1)用 Privacy-preserving 的方法來訓練模型,但是一般會影響模型的準確性,而且大模型很難用 Differentially private 的方法來訓練;2)可以生成 Synthetic Data 來訓練模型,但這同樣會損失一些模型準確性;3)可以用一些其他方法比如加上一些擾動,使得生成的數(shù)據(jù)離元數(shù)據(jù)比較遠,目前已經(jīng)有人用該方法來保護藝術(shù)家的 IP。
更多關(guān)于 Privacy Protection 的方法也值得研究,預計這會是一個非常有意思的領(lǐng)域。目前,李博團隊在 Privacy-preserving model training and data generation 方面也有一些工作,其主要專注于研究 ChatGPT 在內(nèi)的大模型的可信賴問題,包括安全問題、公平問題、以及優(yōu)化大語言模型不要輸出 Toxic Languages 等。
同時,該團隊還和英偉達合作了 Retrieval-Augmented Visual-Language 大模型,以讓模型可以利用 Vision 和 Language 的信息做有效的信息整合,以及 Retrieval-Augmented 9.5B 語言模型。
當然,中國做 ChatGPT 之類的模型也有自己的優(yōu)勢。瀾舟科技創(chuàng)始人兼 CEO、AI 科學家周明博士認為,在追趕 ChatGPT 上,中國需要更懂中文、更懂中國、更懂中國人的 ChatGPT,在基于中文的認知智能賽道中,中國有換道超車的優(yōu)勢,國內(nèi)產(chǎn)學研必須“組隊對抗”,“新技術(shù)、新研究一定要落到產(chǎn)業(yè)中,再通過產(chǎn)業(yè)反饋帶動新技術(shù)、新研究的新一輪飛躍。
另據(jù)悉,瀾舟科技將與中文在線共建 AIGC 技術(shù)在文學創(chuàng)作領(lǐng)域的輔助技術(shù),探索在漫畫、動畫、視頻等 IP 衍生業(yè)務領(lǐng)域的新型內(nèi)容生產(chǎn)方式。
支持:Ren
掃描二維碼推送至手機訪問。
版權(quán)聲明:本文由財神資訊-領(lǐng)先的體育資訊互動媒體轉(zhuǎn)載發(fā)布,如需刪除請聯(lián)系。