CIKM2022 | ChiQA-一個基于20萬個真實用戶問題的圖片問答數(shù)據(jù)集
機器之心發(fā)布
作者:QQ瀏覽器搜索技術中心
近年來,隨著問答技術和多模態(tài)理解技術的蓬勃發(fā)展,視覺問答任務(Visual Question Answering)變得越來越受關注。諸如 VQA、CLEVER、Visual-7W 等大規(guī)模視覺問答數(shù)據(jù)集陸續(xù)發(fā)布,極大地推動了視覺問答任務的迭代發(fā)展。然而,當前大部分視覺問答數(shù)據(jù)都是人工合成問題,如 “她的眼睛是什么顏色” 這種標注者在看到圖片后虛構(gòu)設計出的。人工產(chǎn)生的數(shù)據(jù)會相對簡單、低質(zhì)甚至有偏。因此,在這項工作中,我們基于 QQ 瀏覽器中用戶真實的問題,提出了一個基于中文的大規(guī)模圖片問答數(shù)據(jù)集:ChiQA。
ChiQA 包含有超過 4 萬個真實用戶 query 和超過 20 萬個問題 - 圖像對。數(shù)據(jù)和一些 baseline 模型已經(jīng)公布在GitHub。相關研究已經(jīng)被 CIKM2022 長文錄用。

論文地址:
https://arxiv.org/abs/2208.03030
Github地址:
https://github.com/benywon/ChiQA
對比單模態(tài)問答任務
ChiQA的三個顯著特性
問答系統(tǒng)(Question Answering) 是人工智能和智能語言處理中非常重要的任務之一。近年來,隨著大規(guī)模數(shù)據(jù)集(如 SQuAD、NaturalQuestions)的發(fā)布以及大規(guī)模預訓練語言模型(如 BERT、GPT)的提出,問答任務得到了飛速的發(fā)展。然而,當前大部分問答任務都是單模態(tài)的,即問題、資源以及答案都是基于文本的。然而,從認知智能以及實際應用的角度來說,多模態(tài)資源如圖像在很多時候往往能提供更為豐富的信息和答案。例如,對于一個問題:iPhone13 的尺寸是多少?一個針對 iPhone13 不同型號的尺寸對比圖會更加清楚和直觀。還有一些例子如下圖所示:
圖一:一些適合用圖片回答用戶問題的例子
最近幾年,針對多模態(tài)理解的問答數(shù)據(jù)和任務被相繼提出。如 VQA1.0 和 2.0、CLEVR、GQA 等等。在大部分圖像問答數(shù)據(jù)集中,系統(tǒng)提供一些人工生成或者真實的圖像給標注者,標注者需要人工寫出一些針對特定屬性或者實體的問題。然而,這種數(shù)據(jù)收集過程不可避免的有很多缺陷:
1)所有的問題都是圖像相關的(image-dependent),即標注者看到圖片之后提出問題。在大規(guī)模數(shù)據(jù)構(gòu)建過程中,人工生成的問題往往會缺乏多樣性,而且往往由于標注者的主觀因素會產(chǎn)生偏置。在這種先看資源,再提問的數(shù)據(jù)上訓練的模型往往可以不用看背景資源只看問題而輕易達到非常好的效果;
2)其次,在傳統(tǒng)的 VQA 數(shù)據(jù)中,答案往往是一個簡單的實體、關系或者簡單對特定區(qū)域的描述。然而對于實際的圖像問答任務中,很多文本性答案是不必要的,例如對于問題:“羊駝長什么樣”,提供一個冗長的答案描述羊駝的外表顯得非常冗余。其次,這種簡短的實體描述往往會讓標注者只關注到局部關系,而很少注意真正整體結(jié)構(gòu)上的一些信息;
3)最后,大部分之前的資源往往是專注于英文,在中文領域的圖像問答數(shù)據(jù)很少。
在這個工作中,針對以上幾個問題,我們提出了一個大規(guī)模的中文圖像問答數(shù)據(jù)集 - ChiQA(Chinese Image Question Answering)。我們通過手機 QQ 瀏覽器中用戶真實的搜索詞出發(fā),通過特定 API 檢索到相關的若干張圖片,然后將圖片交由經(jīng)過專業(yè)培訓的標注人員進行三級標注,以表示該圖片是否能完美回答(2 分)、部分回答(1 分)以及不能回答(0 分)用戶的問題。對于 ChiQA 來說,有三個顯著的特點:
真實問題,真實圖片:ChiQA 中的圖片來源于隨機用戶的查詢。這些查詢是開放域中隨機的用戶 query,這些 query 非常多樣,而且 query 的領域分布非常廣泛。這樣隨機的多樣性 query 保證了我們的數(shù)據(jù)中的問題不會有偏;
可回答性:對于問答任務來說,可回答性是一個非常重要的方面。在 ChiQA 中我們不要求標注人員給出最終的答案:因為這樣往往會引入一些額外的偏置,比如標注人員的常識。相反的,我們著重于可回答性,即圖片對于問題是否可以回答。這種可回答性可以讓 ChiQA 的標注人員既需要理解 query,也需要理解圖片;
無偏的:因為隨機 query 中也會存在 28 定律,即一些高頻或者單一的問題往往會出現(xiàn)很多次,數(shù)據(jù)中這種簡單模式的問題會占據(jù)大多數(shù),造成數(shù)據(jù)中真正跨模態(tài)理解的偏置。因此,我們在數(shù)據(jù)收集過程中引入了兩階段的主動學習過程,在第一階段隨機 query 標注完成后,我們訓練了一個簡單的模型,然后用這個模型挑選出 "更難" 的一些模型,從而讓二階段的標注數(shù)據(jù)中數(shù)據(jù)的豐富度和難度相對更高。
圖二:ChiQA 和業(yè)界其他一些圖像問答數(shù)據(jù)的對比
最終我們收集了超過 40000 個問題,每個問題都有大約 5 個相關的圖片,即總量超過 20 萬的問題 - 圖片對。每個問題都有若干張圖片,我們對每個圖片以2-1-0進行三擋打分。
一些 ChiQA 中的例子如下圖所示:
圖三:ChiQA 中一些樣本的示例。
數(shù)據(jù)收集:所有問題均來源于用戶真實查詢
整個數(shù)據(jù)的收集過程可以分為四步,整體流程圖如下:
圖四:數(shù)據(jù)收集過程
對于 ChiQA 來說,其一大特色是所有的問題都來源于用戶真實的查詢。然而,如果我們隨機從搜索引擎用戶的搜索日志中采樣用戶的查詢,那么大部分查詢都是沒有問答意圖的。
因此我們首先需要過濾出有問答意圖的 query。在這個工作中,我們采用了一種內(nèi)部構(gòu)造的弱監(jiān)督方法訓練了一個二分類器,來判定一個 query 是不是有問答意圖。人工評測這個意圖模型能夠達到 90% 的精度以及 80% 的召回。我們通過這個模型對用戶的 query 進行采樣,得到了大約 7.5 萬個經(jīng)過模型判定具有問答意圖的用戶 query 進入下一輪。
圖像收集&標注過程和經(jīng)驗
得到了問題之后,我們將這些問題發(fā)送給谷歌提供的開放 API(Google Images API - SerpApi)進行相關圖像檢索。谷歌 API 對每個 query 會返回最相關的 100 個圖像。為了保證最后數(shù)據(jù)的質(zhì)量,我們?nèi)サ袅四切╅L度或者寬度小于 200 像素的 query以及那些過長或者過寬的圖像。
得到了原始圖像之后,我們?nèi)〗?jīng)過過濾后的前 5 個圖片,并讓標注人員標注這個 query 和對應的 5 個圖片。我們內(nèi)部專門為本任務設計了一個標注界面,如下圖所示。
圖五:ChiQA 的標注界面
在標注過程中,我們讓標注人員標注三個方面:
1) 問題標注
由于本工作主要著眼于圖片問答,而事實上在普通的用戶問題中很多都和圖片問答無關(或者很難用圖片來回答)。因此我們首先讓標注人員標注這個問題是不是可以算作一個圖片問答的問題。例如:
如果一個問題是“xxx 和 xxx 的差別”,那么這個問題就會被認為是一個具有圖像問答意圖的問題;
如果一個問題是模糊的、具有歧義的或者包含有沒有事實根據(jù)推論的觀點,那么這個問題就會被歸類于無圖像問答意圖,并且不會參與到后續(xù)圖片標注的過程中。
一些 query 標注的例子如圖 6 所示:
圖 6:query 標注的示例
2) 圖片標注
對于上一步中有效的 query,我們對其 5 個候選 query 進行標注。標注的標準是三級 0-1-2 標注,其中:
0 分表示這個圖片完全不能用來回答這個問題,2 分表示這個圖片質(zhì)量過關并且可以完全獨立的回答這個問題。而 1 分的圖片則介于這兩者之間,表示這個圖片和這個 query 相關,但是卻無法直接回答,用戶可能需要更多的查詢或者推理才能得到最終的答案。一些 0 分、1 分、2 分的例子如下圖所示:
圖七:對于問題“如何使用不同介詞”,圖片標注打分的示例
3) 質(zhì)量控制
我們在整個標注過程中采用了嚴格的質(zhì)量控制方案。具體來說,我們首先會邀請 3 個質(zhì)量團隊進行試標注,選擇標注質(zhì)量最好的那個團隊來標注余下所有的數(shù)據(jù)。其次,在標注過程中,我們會將標注數(shù)據(jù)分批,每一批次的數(shù)據(jù)我們會采樣其中五分之一的數(shù)據(jù)進行人工校驗,如果數(shù)據(jù)的合格率小于 90%,那么這一批次的數(shù)據(jù)將會被打回重新進行標注,直到數(shù)據(jù)精度達到 90%。
主動學習的數(shù)據(jù)標注
讓結(jié)果更無偏
經(jīng)過數(shù)據(jù)收集的工作,我們發(fā)現(xiàn)如果隨機對數(shù)據(jù)進行采樣和標注,那么數(shù)據(jù)中往往會存在一些簡單的模式,這種簡單的模式大量存在于數(shù)據(jù)中可能會對最終的模型造成偏置影響。因此,我們設計了一個主動學習的標注過程。具體來說,我們首先將讓標注人員標注一批數(shù)據(jù),這一批數(shù)據(jù)標注完成之后,我們就用這一批數(shù)據(jù)訓練一個跨膜態(tài)的文本圖像匹配模型。模型訓練完畢之后,我們開始用這個模型來 “選擇” 新的樣本:如果模型對這個新的樣本預測非常不確定(即最后分類預測的熵特別大),那么我們認為這個樣本相對模型較難,因此有較大概率保留到下一輪中間,反之說明模型對這個數(shù)據(jù)已經(jīng)很置信了,那么這個模型以較小的概率保留到下一輪中。
我們發(fā)現(xiàn)主動學習數(shù)據(jù)選擇過程確實使數(shù)據(jù)集更無偏。我們發(fā)現(xiàn)第一階段的標記數(shù)據(jù)包含一些難以察覺的偏置。例如,包含 “的技巧” 字的問題標記為有效問題,但幾乎所有相應的圖像被標記為無法回答(即 0 分),因此模型很可能不看圖片直接根據(jù) query 中的問題就預測出最終的結(jié)果。而這種主動學習的過程降低了這種可能性,這種高置信度且有偏的竅門(shortcut)在下一輪中很難被選擇上,從而降低了這種模式的影響面。
測試集標注
我們隨機從標注數(shù)據(jù)中篩選出來 2500 條數(shù)據(jù),并且讓不同的標注者重新標注。如果標注的結(jié)果和之前的結(jié)果一樣,則這個數(shù)據(jù)被保留為測試集,要是不一樣,我們讓一個對任務非常了解的“專家”重新標注這個數(shù)據(jù),最終得到了 2362 條測試數(shù)據(jù)以及超過 4 萬條訓練數(shù)據(jù)。訓練集和測試集的統(tǒng)計信息如下圖所示:
圖八:ChiQA 中訓練集和測試集的統(tǒng)計信息
數(shù)據(jù)的推理和分析
在標注完數(shù)據(jù)之后,我們對 ChiQA 中的數(shù)據(jù)進行統(tǒng)計和分析。
1)query 常用詞分析:
我們用結(jié)巴分詞對 query 進行切分,并且將 query 中的詞按照頻率展示在下面的云圖上:
可以看到 ChiQA 中最常見的 query 是區(qū)別、圖解、位置等。這和我們的直覺一樣,因為這些詞確實是很適合圖片來回答的問題。
2)領域分析
我們使用內(nèi)部的一個領域分類的分類器來對所有的 query 進行分類,最終的結(jié)果如下圖所示:
可以看到我們的數(shù)據(jù)包含有很多種領域的數(shù)據(jù),并且沒有某一種領域的數(shù)據(jù)是占絕對多數(shù)的。這保證了我們的數(shù)據(jù)分布是均勻的。其次,我們對問題里面的疑問詞也進行統(tǒng)計,結(jié)果如下圖所示:
可以看到 ChiQA 中 what 類和 how to 類問題占了大多數(shù),而其他的一些問題也有相當大的比例。
3)圖像分析
除了問題之外,我們也對 ChiQA 中的圖像進行了分析。由于圖像大部分是語言無關的,因此我們采用了一個在業(yè)界公認性能比較優(yōu)良的目標檢測模型 DETR 來挖掘出圖像中的實體。DETR 可以將圖像中的實體映射到標準 MS-COCO 定義的實體中,如 “人物”、“狗” 等。我們對 ChiQA 中的每個圖像挖掘出實體,并將最高頻次的實體分布展示在下圖中:
可以看到在 ChiQA 中有超過 30 個實體出現(xiàn)了至少 1000 次,這顯示出 ChiQA 是一個分布非常均勻并且覆蓋了大部分領域的圖像數(shù)據(jù),其中出現(xiàn)次數(shù)最多的實體是 “人物”、“手機”、“汽車” 等。這個和問題的分布類似。
4)推理技能
為了更好地分析數(shù)據(jù),我們還對 ChiQA 數(shù)據(jù)中所需要的推理技能進行了分析。著重分析了 5 中需要推理的技能:
Grouding: 需要模型和系統(tǒng)將問題中提到的實體進行理解和定位
閱讀:需要模型理解圖片中出現(xiàn)的文字部分
對比:需要模型對比一些不同的屬性和內(nèi)容,例如身高、大小等等
因果推理:模型需要深層次理解問題和圖片中存在的因果部分(即事物發(fā)生的原因或者造成的結(jié)果)
邏輯推理:需要模型理解問題或者圖片中的一些邏輯比較因素,例如否定、條件等等
我們隨機采樣了 200 條數(shù) ChiQA 據(jù)并且根據(jù)上述 5 個標準進行標注,其中某些數(shù)據(jù)可能需要不止一種推理技能。其結(jié)果如下圖所示。
可以看到除了 Grouding 之外,超過 80% 的 ChiQA 數(shù)據(jù)需要深度理解圖片中的文字和對比關系。這和之前大部分的 VQA 數(shù)據(jù)很不一樣。其次,有相當多的問題需要邏輯和對比,說明 ChiQA 中的數(shù)據(jù)具有相當?shù)碾y度。我們認為對 ChiQA 中推理技能的分析可以幫助我們更好地理解這個數(shù)據(jù),并且為后續(xù)的模型設計提供一些先驗的指導。
實驗評估指標
在 ChiQA 數(shù)據(jù)集中,標注打分有三擋:0,1,2,所以在實驗中我們測試模型排序的指標和普通分類的指標。分為三類:
NDCG@N:Normalized Discounted Cumulative Gain
Mean Average Precision(MAP@N):平均精度 (MAP@N)
Accuray / Precision / Recall / F1
基線模型
我們在 ChiQA 數(shù)據(jù)集上實驗了多個常用的模型。仿照之前圖片 - 文本匹配的工作,我們先把圖片和文本分別用編碼器進行編碼,然后將它們的表示進行跨模態(tài)融合,最后用一個預測層來獲取匹配得分。在下面所列模型中,加?代表模型經(jīng)過了預訓練,加?則表示沒有。
Random?:對測試集中的每條數(shù)據(jù),在 0、1、2 中隨機選擇一個預測分數(shù),random 模型是作為 ChiQA 上的一個基線模型。
Majority?:選擇訓練集中出現(xiàn)最多的標簽作為測試集上所有數(shù)據(jù)的預測分數(shù)。
LSTM+ResNet?:在文本和視覺的大規(guī)模預訓練模型出現(xiàn)前,LSTM 和 ResNet 分別是文本和視覺領域最常用的模型之一。
Bert+ViT?:我們使用 Bert 模型編碼查詢文本,使用 ViT 模型編碼圖片,其中,Bert 和 ViT 模型都是在大規(guī)模無監(jiān)督數(shù)據(jù)上預訓練過的。最后使用 < CLS > 的表示向量進行匹配分數(shù)預測。
ALBEF?:ALBEF 是一種大規(guī)模的視覺和語言表示學習,已經(jīng)在各種視覺語言任務上展示出較大的改進。
+Pretrain?:對于中文的跨模態(tài)預訓練,我們在悟空數(shù)據(jù)集上對Bert-ViT和ALBEF進行跨膜態(tài)預訓練,預訓練方式和ALBEF類似。悟空數(shù)據(jù)集是一個包含1億個圖片-文本對的開源跨模態(tài)數(shù)據(jù)。
Wenlan?:Wenlan 是一個大規(guī)模的多模態(tài)預訓練模型,在 3000 萬文本-圖像對上進行了訓練,模型包含近十億個參數(shù)。我們使用他們公開的api服務獲取文本和圖片的表示向量,并使用兩個向量的Cos相似度作為預測的匹配分數(shù)。
Human:除了上述這些模型,我們還評估了人類在測試集上的預測水平。由于測試集數(shù)據(jù)較多,我們?nèi)斯るS機抽樣了 100 條數(shù)據(jù)進行預測和評估預測指標。
以下是結(jié)果顯示:
上述模型在測試集上的指標如圖所示。我們可以看到,直接應用之前最先進的跨模態(tài)方法的效果很差,指標僅比隨機打分模型好一點。這意味著 ChiQA 數(shù)據(jù)較難,僅使用大規(guī)模的弱監(jiān)督對比學習的模型,如 ALBEF*、Wenlan,可能無法區(qū)分視覺問答所需的細粒度信息。此外,這些模型的糟糕表現(xiàn)說明,ChiQA 數(shù)據(jù)集不同于之前弱監(jiān)督的圖像 - 文本匹配數(shù)據(jù),因為弱監(jiān)督的圖像 - 文本匹配側(cè)重于相關性,而 ChiQA 數(shù)據(jù)同時要求圖片的可回答性。
最后,在 ChiQA 上微調(diào)的模型在基線上取得了很大的進步,但與人類的表現(xiàn)仍然相差較遠,所以模型在 ChiQA 數(shù)據(jù)集還有很大的提升空間。
ChiQA在產(chǎn)品里的應用
隨著互聯(lián)網(wǎng)的發(fā)展,用戶對問答的需求更高,需要系統(tǒng)提供更為直觀、便捷的答案。特別是最近幾年,多媒體內(nèi)容愈加的豐富,以圖片、視頻為載體的問答內(nèi)容越來越多的出現(xiàn)在公眾面前。QQ 瀏覽器實驗室立知團隊在今年 4 月份率先在業(yè)界推出圖片問答項目,如用戶搜獼猴桃和奇異果的區(qū)別,結(jié)果會以圖片的形式直觀的展現(xiàn)在用戶面前。如下圖所示:
當前這種可以直接由圖片滿足的問題上線后取得了良好的效果。我們觀察到其用戶行為(如 CTR、換詞率等)相較于傳統(tǒng)的結(jié)果有著明顯的改善,說明當前以圖片等為載體的 “新問答” 是一個更能滿足用戶需求的產(chǎn)品業(yè)務。
作者團隊介紹
QQ 瀏覽器搜索技術中心團隊是騰訊 PCG 信息平臺與服務線負責搜索技術研發(fā)的團隊,依托騰訊內(nèi)容生態(tài),通過用戶研究驅(qū)動產(chǎn)品創(chuàng)新,為用戶提供圖文、資訊、小說、長短視頻、服務等多方位的信息需求滿足。在算法方面,以自然語言處理、深度學習、多模態(tài)理解與生成、知識計算與應用等技術為基礎,建設內(nèi)容理解、相關性和排序、多模態(tài)搜索、智能問答、多語言翻譯、搜索推薦等技術方向,探索和應用業(yè)界先進技術、打造更優(yōu)秀的用戶搜索體驗;在工程方面,建設搜索技術中臺工業(yè)化系統(tǒng),打磨高性能、高可用、低成本的百億級檢索系統(tǒng),為騰訊 PCG 各個內(nèi)容業(yè)務的搜索場景提供基礎的搜索引擎服務,當前已支持 QQ 瀏覽器、騰訊視頻、騰訊新聞、騰訊微視等 PCG 多條產(chǎn)品線。
掃描二維碼推送至手機訪問。
版權(quán)聲明:本文由財神資訊-領先的體育資訊互動媒體轉(zhuǎn)載發(fā)布,如需刪除請聯(lián)系。