創(chuàng)紀錄!網(wǎng)易數(shù)帆奪冠CVPR 2023多模態(tài)競賽(網(wǎng)易數(shù)帆招聘)
近日,由國際計算機視覺與模式識別會議(CVPR)主辦的第19屆多模態(tài)超光譜感知系列競賽(PBVS 2023)結(jié)果公布,網(wǎng)易數(shù)帆AI團隊在此次競賽中擊敗了復(fù)旦大學、西安電子科技大學、中科院、韓國科技大學、印度大學、美國空軍研究實驗室等國內(nèi)外105支知名隊伍,以絕對優(yōu)勢奪得多模態(tài)賽道冠軍,并在更嚴苛的評估規(guī)則下,將識別準確率大幅提升了29%,刷新了賽事紀錄。
CVPR是計算機視覺和模式識別領(lǐng)域最重要和權(quán)威的國際頂級會議,由電氣與電子工程師協(xié)會(IEEE)和計算機視覺基金會(CVF)共同主辦。CVPR舉辦的多模態(tài)超光譜感知系列競賽是計算機視覺和模式識別領(lǐng)域的重要賽事之一,自2004年以來已舉辦19屆。多模態(tài)是指用不同類型的數(shù)據(jù)協(xié)同推理,結(jié)合數(shù)據(jù)融合技術(shù),讓結(jié)果更加準確??梢园阉惐瘸扇祟愑靡曈X、聽覺、嗅覺和觸覺等感官來感知事物。這項賽事的特點是鼓勵參賽團隊用創(chuàng)新的多模態(tài)方法,利用不同的光譜圖像,比如SAR(合成孔徑雷達)和EO,來檢測、識別和跟蹤復(fù)雜場景中的目標,讓感知更加精確。
建模、數(shù)據(jù)與規(guī)則的多重挑戰(zhàn)
多模態(tài)算法將不同來源的信息以適當?shù)姆绞竭M行融合,這是AI領(lǐng)域?qū)为毷褂肧AR或EO模態(tài)算法效果不理想的解決方案。例如PBVS 2022中SAR最佳準確率只有36%,利用多模態(tài)技術(shù)結(jié)合SAR和EO則可以達到51%的準確率。
為了提高算法準確率,參賽團隊不僅需要在處理多模態(tài)數(shù)據(jù)時獲取關(guān)鍵信息,還要發(fā)掘不同模態(tài)之間的互補信息,并設(shè)計高效的特征提取和融合方法。換言之,多模態(tài)建模能力的優(yōu)劣對最終準確率具有決定性影響,而多模態(tài)信息的交互和挖掘也是競賽的關(guān)鍵和難點。
類別之間混淆嚴重是競賽設(shè)置的挑戰(zhàn)。如下圖所示,SAR模態(tài)的10個不同類別數(shù)據(jù)(每列為一個類別),每個類別提供了2張樣例圖片數(shù)據(jù),紅框的類別1和2,藍框的類別5和類別6,單從圖像上看近乎一樣,識別難度極大。
類別數(shù)據(jù)不平衡,圖片尺寸小,也為比賽帶來了一定挑戰(zhàn)。例如sedan類別數(shù)據(jù)有36.3w條,而flatbed truck with trailer等類別只有600條。而且這些數(shù)據(jù)中,尺寸最大的只有55x55px,最小的僅有31x31px。
和以往競賽不同,新的評估規(guī)則與類別不平衡形成了“雙殺”。具體而言,PBVS 2023在歷年的模型識別準確度(Accuracy)指標之外,還引入AUROC指標評估模型檢測異常樣本的能力,最終得分 Score = 0.75 Accuracy 0.25 AUROC。相比Accuracy關(guān)注分類正確的樣本比例,AUROC更關(guān)注不同閾值下的性能,因而在類別不平衡的情況下更可靠,但也意味著參賽團隊在建模中必須考慮樣本稀少的類別。
Transformer與級聯(lián)算法建功
對于多模態(tài)問題,網(wǎng)易數(shù)帆在嘗試、比對多種方法之后,最終選擇使用Transformer構(gòu)建不同模態(tài)之間的關(guān)系,進行特征交互,提升識別性能。由谷歌于2017年提出的Transformer模型,在NLP、視覺、語音、強化學習與推薦等領(lǐng)域都有成功應(yīng)用,在跨模態(tài)建模上優(yōu)勢明顯,是深度學習領(lǐng)域近年來的重要進展,也是當前引發(fā)AI技術(shù)革命的大語言模型的基礎(chǔ)。網(wǎng)易數(shù)帆AI團隊對于Transformer的創(chuàng)新和應(yīng)用具有多年的實踐和深厚的積累,也曾憑此技術(shù)創(chuàng)新獲得ASRU2019大賽端到端語音識別賽道冠軍。
對于混淆嚴重的問題,網(wǎng)易數(shù)帆提出了一個基于檢索增強的級聯(lián)結(jié)構(gòu)。該結(jié)構(gòu)包含兩級分類器,分別用于較為容易識別的類別和困難的類別。其中,一級分類器由CNN Transformer 分類頭構(gòu)成,能夠很好地識別較容易的樣本,同時過濾出難以區(qū)分的混淆樣本,并傳遞給二級分類器;二級分類器則采用p-Hash Retriever算法,包含一個p-Hash檢索器和一個細粒度分類器。p-Hash算法基于紋理相似性找出所有相似的類別形成類別簇,細粒度分類器對于該簇的所有樣本進行投票,投票最多的標簽被選舉為該簇所有樣本的最終標簽,由此解決混淆類別難以區(qū)分的問題。
此外,對于尺寸小,類別不平衡等難題,網(wǎng)易數(shù)帆使用了數(shù)據(jù)插值、數(shù)據(jù)增廣、動態(tài)采樣、Focal Loss損失函數(shù)等手段進行進一步的優(yōu)化性能。
經(jīng)過多重設(shè)計和優(yōu)化,網(wǎng)易數(shù)帆多模態(tài)算法總得分及各項指標成績排名均大幅度領(lǐng)先于競爭對手(下圖中overfittinghhh為網(wǎng)易數(shù)帆AI團隊),其中ACC 指標達到了80%,相對于2022年冠軍的51%,提升了29個百分點,大幅刷新了紀錄。
業(yè)務(wù)智能化倒逼算法進步
網(wǎng)易數(shù)帆多模態(tài)算法研發(fā)與打磨,得益于業(yè)務(wù)實踐的需求。這一算法已被用在LOFTER圖文多模態(tài)低質(zhì)審核項目中,幫助業(yè)務(wù)攔截了超過70%的惡意攻擊,日均過濾內(nèi)容7w左右,獲得了業(yè)務(wù)的好評。在網(wǎng)易云音樂業(yè)務(wù),如在質(zhì)量審核中,多模態(tài)算法線上準確度超過了95%,基本達到了人工審核效果。整個2022年度,該算法大約承擔了網(wǎng)易云音樂10位專業(yè)運營人員一年的總工作量。
從整個行業(yè)來看,多模態(tài)是全球?qū)W術(shù)界、工業(yè)界和政府機構(gòu)的研究人員持續(xù)關(guān)注的熱點領(lǐng)域,常應(yīng)用傳感/成像技術(shù)、監(jiān)控和偵察系統(tǒng)等,且在無人駕駛、公共安全和國防等特殊領(lǐng)域具有重大的研究價值。在跨模態(tài)大模型成為星辰大海的今天,網(wǎng)易數(shù)帆認為,基于多模態(tài)的創(chuàng)新及相關(guān)技術(shù)積累,將為智慧生產(chǎn)力模型進一步迭代夯實“內(nèi)功”,幫助企業(yè)增加智慧資產(chǎn)的豐富度,在業(yè)務(wù)數(shù)字化、智能化轉(zhuǎn)型中發(fā)揮更大的作用,實現(xiàn)技術(shù)創(chuàng)新與業(yè)務(wù)發(fā)展的雙贏。