「12月22日」十一篇(將)開源論文代碼分享
作者 | CV君
編輯 | CV君
報(bào)道 | 我愛計(jì)算機(jī)視覺(微信id:aicvml)
#手-物抓取#
GOAL: Generating 4D Whole-Body Motion for Hand-Object Grasping
馬普所
生成運(yùn)動(dòng)逼真的數(shù)字人有很多應(yīng)用,因此被廣泛研究,但現(xiàn)有的方法主要集中在身體的主要肢體上,忽略了手和頭。手部雖已被單獨(dú)研究,但重點(diǎn)是生成真實(shí)的靜態(tài)抓取物體。為了合成與世界互動(dòng)的虛擬人物,需要同時(shí)生成全身運(yùn)動(dòng)和真實(shí)的手部抓握。這兩個(gè)子問題本身就很有挑戰(zhàn)性,如果結(jié)合在一起,姿勢(shì)的狀態(tài)空間就會(huì)大大增加,手和身體運(yùn)動(dòng)的尺度也不同,全身的姿勢(shì)和手的抓握必須一致,滿足物理約束,并且是合理的。此外,頭部也參與其中,因?yàn)閯?dòng)畫必須看著物體才能與之互動(dòng)。
本次研究任務(wù),首次解決了生成 avatar 抓取未知物體的全身、手和頭運(yùn)動(dòng)的問題。作為輸入,所提出方法 GOAL,需要一個(gè)三維物體、它的位置和一個(gè)起始三維身體姿勢(shì)和形狀。GOAL 使用兩個(gè)新的網(wǎng)絡(luò)輸出一個(gè)全身姿勢(shì)序列。首先,GNet生成一個(gè)目標(biāo)全身抓握,具有現(xiàn)實(shí)的身體、頭部、手臂和手的姿勢(shì),以及手與物體的接觸。其次,MNet生成起始姿勢(shì)和目標(biāo)姿勢(shì)之間的運(yùn)動(dòng)。
它要求 avatar 以腳踏實(shí)地的方式走向物體,將頭轉(zhuǎn)向它,伸出手,以逼真的手的姿勢(shì)和手與物體的接觸抓住它。為了實(shí)現(xiàn)這一目標(biāo),網(wǎng)絡(luò)利用一種結(jié)合SMPL-X身體參數(shù)和三維頂點(diǎn)偏移的表示方法。
在GRAB數(shù)據(jù)集上對(duì)GOAL進(jìn)行了定性和定量的訓(xùn)練和評(píng)估。結(jié)果表明,GOAL對(duì)未見過的物體有很好的概括性,表現(xiàn)優(yōu)于基線。GOAL在合成真實(shí)的全身物體抓取方面邁出了一步。
將開源:https://goal.is.tuebingen.mpg.de/
論文:https://arxiv.org/abs/2112.11454
#Transformer#
Learned Queries for Efficient Local Attention
特拉維夫大學(xué)&Reichman University
Vision Transformers(ViT)作為強(qiáng)大的視覺模型,與前些年主導(dǎo)視覺研究的卷積神經(jīng)網(wǎng)絡(luò)不同,Vision Transformers 享有捕捉數(shù)據(jù)中長(zhǎng)距離依賴關(guān)系的能力。然而,任何 Transformers 架構(gòu)的一個(gè)組成部分,即自關(guān)注機(jī)制,存在著高延遲和低效率的內(nèi)存利用,使其不太適合高分辨率的輸入圖像。
為此,分層視覺模型在非交錯(cuò)窗口上局部采用了自關(guān)注。這種松弛將復(fù)雜性降低到與輸入大小成線性關(guān)系;然而,它限制了跨窗口的互動(dòng),損害了模型的性能。
在本文中,提出一個(gè)新的移位不變的局部注意力層,query and attend(QnA),它以重疊的方式在局部聚集輸入,很像卷積。QnA的關(guān)鍵思想是引入學(xué)習(xí)查詢,這允許快速和有效的實(shí)施。通過將其納入一個(gè)分層的 Vision Transformers 模型來驗(yàn)證層的有效性。
以及展示在速度和內(nèi)存復(fù)雜性方面的改進(jìn),同時(shí)實(shí)現(xiàn)了與最先進(jìn)的模型相媲美的準(zhǔn)確性。最后,該層隨著窗口大小的變化擴(kuò)展得特別好,需要的內(nèi)存比現(xiàn)有方法少10倍,而速度卻快5倍。
將開源:https://github.com/moabarar/qna
論文:https://arxiv.org/abs/2112.11435
#圖像生成#
StyleSDF: High-Resolution 3D-Consistent Image and Geometry Generation
華盛頓大學(xué)&Adobe Research&斯坦福大學(xué)
StyleSDF,是一種高分辨率、三維一致的圖像和形狀生成技術(shù)。該方法只在單視圖RGB數(shù)據(jù)上進(jìn)行訓(xùn)練,并站在 StyleGAN2 的肩膀上進(jìn)行圖像生成,同時(shí)解決了3D感知GAN的兩個(gè)主要挑戰(zhàn):1)高分辨率、視圖一致的RGB圖像的生成,2)詳細(xì)的3D形狀。通過合并基于SDF的3D表示和基于風(fēng)格的2D生成器來實(shí)現(xiàn)這一目標(biāo)。
三維隱含網(wǎng)絡(luò)渲染了低分辨率的特征圖,基于風(fēng)格的網(wǎng)絡(luò)從中生成了視圖一致的1024×1024圖像。值得注意的是,基于SDF的三維建模定義了詳細(xì)的三維表面,導(dǎo)致了一致的體積渲染。在視覺和幾何質(zhì)量方面,所提出方法顯示出與現(xiàn)有技術(shù)水平相比更高的質(zhì)量結(jié)果。
將開源:https://github.com/royorel/StyleSDF
論文:https://arxiv.org/abs/2112.11427
#圖像分割##Transformer#
iSegFormer: Interactive Image Segmentation with Transformers
iSegFormer,一種新型的基于 Transformer 的交互式圖像分割方法。iSegFormer建立在現(xiàn)有的分割 Transformer 之上,將用戶的點(diǎn)擊作為額外的輸入,允許用戶交互地、反復(fù)地完善分割掩碼。并在幾個(gè)公共基準(zhǔn)上評(píng)估了iSegFormer,包括自然和醫(yī)學(xué)圖像。
評(píng)估結(jié)果顯示,iSegFormer 在自然圖像上取得了與最新技術(shù)相當(dāng)?shù)慕Y(jié)果,并且無需微調(diào)就能很好地推廣到醫(yī)學(xué)圖像上。評(píng)估結(jié)果表明,所提出的方法具有很強(qiáng)的通用性和有效性。
已開源:https://github.com/qinliuliuqin/iSegFormer
論文:https://arxiv.org/abs/2112.11325
#文本檢測(cè)#
Hateful Memes Challenge: An Enhanced Multimodal Framework
臉書人工智能提出的 Hateful Meme 挑戰(zhàn)賽吸引了世界各地的參賽者。該挑戰(zhàn)的重點(diǎn)是檢測(cè)多模態(tài) Meme 中的 hateful speech(仇恨性言論)。各種最先進(jìn)的深度學(xué)習(xí)模型已經(jīng)被應(yīng)用于這個(gè)問題,挑戰(zhàn)賽排行榜上的表現(xiàn)也在不斷提高。
本文中,作者加強(qiáng)了 hateful(仇恨)檢測(cè)框架,包括利用 Detectron 進(jìn)行特征提取,探索不同損失函數(shù)的 VisualBERT 和 UNITER 模型的不同設(shè)置,研究 hateful memes(仇恨記憶)和 the sensitive text features(敏感文本特征)之間的關(guān)聯(lián),最后建立集成方法來提高模型性能。
在挑戰(zhàn)賽的測(cè)試集上,微調(diào)的VisualBERT、UNITER和合集方法的AUROC分別達(dá)到了0.765、0.790和0.803,擊敗了基線模型。
已開源:https://github.com/yatingtian/hateful-meme
論文:https://arxiv.org/abs/2112.11244
#運(yùn)動(dòng)預(yù)測(cè)#
Learning Human Motion Prediction via stochastic Differential Equations
吉林大學(xué)&浙江大學(xué)&南洋理工大學(xué)&杭州電子科技大學(xué)
文章提出一種新的方法,基于stochastic differential equations(隨機(jī)微分方程)和 path integrals(路徑積分)對(duì)人體運(yùn)動(dòng)問題進(jìn)行建模。在所提出方法中,每個(gè)骨骼關(guān)節(jié)的運(yùn)動(dòng)曲線被表述為一個(gè)基本的隨機(jī)變量,并以Langevin 方程為模型。GAN被用來模擬路徑積分,對(duì)可能的路徑進(jìn)行優(yōu)化。
實(shí)驗(yàn)結(jié)果表明,所提出方法在短期預(yù)測(cè)和長(zhǎng)期預(yù)測(cè)方面都大大超過了最先進(jìn)的方法。
總的來說,本次工作研究了利用隨機(jī)微分方程和路徑積分來模擬人類運(yùn)動(dòng)的新想法,并為這個(gè)方向奠定了理論基礎(chǔ)。并相信這是邁向更精確的運(yùn)動(dòng)預(yù)測(cè)和理論突破的堅(jiān)實(shí)一步。
將開源:https://github.com/herolvkd/MM-2021-StochasticMotionPrediction
論文:https://arxiv.org/abs/2112.11124
RepMLPNet: Hierarchical Vision MLP with Re-parameterized Locality
清華&中科院&曠視&亞伯大學(xué)
與卷積層相比,全連接(FC)層在建模長(zhǎng)距離依賴性方面更出色,但在捕捉局部模式方面更差,因此通常不太適合用于圖像識(shí)別。
本文提出一種方法, "Locality Injection",通過將平行信念核的訓(xùn)練參數(shù)合并到FC核中,將局部先驗(yàn)因素納入FC層。局部注入可以被看作是一種新穎的結(jié)構(gòu)重參數(shù)化方法,因?yàn)樗ㄟ^轉(zhuǎn)換參數(shù)來等效地轉(zhuǎn)換結(jié)構(gòu)。
在此基礎(chǔ)上,提出 RepMLP Block 多層感知器(MLP)塊,它使用三個(gè)FC層來提取特征,以及一個(gè)名為RepMLPNet的新型架構(gòu)。分層設(shè)計(jì)使RepMLPNet區(qū)別于其他同時(shí)提出的視覺MLP。由于它能產(chǎn)生不同層次的特征圖,它有資格作為下游任務(wù)(如語義分割)的骨干模型。
研究結(jié)果表明:
1)位置注入是MLP模型的一種通用方法;
2)與其他MLP相比,RepMLPNet具有良好的準(zhǔn)確性-效率權(quán)衡;
3)RepMLPNet是第一個(gè)能夠無縫轉(zhuǎn)移到城市景觀語義分割的MLP。
已開源:https://github.com/DingXiaoH/RepMLP
論文:https://arxiv.org/abs/2112.11081
#AAAI 2022##實(shí)例分割#
SOIT: Segmenting Objects with Instance-Aware Transformers
Hikvision Research Institute&ref="https://www.baidu.com/link?url=1XbL-F_1z6iuiZZAiXMuGdgXFmoOt94TQwX-dYg3UsWIbbEA5vGqg7gZCXgsh_HZ&wd=&eqid=a411ee9e000684020000000461c2c8b8">西安交通大學(xué)
本文提出一個(gè)端到端的實(shí)例分割框架,SOIT,它用實(shí)例感知Transformer來分割對(duì)象。受DETR~cite啟發(fā),所提出方法將實(shí)例分割視為一個(gè)直接的集合預(yù)測(cè)問題,并有效地消除了許多手工制作的組件,如RoI裁剪、一對(duì)多標(biāo)簽分配和非最大抑制(NMS)的需要。
在SOIT中,全局圖像背景下,多個(gè)查詢被學(xué)習(xí)來直接推理一組語義類別、邊界盒位置和像素級(jí)掩碼的物體嵌入。類別和邊界框可以很容易地通過一個(gè)固定長(zhǎng)度的向量嵌入。特別是像素大小的掩碼,是由一組參數(shù)嵌入的,以構(gòu)建一個(gè)輕量級(jí)的實(shí)例感知Transformer。之后,全分辨率的掩碼由實(shí)例感知Transformer產(chǎn)生,不涉及任何基于RoI的操作。
總的來說,SOIT引入一個(gè)簡(jiǎn)單的單階段實(shí)例分割框架,該框架既無RoI也無NMS。在MS COCO數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,SOIT明顯優(yōu)于最先進(jìn)的實(shí)例分割方法。此外,在一個(gè)統(tǒng)一的查詢嵌入中對(duì)多個(gè)任務(wù)的聯(lián)合學(xué)習(xí)也能大幅提高檢測(cè)性能。
將開源:https://github.com/yuxiaodongHRI/SOIT
論文:https://arxiv.org/abs/2112.11037
#密集預(yù)測(cè)##Transformer#
MPViT: Multi-Path Vision Transformer for Dense Prediction
ETRI&韓國(guó)科學(xué)技術(shù)院&AITRICS
密集的計(jì)算機(jī)視覺任務(wù),如目標(biāo)檢測(cè)和分割,需要有效的多尺度特征表示來檢測(cè)或分類具有不同大小的物體或區(qū)域。雖然卷積神經(jīng)網(wǎng)絡(luò)(CNN)一直是此類任務(wù)的主流架構(gòu),但近期所推出的 Vision Transformer(ViTs)旨在取代它們作為主干。與CNN類似,ViTs建立一個(gè)簡(jiǎn)單的多級(jí)結(jié)構(gòu)(即從細(xì)到粗),用于單尺度patche 的多尺度表示。
本次研究工作,以不同于現(xiàn)有Transformer 的視角,探索多尺度 patch 嵌入和多路徑結(jié)構(gòu),構(gòu)建 Multi-Path Vision Transformer(MPViT)。MPViT通過使用重疊卷積補(bǔ)丁嵌入,將相同大小~(即序列長(zhǎng)度)的特征與不同尺度的補(bǔ)丁同時(shí)嵌入。然后,不同尺度的標(biāo)記通過多條路徑獨(dú)立地送入Transformer編碼器,并將得到的特征聚合起來,從而在同一特征水平上實(shí)現(xiàn)精細(xì)和粗略的特征表示。由于多樣化、多尺度的特征表示,MPViTs從微小~(5M)擴(kuò)展到基本~(73M),在ImageNet分類、目標(biāo)檢測(cè)、實(shí)例分割和語義分割上,始終比最先進(jìn)的 Vision Transformer 取得更優(yōu)異的性能。這些廣泛的結(jié)果表明,MPViT 可以作為一個(gè)多功能的骨干網(wǎng)絡(luò),用于各種視覺任務(wù)。
將開源:https://github.com/youngwanLEE/MPViT
論文:https://arxiv.org/abs/2112.11010
#航空檢測(cè)#
Mapping industrial poultry operations at scale with deep learning and aerial imagery
微軟&Stanford RegLab
集中式動(dòng)物飼養(yǎng)場(chǎng)(CAFOs)對(duì)空氣、水和公眾健康構(gòu)成了嚴(yán)重的風(fēng)險(xiǎn),但事實(shí)證明對(duì)其進(jìn)行監(jiān)管具有挑戰(zhàn)性。美國(guó)政府問責(zé)局指出,一個(gè)基本挑戰(zhàn)是缺乏關(guān)于CAFO的全面位置信息。作者使用美國(guó)農(nóng)業(yè)部的國(guó)家農(nóng)業(yè)圖像計(jì)劃(NAIP)1米/像素的航空?qǐng)D像來檢測(cè)整個(gè)美國(guó)大陸的家禽CAFOs。訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型,以識(shí)別單個(gè)禽舍,并將性能最好的模型應(yīng)用于超過42TB的圖像,以創(chuàng)建第一個(gè)全國(guó)性的、開源的家禽CAFOs數(shù)據(jù)集。根據(jù)加州10個(gè)手工標(biāo)注縣的家禽CAFO設(shè)施位置的驗(yàn)證集來驗(yàn)證模型的預(yù)測(cè),并證明這種方法在填補(bǔ)環(huán)境監(jiān)測(cè)的空白方面具有巨大的潛力。
已開源:https://github.com/microsoft/poultry-cafos/
論文:https://arxiv.org/abs/2112.10988
#多標(biāo)簽識(shí)別##AAAI 2022#
Structured Semantic Transfer for Multi-Label Recognition with Partial Labels
廣東工業(yè)大學(xué)&中山大學(xué)
多標(biāo)簽圖像識(shí)別是一項(xiàng)基本而實(shí)用的任務(wù),因?yàn)楝F(xiàn)實(shí)世界的圖像本來就擁有多個(gè)語義標(biāo)簽。然而,由于輸入圖像和輸出標(biāo)簽空間的復(fù)雜性,很難收集大規(guī)模的多標(biāo)簽標(biāo)注。為了降低標(biāo)注成本,提出一個(gè) structured semantic transfer(SST)框架,該框架能夠用部分標(biāo)簽訓(xùn)練多標(biāo)簽識(shí)別模型,即每幅圖像只有一些標(biāo)簽是已知的,而其他標(biāo)簽是缺失的(也稱為未知標(biāo)簽)。
該框架由兩個(gè)互補(bǔ)的遷移模塊組成,探索圖像內(nèi)和跨圖像的語義關(guān)聯(lián),以遷移已知標(biāo)簽的知識(shí),為未知標(biāo)簽生成偽標(biāo)簽。具體來說,圖像內(nèi)語義遷移模塊學(xué)習(xí)圖像特定的標(biāo)簽共現(xiàn)矩陣,并根據(jù)該矩陣將已知標(biāo)簽映射到補(bǔ)充未知標(biāo)簽。同時(shí),一個(gè)跨圖像遷移模塊學(xué)習(xí)特定類別的特征相似性,幫助補(bǔ)充具有高相似性的未知標(biāo)簽。最后,已知和生成的標(biāo)簽都被用來訓(xùn)練多標(biāo)簽識(shí)別模型。
在微軟 COCO、Visual Genome 和 Pascal VOC 數(shù)據(jù)集上進(jìn)行的廣泛實(shí)驗(yàn)表明,所提出的 SST 框架獲得了比目前最先進(jìn)的算法更優(yōu)越的性能。
將開源:https://github.com/HCPLab-SYSU/HCP-MLR-PL
論文:https://arxiv.org/abs/2112.10941