0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

作者:謝宣松 阿里達(dá)摩院開放視覺智能負(fù)責(zé)人

編輯:好困

新智元導(dǎo)讀】11 月 3 日,在 2022 云棲大會上,阿里達(dá)摩院聯(lián)手 CCF 開源發(fā)展委員會共同推出了 AI 模型社區(qū)「魔搭」ModelScope。本文,阿里達(dá)摩院開放視覺智能負(fù)責(zé)人謝宣松,深入解析了魔搭社區(qū)里首批開源的 101 個視覺 AI 模型。

計算機(jī)視覺人工智能的基石,也是應(yīng)用最廣泛的 AI 技術(shù),從日常手機(jī)解鎖使用的人臉識別,再到火熱的產(chǎn)業(yè)前沿自動駕駛,視覺 AI 都大顯身手。

作為一名視覺 AI 研究者,我認(rèn)為視覺 AI 的潛能遠(yuǎn)未得到充分發(fā)揮,窮盡我們這些研究者的力量,也只能覆蓋少數(shù)行業(yè)和場景,遠(yuǎn)未能滿足全社會的需求。

因此,在 AI 模型社區(qū)魔搭 ModelScope 上,我們決定全面開源達(dá)摩院研發(fā)的視覺 AI 模型,首批達(dá) 101 個,其中多數(shù)為 SOTA 或經(jīng)過實(shí)踐檢驗(yàn)。我們希望讓更多開發(fā)者來使用視覺 AI,更期待 AI 能成為人類社會前進(jìn)的動力之一。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

魔搭社區(qū)地址:modelscope.cn

背景

AI 模型較為復(fù)雜,尤其是要應(yīng)用于行業(yè)場景,往往需要重新訓(xùn)練,這使得 AI 只掌握在少數(shù)算法人員手中,難以走向大眾化。

而新推出的魔搭社區(qū) ModelScope,踐行模型即服務(wù)的新理念(Model as a Service),提供眾多預(yù)訓(xùn)練基礎(chǔ)模型,只需針對具體場景再稍作調(diào)優(yōu),就能快速投入使用。

達(dá)摩院率先向魔搭社區(qū)貢獻(xiàn) 300 多個經(jīng)過驗(yàn)證的優(yōu)質(zhì) AI 模型,超過 1/3 為中文模型,全面開源開放,并且把模型變?yōu)橹苯涌捎玫姆?wù)。

社區(qū)首批開源模型包括視覺、語音、自然語言處理、多模態(tài)等 AI 主要方向,并向 AI for Science 等新領(lǐng)域積極探索,覆蓋的主流任務(wù)超過 60 個。

模型均經(jīng)過專家篩選和效果驗(yàn)證,包括 150 多個 SOTA(業(yè)界領(lǐng)先)模型和 10 多個大模型,全面開源且開放使用。

概要:以人為中心的視覺 AI

這些年來,達(dá)摩院作為阿里巴巴的基礎(chǔ)科研機(jī)構(gòu)和人才高地,在阿里海量業(yè)務(wù)場景中研發(fā)出一批優(yōu)秀的視覺 AI 能力,分布在各個環(huán)節(jié):

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

這些視覺 AI 技術(shù),幾乎覆蓋了從理解到生成等各方面。因視覺技術(shù)任務(wù)眾多,我們需要有一個相對合理的分類方法,可以從模態(tài)、對象、功能、場景等幾個維度來分:

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

魔搭社區(qū)首批開放了主要的視覺任務(wù)模型,這些模型即有學(xué)術(shù)創(chuàng)新的 SOTA 技術(shù),也有久經(jīng)考驗(yàn)的實(shí)戰(zhàn)模型,從「功能 / 任務(wù)」的維度上,涵蓋了常見的感知、理解、生產(chǎn)等大類:

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

雖然視覺技術(shù)有點(diǎn)龐雜,但其實(shí)有個核心,那就是研究「對象」,「人」一直以來都是最重要的「對象」。「以人為中心」的視覺 AI 技術(shù),也是研究最早最深、使用最普遍的技術(shù)。

我們以一個人的照片作為起點(diǎn)。

AI 首先需要理解這個照片 / 圖像,如識別這個照片是誰,有什么動作,能否摳出像等。

然后,我們還需要進(jìn)一步探索:照片質(zhì)量如何,能否畫質(zhì)變得更好,其中的人能否變得更漂亮,甚至變成卡通人、數(shù)字人等…

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

如上的 7 個「人」相關(guān)的流程,基本涵蓋了視覺任務(wù)中的「理解」、「增強(qiáng)」、「編輯」等大類,我們以魔搭社區(qū)已開放的相關(guān)模型為實(shí)例,來分享以人為中心的視覺技術(shù)的特點(diǎn)、優(yōu)點(diǎn)、示例以及應(yīng)用。

感知理解類模型

1. 從照片摳出人像

模型名:BSHM 人像摳圖

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

體驗(yàn)鏈接:https://www.modelscope.cn/models/damo/cv_unet_image-matting/

從照片摳出人像,去掉背景,是一個非常普遍的需求,也是「PS」的基本操作之一,但傳統(tǒng)人工操作費(fèi)時費(fèi)力、且效果不佳。

魔搭提供的人像摳圖模型,是一個 全自動、端到端的人像摳圖模型,能夠?qū)崿F(xiàn)發(fā)絲級別的精細(xì)分割。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

技術(shù)上我們也進(jìn)行了創(chuàng)新,不同于其他模型基于大量精細(xì)標(biāo)注數(shù)據(jù)訓(xùn)練的方法,我們的模型使用粗標(biāo)注數(shù)據(jù)就能實(shí)現(xiàn)精細(xì)摳圖,對數(shù)據(jù)要求低、精度高。

具體來說,模型框架分為三部分:粗 mask 估計網(wǎng)絡(luò)(MPN)、質(zhì)量統(tǒng)一化網(wǎng)絡(luò)(QUN)、以及精確 alpha matte 估計網(wǎng)絡(luò)(MRN)。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

我們首先將復(fù)雜問題拆解,先粗分割(MPN)再精細(xì)化分割(MRN)。

學(xué)術(shù)界有大量易獲取的粗分割數(shù)據(jù),但是粗分割數(shù)據(jù)和精分割數(shù)據(jù)不一致導(dǎo)致預(yù)期 GAP 很大,故而我們又設(shè)計了質(zhì)量統(tǒng)一化網(wǎng)絡(luò)(QUN)。

MPN 的用途是估計粗語義信息(粗 mask),使用粗標(biāo)注數(shù)據(jù)和精標(biāo)注數(shù)據(jù)一起訓(xùn)練。

QUN 是質(zhì)量統(tǒng)一化網(wǎng)絡(luò),用以規(guī)范粗 mask 質(zhì)量,QUN 可以統(tǒng)一 MPN 輸出的粗 mask 質(zhì)量。

MRN 網(wǎng)絡(luò)輸入原圖和經(jīng)過 QUN 規(guī)范化后的粗 mask,估計精確的 alpha matte,使用精確標(biāo)注數(shù)據(jù)訓(xùn)練。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

當(dāng)然,摳圖分割相關(guān)的需求非常多樣化,我們也上線了一系列模型,支持非人像摳圖以及視頻摳圖等。

開發(fā)者可以直接拿來即用,如進(jìn)行輔助設(shè)計師摳圖,一鍵摳圖,大幅提升設(shè)計效率,或者自由換背景,可實(shí)現(xiàn)會議虛擬背景、證件照、穿越等效果。這些也在阿里自有產(chǎn)品(如釘釘視頻會議)及云上客戶廣泛使用。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

2. 檢測并識別是誰

模型名:MogFace 人臉檢測

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

體驗(yàn)鏈接:https://www.modelscope.cn/models/damo/cv_resnet101_face-detection_CVPR22papermogface/

人臉檢測和識別是一個 AI 經(jīng)典任務(wù),也是應(yīng)用最廣泛的視覺技術(shù)之一;從另一方面看,其對效果和性價比要求非??量?。

我們自研的 MogFace 為當(dāng)前 SOTA 的人臉檢測方法,已在 Wider Face 六項榜單上霸榜一年半以上,具體技術(shù)論文發(fā)表于 CVPR2022,主要貢獻(xiàn)是從 label assignment, scale-level data augmentation and reduce false alarms 三個角度改進(jìn)人臉檢測器。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

技術(shù)上的特點(diǎn)有:

  • Scale-level Data Augmentation (SSE):SSE 是第一個從 maximize pyramid layer 表征的角度來控制數(shù)據(jù)集中 gt 的尺度分布,而不是 intuitive 的假想檢測器的學(xué)習(xí)能力,因此在不同場景下都很魯棒;
  • Adaptive Online Anchor Mining Strategy(Ali-AMS):減少對超參的依賴, 簡單且有效的 adpative label assign 方法;
  • Hierarchical Context-aware Module (HCAM):減少誤檢是真實(shí)世界人臉檢測器面對的最大挑戰(zhàn),HCAM 是最近幾年第一次在算法側(cè)給出 solid solution。

人臉檢測作為人臉相關(guān)的基礎(chǔ)能力,可應(yīng)用于人臉相冊 / 人臉編輯 / 人臉比對等場景。

由于人臉相關(guān)的模型使用非常廣泛,我們也有系列模型的迭代計劃,包括 MogFace 中所介紹的技術(shù)點(diǎn)除了 HCAM 均無需引入額外的計算量,后續(xù)準(zhǔn)備打造 SOTA 的 family-based 人臉檢測模型;以及真實(shí)世界的人臉檢測器除了面對減少誤檢的問題,還面對如何增加人臉檢出率的問題,以及他們之間如何平衡的問題,我們正在進(jìn)一步探索。

3. 人體關(guān)鍵點(diǎn)及動作識別

模型名字:HRNet 人體關(guān)鍵點(diǎn) -2D

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

體驗(yàn)鏈接:https://www.modelscope.cn/models/damo/cv_hrnetv2w32_body-2d-keypoints_image/

該任務(wù)采用自頂向下的人體關(guān)鍵點(diǎn)檢測框架,通過端對端的快速推理可以得到圖像中的 15 點(diǎn)人體關(guān)鍵點(diǎn)。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

其中人體關(guān)鍵點(diǎn)模型基于 HRNet 改進(jìn)的 backbone,充分利用多分辨率的特征較好地支持日常人體姿態(tài),在 COCO 數(shù)據(jù)集的 AP 和 AR50 上取得更高精度。

同時我們也針對體育健身場景做了優(yōu)化,尤其是在瑜伽、健身等場景下多遮擋、非常見、多臥姿等姿態(tài)上具有 SOTA 的檢測精度。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

為了更好的適用于各種場景,我們持續(xù)進(jìn)行優(yōu)化:

  • 針對通用場景的大模型在指標(biāo)上達(dá)到 SOTA 性能;
  • 針對移動端部署的小模型,內(nèi)存占用小,運(yùn)行快、性能穩(wěn)定,在千元機(jī)上達(dá)到 25~30FPS;
  • 針對瑜伽、跳繩技術(shù)、仰臥起坐、俯臥撐、高抬腿等體育健身計數(shù)和打分場景下多遮擋、非常見、多臥姿姿態(tài)等情況做了深度優(yōu)化,提升算法精度和準(zhǔn)確度。

本模型已經(jīng)廣泛應(yīng)用于 AI 體育健身、體育測試場景,如阿里體育樂動力,釘釘運(yùn)動,健身鏡等,也可應(yīng)用于 3D 關(guān)鍵點(diǎn)檢測和 3D 人體重建等場景。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

4. 小結(jié)

上述三個「人」相關(guān)的模型,都屬于感知理解這個大類。先認(rèn)識世界,再改造世界,感知理解類視覺技術(shù)是最基礎(chǔ)、也是應(yīng)用最廣泛的模型大類,也可以分為識別、檢測和分割三小類:

  • 識別 / 分類是視覺(包括圖像、視頻等)技術(shù)中最基礎(chǔ)也是最經(jīng)典的任務(wù),也是生物通過眼睛了解世界最基本的能力。簡單來說,判定一組圖像數(shù)據(jù)中是否包含某個特定的物體,圖像特征或運(yùn)動狀態(tài),知道圖像視頻中描述的對象和內(nèi)容是什么。此外,還需要了解一些更細(xì)維度的信息,或者非實(shí)體對象的一些描述標(biāo)簽。
  • 目標(biāo)檢測的任務(wù)是找出視覺內(nèi)容中感興趣的目標(biāo)(物體),確定它們的位置和大小,也是機(jī)器視覺領(lǐng)域的核心問題之一。一般來說,也會同時對定位到的目標(biāo)進(jìn)行分類識別。
  • 分割是視覺任務(wù)中又一個核心任務(wù),相對于識別檢測,它又更進(jìn)一步,解決「每一個像素屬于哪個目標(biāo)物或場景」的問題。是把圖像分成若干個特定的、具有獨(dú)特性質(zhì)的區(qū)域并提出感興趣目標(biāo)的技術(shù)和過程。

魔搭社區(qū)上面開放了豐富的感知理解類模型,供 AI 開發(fā)者試用使用:

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

5. 彩蛋:DAMO-YOLO 首次放出

模型名字:DAMOYOLO- 高性能通用檢測模型 -S

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

體驗(yàn)鏈接:https://www.modelscope.cn/models/damo/cv_tinynas_object-detection_damoyolo/summary

通用目標(biāo)檢測是計算機(jī)視覺的基本問題之一,具有非常廣泛的應(yīng)用。

DAMO-YOLO 是阿里新推出來的 目標(biāo)檢測框架,兼顧模型速度與精度,其效果超越了目前的一眾 YOLO 系列方法,且推理速度更快。

DAMO-YOLO 還提供高效的訓(xùn)練策略和便捷易用的部署工具,能幫助開發(fā)者快速解決工業(yè)落地中的實(shí)際問題。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

DAMO-YOLO 引入 TinyNAS 技術(shù),使得用戶可以根據(jù)硬件算力進(jìn)行低成本的檢測模型定制,提高硬件利用效率并且獲得更高精度。

另外,DAMO-YOLO 還對檢測模型中的 neck、head 結(jié)構(gòu)設(shè)計,以及訓(xùn)練時的標(biāo)簽分配、數(shù)據(jù)增廣等關(guān)鍵因素進(jìn)行了優(yōu)化。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

由于做了一系列優(yōu)化,DAMO-YOLO 在嚴(yán)格限制 Latency 的情況下精度取得了顯著的提升,成為 YOLO 框架中的新 SOTA。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

底層視覺模型

1. 照片去噪去模糊

模型名字:NAFNet 圖像去噪

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

體驗(yàn)地址:https://www.modelscope.cn/models/damo/cv_nafnet_image-denoise_sidd/

因拍攝環(huán)境、設(shè)備、操作等原因,圖像質(zhì)量不佳的情況時而存在,怎么對這些圖像的噪聲去除、模糊還原?

該模型在圖像恢復(fù)領(lǐng)域具有良好的泛化性,無論是圖像去噪還是圖像去模糊任務(wù),都達(dá)到了目前的 SOTA。

由于技術(shù)創(chuàng)新,該模型使用了簡單的乘法操作替換了激活函數(shù),在不影響性能的情況下提升了處理速度。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

該模型全名叫 NAFNet 去噪模型,即非線性無激活網(wǎng)絡(luò)(Nonlinear Activation Free Network),證明了常見的非線性激活函數(shù)(Sigmoid、ReLU、GELU、Softmax 等)不是必須的,它們是可以被移除或者是被乘法算法代替的。該模型是對 CNN 結(jié)構(gòu)設(shè)計的重要創(chuàng)新。

本模型可以做為很多應(yīng)用的前置步驟,如智能手機(jī)圖像去噪、圖像去運(yùn)動模糊等。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

2. 照片修復(fù)及增強(qiáng)

模型名字:GPEN 人像增強(qiáng)模型

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

體驗(yàn)地址:https://www.modelscope.cn/models/damo/cv_gpen_image-portrait-enhancement/

除照片去噪以外,對照片的質(zhì)量(包括分辨、細(xì)節(jié)紋理、色彩等)會有更高的處理要求,我們也開放了專門的人像增強(qiáng)模型,對輸入圖像中的每一個檢測到的人像做修復(fù)和增強(qiáng),并對圖像中的非人像區(qū)域采用 RealESRNet 做兩倍的超分辨率,最終返回修復(fù)后的完整圖像。該模型能夠魯棒地處理絕大多數(shù)復(fù)雜的真實(shí)降質(zhì),修復(fù)嚴(yán)重?fù)p傷的人像。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

從效果上看,GPEN 人像增強(qiáng)模型將預(yù)訓(xùn)練好的 StyleGAN2 網(wǎng)絡(luò)作為 decoder 嵌入到完整模型中,并通過 finetune 的方式最終實(shí)現(xiàn)修復(fù)功能,在多項指標(biāo)上達(dá)到行業(yè)領(lǐng)先的效果。

從應(yīng)用的視角,本模型可以修復(fù)家庭老照片或者明星的老照片,修復(fù)手機(jī)夜景拍攝的低質(zhì)照片,修復(fù)老視頻中的人像等。

后續(xù)我們將增加 1024、2048 等支持處理大分辨人臉的預(yù)訓(xùn)練模型,并在模型效果上持續(xù)更新迭代。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

3. 小結(jié)

底層視覺,關(guān)注的是畫質(zhì)問題。只要是生物(含人),都會對因光影而產(chǎn)生的細(xì)節(jié)、形狀、顏色、流暢性等有感應(yīng),人對高畫質(zhì)的追求更是天然的,但由于各種現(xiàn)實(shí)條件,畫質(zhì)往往不理想,這時候視覺 AI 就能派上用場。

從任務(wù)分類上,可以分為:清晰度(分辨率 / 細(xì)節(jié)、噪聲 / 劃痕、幀率)、色彩(亮度、色偏等)、修瑕(膚質(zhì)優(yōu)化、去水印字幕)等,如下表:

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

編輯生成類模型

1. 變得更漂亮

模型名字:ABPN 人像美膚

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

體驗(yàn)鏈接:https://www.modelscope.cn/models/damo/cv_unet_skin-retouching/

人們對照片人像的美觀度是一個剛性需求,包括斑點(diǎn)、顏色、瑕疵等,甚至高矮胖瘦。本次我們開放了專業(yè)級別的人像美膚、液化等模型供大家使用。

本模型提出了一個新穎的自適應(yīng)混合模塊 ABM,其利用自適應(yīng)混合圖層實(shí)現(xiàn)了圖像的局部精準(zhǔn)修飾。此外,我們在 ABM 的基礎(chǔ)上進(jìn)一步構(gòu)建了一個混合圖層金字塔,實(shí)現(xiàn)了超高清圖像的快速修飾。

相比于現(xiàn)有的圖像修飾方法,ABPN 在修飾精度、速度上均有較大提升。ABPN 人像美膚模型為 ABPN 模型在人像美膚任務(wù)中的具體應(yīng)用。

如下示例:

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

更進(jìn)一步,我們還可以在服飾上做一些有意思的嘗試,如去皺:

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

甚至瘦身美型:

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

體驗(yàn)鏈接:https://www.modelscope.cn/models/damo/cv_flow-based-body-reshaping_damo/summary

從效果上來說,有如下幾點(diǎn)特色:

  • 局部修飾。只對目標(biāo)區(qū)域進(jìn)行編輯,保持非目標(biāo)區(qū)域不動。
  • 精準(zhǔn)修飾。充分考慮目標(biāo)本身的紋理特征和全局上下文信息,以實(shí)現(xiàn)精準(zhǔn)修飾,去除瑕疵的同時保留皮膚本身的質(zhì)感。
  • 超高分辨率的處理能力。模型的混合圖層金字塔設(shè)計,使其可以處理超高分辨率圖像(4K~6K)。

本模型有很強(qiáng)的實(shí)用性,比如可應(yīng)用于專業(yè)修圖領(lǐng)域,如影樓、廣告等,提高生產(chǎn)力,也可以應(yīng)用于直播互娛場景,提升人像皮膚質(zhì)感。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

2. 變成卡通人

模型名:DCT-Net 人像卡通化模型

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

體驗(yàn)鏈接:https://www.modelscope.cn/models/damo/cv_unet_person-image-cartoon_compound-models/

人像卡通化是一個具有很好互動性的玩法,同時又有多種風(fēng)格可選。魔搭開放的人像卡通化模型基于全新的域校準(zhǔn)圖像翻譯網(wǎng)絡(luò) DCT-Net(Domain-Calibrated Translation)實(shí)現(xiàn),采用了「先全局特征校準(zhǔn),再局部紋理轉(zhuǎn)換」的核心思想,利用百張小樣本風(fēng)格數(shù)據(jù),即可訓(xùn)練得到輕量穩(wěn)定的風(fēng)格轉(zhuǎn)換器,實(shí)現(xiàn)高保真、強(qiáng)魯棒、易拓展的高質(zhì)量人像風(fēng)格轉(zhuǎn)換效果。

如下示例:

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

從效果上來看:

  • DCT-Net 具備內(nèi)容匹配的高保真能力,能有效保留原圖內(nèi)容中的人物 ID、配飾、身體部件、背景等細(xì)節(jié)特征;
  • DCT-Net 具備面向復(fù)雜場景的強(qiáng)魯棒能力,能輕松處理面部遮擋、稀有姿態(tài)等;
  • DCT-Net 在處理維度上和風(fēng)格適配度上具有易拓展性,利用頭部數(shù)據(jù)即可拓展至全身像 / 全圖的精細(xì)化風(fēng)格轉(zhuǎn)換,同時模型具有通用普適性,適配于日漫風(fēng)、3D、手繪等多種風(fēng)格轉(zhuǎn)換。

后續(xù)我們也會對卡通化進(jìn)行系列化的開放,除圖像轉(zhuǎn)換外,后續(xù)將包含圖像、視頻、3D 卡通化等系列效果,先放一些效果大家看看:

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

3. 小結(jié)

這類模型對圖像內(nèi)容進(jìn)行修改,包括對源圖內(nèi)容進(jìn)行編輯加工(增加內(nèi)容、刪除內(nèi)容、改換內(nèi)容等),或者直接生成一個新的視覺內(nèi)容,轉(zhuǎn)換一個風(fēng)格,得到一張新的圖像(基于源圖像且與源圖不同),都屬于編輯生成這個大類,可以理解成,從 A 圖得到 B 圖的過程。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

行業(yè)場景類模型

如最開始所說,視覺 AI 技術(shù)的價值體現(xiàn),在廣泛的各類場景中都存在,除了上述「人」相關(guān)的視覺 AI 技術(shù),我們也開放了來自互聯(lián)網(wǎng)、工業(yè)、互娛、傳媒、安全、醫(yī)療等多個實(shí)戰(zhàn)型的模型,這些模型可以拿來即用,也可以基于finetune訓(xùn)練或自學(xué)習(xí)工具進(jìn)一步加工完善,用于開發(fā)者、客戶特定的場景,這里舉一個例子:

模型名:煙火檢測(正在集成中)

模型功能: 可做室外、室內(nèi)的火焰檢測以及煙霧檢測,森林、城市道路、園區(qū),臥室、辦公區(qū)域、廚房、吸煙場所等,算法打磨近 2 年,并在多個客戶場景實(shí)際應(yīng)用,整體效果相對穩(wěn)定。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

從技術(shù)視角來說,本模型提出 Correlation block 提升多幀檢測精度,其設(shè)計數(shù)據(jù)增強(qiáng)方法提高識別靈敏度同時有效控制誤報。

從應(yīng)用上來說,模型可應(yīng)用于室內(nèi)、室外多種場景,只需要手機(jī)拍攝、監(jiān)控攝像頭等簡單設(shè)備就可以實(shí)現(xiàn)模型功能。

結(jié)語:視覺 AI 的開放未來

通過上述分析,我們可以發(fā)現(xiàn),視覺 AI 的應(yīng)用潛能極為廣泛,社會需求極為多樣,但現(xiàn)實(shí)情況卻是:視覺 AI 的供給能力非常有限。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

達(dá)摩院在魔搭 ModelScope 之前,就率先開放了 API 形態(tài)的視覺 AI 服務(wù),通過公共云平臺對 AI 開發(fā)者提供一站式視覺在線服務(wù)平臺,即視覺智能開放平臺(vision.aliyun.com),其中開放了超 200 個 API,涵蓋了基礎(chǔ)視覺、行業(yè)視覺等方面,也包括上面所說的「以人為中心」的視覺技術(shù)。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

從開放視覺平臺到魔搭社區(qū),這意味著達(dá)摩院視覺 AI 的開放邁出了更大的一步。從 OpenAPI 拓展到 OpenSDK、OpenSOTA,從公共云到端云協(xié)同,從平臺到社區(qū),我們希望去滿足千行百業(yè)對視覺 AI 的需求,希望促進(jìn)視覺 AI 的生態(tài)發(fā)展。

0代碼體驗(yàn)效果,1行實(shí)現(xiàn)推理,10行搞定調(diào)優(yōu)!101個CV模型開源(cv 代碼)

相關(guān)新聞

聯(lián)系我們
聯(lián)系我們
公眾號
公眾號
在線咨詢
分享本頁
返回頂部