作者：謝宣松阿里達(dá)摩院開放視覺智能負(fù)責(zé)人

編輯：好困

【新智元導(dǎo)讀】11 月 3 日，在 2022 云棲大會上，阿里達(dá)摩院聯(lián)手 CCF 開源發(fā)展委員會共同推出了 AI 模型社區(qū)「魔搭」ModelScope。本文，阿里達(dá)摩院開放視覺智能負(fù)責(zé)人謝宣松，深入解析了魔搭社區(qū)里首批開源的 101 個視覺 AI 模型。

計算機(jī)視覺是人工智能的基石，也是應(yīng)用最廣泛的 AI 技術(shù)，從日常手機(jī)解鎖使用的人臉識別，再到火熱的產(chǎn)業(yè)前沿自動駕駛，視覺 AI 都大顯身手。

作為一名視覺 AI 研究者，我認(rèn)為視覺 AI 的潛能遠(yuǎn)未得到充分發(fā)揮，窮盡我們這些研究者的力量，也只能覆蓋少數(shù)行業(yè)和場景，遠(yuǎn)未能滿足全社會的需求。

因此，在 AI 模型社區(qū)魔搭 ModelScope 上，我們決定全面開源達(dá)摩院研發(fā)的視覺 AI 模型，首批達(dá) 101 個，其中多數(shù)為 SOTA 或經(jīng)過實(shí)踐檢驗(yàn)。我們希望讓更多開發(fā)者來使用視覺 AI，更期待 AI 能成為人類社會前進(jìn)的動力之一。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

魔搭社區(qū)地址：modelscope.cn

背景

AI 模型較為復(fù)雜，尤其是要應(yīng)用于行業(yè)場景，往往需要重新訓(xùn)練，這使得 AI 只掌握在少數(shù)算法人員手中，難以走向大眾化。

而新推出的魔搭社區(qū) ModelScope，踐行模型即服務(wù)的新理念（Model as a Service），提供眾多預(yù)訓(xùn)練基礎(chǔ)模型，只需針對具體場景再稍作調(diào)優(yōu)，就能快速投入使用。

達(dá)摩院率先向魔搭社區(qū)貢獻(xiàn) 300 多個經(jīng)過驗(yàn)證的優(yōu)質(zhì) AI 模型，超過 1/3 為中文模型，全面開源開放，并且把模型變?yōu)橹苯涌捎玫姆?wù)。

社區(qū)首批開源模型包括視覺、語音、自然語言處理、多模態(tài)等 AI 主要方向，并向 AI for Science 等新領(lǐng)域積極探索，覆蓋的主流任務(wù)超過 60 個。

模型均經(jīng)過專家篩選和效果驗(yàn)證，包括 150 多個 SOTA（業(yè)界領(lǐng)先）模型和 10 多個大模型，全面開源且開放使用。

概要：以人為中心的視覺 AI

這些年來，達(dá)摩院作為阿里巴巴的基礎(chǔ)科研機(jī)構(gòu)和人才高地，在阿里海量業(yè)務(wù)場景中研發(fā)出一批優(yōu)秀的視覺 AI 能力，分布在各個環(huán)節(jié)：

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

這些視覺 AI 技術(shù)，幾乎覆蓋了從理解到生成等各方面。因視覺技術(shù)任務(wù)眾多，我們需要有一個相對合理的分類方法，可以從模態(tài)、對象、功能、場景等幾個維度來分：

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

魔搭社區(qū)首批開放了主要的視覺任務(wù)模型，這些模型即有學(xué)術(shù)創(chuàng)新的 SOTA 技術(shù)，也有久經(jīng)考驗(yàn)的實(shí)戰(zhàn)模型，從「功能 / 任務(wù)」的維度上，涵蓋了常見的感知、理解、生產(chǎn)等大類：

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

雖然視覺技術(shù)有點(diǎn)龐雜，但其實(shí)有個核心，那就是研究「對象」，「人」一直以來都是最重要的「對象」。「以人為中心」的視覺 AI 技術(shù)，也是研究最早最深、使用最普遍的技術(shù)。

我們以一個人的照片作為起點(diǎn)。

AI 首先需要理解這個照片 / 圖像，如識別這個照片是誰，有什么動作，能否摳出像等。

然后，我們還需要進(jìn)一步探索：照片質(zhì)量如何，能否畫質(zhì)變得更好，其中的人能否變得更漂亮，甚至變成卡通人、數(shù)字人等…

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

如上的 7 個「人」相關(guān)的流程，基本涵蓋了視覺任務(wù)中的「理解」、「增強(qiáng)」、「編輯」等大類，我們以魔搭社區(qū)已開放的相關(guān)模型為實(shí)例，來分享以人為中心的視覺技術(shù)的特點(diǎn)、優(yōu)點(diǎn)、示例以及應(yīng)用。

感知理解類模型

1. 從照片摳出人像

模型名：BSHM 人像摳圖

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

體驗(yàn)鏈接：https://www.modelscope.cn/models/damo/cv_unet_image-matting/

從照片摳出人像，去掉背景，是一個非常普遍的需求，也是「PS」的基本操作之一，但傳統(tǒng)人工操作費(fèi)時費(fèi)力、且效果不佳。

魔搭提供的人像摳圖模型，是一個全自動、端到端的人像摳圖模型，能夠?qū)崿F(xiàn)發(fā)絲級別的精細(xì)分割。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

技術(shù)上我們也進(jìn)行了創(chuàng)新，不同于其他模型基于大量精細(xì)標(biāo)注數(shù)據(jù)訓(xùn)練的方法，我們的模型使用粗標(biāo)注數(shù)據(jù)就能實(shí)現(xiàn)精細(xì)摳圖，對數(shù)據(jù)要求低、精度高。

具體來說，模型框架分為三部分：粗 mask 估計網(wǎng)絡(luò)（MPN）、質(zhì)量統(tǒng)一化網(wǎng)絡(luò)（QUN）、以及精確 alpha matte 估計網(wǎng)絡(luò)（MRN）。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

我們首先將復(fù)雜問題拆解，先粗分割（MPN）再精細(xì)化分割（MRN）。

學(xué)術(shù)界有大量易獲取的粗分割數(shù)據(jù)，但是粗分割數(shù)據(jù)和精分割數(shù)據(jù)不一致導(dǎo)致預(yù)期 GAP 很大，故而我們又設(shè)計了質(zhì)量統(tǒng)一化網(wǎng)絡(luò)（QUN）。

MPN 的用途是估計粗語義信息（粗 mask），使用粗標(biāo)注數(shù)據(jù)和精標(biāo)注數(shù)據(jù)一起訓(xùn)練。

QUN 是質(zhì)量統(tǒng)一化網(wǎng)絡(luò)，用以規(guī)范粗 mask 質(zhì)量，QUN 可以統(tǒng)一 MPN 輸出的粗 mask 質(zhì)量。

MRN 網(wǎng)絡(luò)輸入原圖和經(jīng)過 QUN 規(guī)范化后的粗 mask，估計精確的 alpha matte，使用精確標(biāo)注數(shù)據(jù)訓(xùn)練。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

當(dāng)然，摳圖分割相關(guān)的需求非常多樣化，我們也上線了一系列模型，支持非人像摳圖以及視頻摳圖等。

開發(fā)者可以直接拿來即用，如進(jìn)行輔助設(shè)計師摳圖，一鍵摳圖，大幅提升設(shè)計效率，或者自由換背景，可實(shí)現(xiàn)會議虛擬背景、證件照、穿越等效果。這些也在阿里自有產(chǎn)品（如釘釘視頻會議）及云上客戶廣泛使用。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

2. 檢測并識別是誰

模型名：MogFace 人臉檢測

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

體驗(yàn)鏈接：https://www.modelscope.cn/models/damo/cv_resnet101_face-detection_CVPR22papermogface/

人臉檢測和識別是一個 AI 經(jīng)典任務(wù)，也是應(yīng)用最廣泛的視覺技術(shù)之一；從另一方面看，其對效果和性價比要求非?？量?。

我們自研的 MogFace 為當(dāng)前 SOTA 的人臉檢測方法，已在 Wider Face 六項榜單上霸榜一年半以上，具體技術(shù)論文發(fā)表于 CVPR2022，主要貢獻(xiàn)是從 label assignment, scale-level data augmentation and reduce false alarms 三個角度改進(jìn)人臉檢測器。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

技術(shù)上的特點(diǎn)有：

Scale-level Data Augmentation (SSE)：SSE 是第一個從 maximize pyramid layer 表征的角度來控制數(shù)據(jù)集中 gt 的尺度分布，而不是 intuitive 的假想檢測器的學(xué)習(xí)能力，因此在不同場景下都很魯棒；
Adaptive Online Anchor Mining Strategy(Ali-AMS)：減少對超參的依賴，簡單且有效的 adpative label assign 方法；
Hierarchical Context-aware Module (HCAM)：減少誤檢是真實(shí)世界人臉檢測器面對的最大挑戰(zhàn)，HCAM 是最近幾年第一次在算法側(cè)給出 solid solution。

人臉檢測作為人臉相關(guān)的基礎(chǔ)能力，可應(yīng)用于人臉相冊 / 人臉編輯 / 人臉比對等場景。

由于人臉相關(guān)的模型使用非常廣泛，我們也有系列模型的迭代計劃，包括 MogFace 中所介紹的技術(shù)點(diǎn)除了 HCAM 均無需引入額外的計算量，后續(xù)準(zhǔn)備打造 SOTA 的 family-based 人臉檢測模型；以及真實(shí)世界的人臉檢測器除了面對減少誤檢的問題，還面對如何增加人臉檢出率的問題，以及他們之間如何平衡的問題，我們正在進(jìn)一步探索。

3. 人體關(guān)鍵點(diǎn)及動作識別

模型名字：HRNet 人體關(guān)鍵點(diǎn) -2D

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

體驗(yàn)鏈接：https://www.modelscope.cn/models/damo/cv_hrnetv2w32_body-2d-keypoints_image/

該任務(wù)采用自頂向下的人體關(guān)鍵點(diǎn)檢測框架，通過端對端的快速推理可以得到圖像中的 15 點(diǎn)人體關(guān)鍵點(diǎn)。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

其中人體關(guān)鍵點(diǎn)模型基于 HRNet 改進(jìn)的 backbone，充分利用多分辨率的特征較好地支持日常人體姿態(tài)，在 COCO 數(shù)據(jù)集的 AP 和 AR50 上取得更高精度。

同時我們也針對體育健身場景做了優(yōu)化，尤其是在瑜伽、健身等場景下多遮擋、非常見、多臥姿等姿態(tài)上具有 SOTA 的檢測精度。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

為了更好的適用于各種場景，我們持續(xù)進(jìn)行優(yōu)化：

針對通用場景的大模型在指標(biāo)上達(dá)到 SOTA 性能；
針對移動端部署的小模型，內(nèi)存占用小，運(yùn)行快、性能穩(wěn)定，在千元機(jī)上達(dá)到 25～30FPS；
針對瑜伽、跳繩技術(shù)、仰臥起坐、俯臥撐、高抬腿等體育健身計數(shù)和打分場景下多遮擋、非常見、多臥姿姿態(tài)等情況做了深度優(yōu)化，提升算法精度和準(zhǔn)確度。

本模型已經(jīng)廣泛應(yīng)用于 AI 體育健身、體育測試場景，如阿里體育樂動力，釘釘運(yùn)動，健身鏡等，也可應(yīng)用于 3D 關(guān)鍵點(diǎn)檢測和 3D 人體重建等場景。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

4. 小結(jié)

上述三個「人」相關(guān)的模型，都屬于感知理解這個大類。先認(rèn)識世界，再改造世界，感知理解類視覺技術(shù)是最基礎(chǔ)、也是應(yīng)用最廣泛的模型大類，也可以分為識別、檢測和分割三小類：

識別 / 分類是視覺（包括圖像、視頻等）技術(shù)中最基礎(chǔ)也是最經(jīng)典的任務(wù)，也是生物通過眼睛了解世界最基本的能力。簡單來說，判定一組圖像數(shù)據(jù)中是否包含某個特定的物體，圖像特征或運(yùn)動狀態(tài)，知道圖像視頻中描述的對象和內(nèi)容是什么。此外，還需要了解一些更細(xì)維度的信息，或者非實(shí)體對象的一些描述標(biāo)簽。
目標(biāo)檢測的任務(wù)是找出視覺內(nèi)容中感興趣的目標(biāo)（物體），確定它們的位置和大小，也是機(jī)器視覺領(lǐng)域的核心問題之一。一般來說，也會同時對定位到的目標(biāo)進(jìn)行分類識別。
分割是視覺任務(wù)中又一個核心任務(wù)，相對于識別檢測，它又更進(jìn)一步，解決「每一個像素屬于哪個目標(biāo)物或場景」的問題。是把圖像分成若干個特定的、具有獨(dú)特性質(zhì)的區(qū)域并提出感興趣目標(biāo)的技術(shù)和過程。

魔搭社區(qū)上面開放了豐富的感知理解類模型，供 AI 開發(fā)者試用使用：

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

5. 彩蛋：DAMO-YOLO 首次放出

模型名字：DAMOYOLO- 高性能通用檢測模型 -S

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

體驗(yàn)鏈接：https://www.modelscope.cn/models/damo/cv_tinynas_object-detection_damoyolo/summary

通用目標(biāo)檢測是計算機(jī)視覺的基本問題之一，具有非常廣泛的應(yīng)用。

DAMO-YOLO 是阿里新推出來的目標(biāo)檢測框架，兼顧模型速度與精度，其效果超越了目前的一眾 YOLO 系列方法，且推理速度更快。

DAMO-YOLO 還提供高效的訓(xùn)練策略和便捷易用的部署工具，能幫助開發(fā)者快速解決工業(yè)落地中的實(shí)際問題。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

DAMO-YOLO 引入 TinyNAS 技術(shù)，使得用戶可以根據(jù)硬件算力進(jìn)行低成本的檢測模型定制，提高硬件利用效率并且獲得更高精度。

另外，DAMO-YOLO 還對檢測模型中的 neck、head 結(jié)構(gòu)設(shè)計，以及訓(xùn)練時的標(biāo)簽分配、數(shù)據(jù)增廣等關(guān)鍵因素進(jìn)行了優(yōu)化。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

由于做了一系列優(yōu)化，DAMO-YOLO 在嚴(yán)格限制 Latency 的情況下精度取得了顯著的提升，成為 YOLO 框架中的新 SOTA。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

底層視覺模型

1. 照片去噪去模糊

模型名字：NAFNet 圖像去噪

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

體驗(yàn)地址：https://www.modelscope.cn/models/damo/cv_nafnet_image-denoise_sidd/

因拍攝環(huán)境、設(shè)備、操作等原因，圖像質(zhì)量不佳的情況時而存在，怎么對這些圖像的噪聲去除、模糊還原？

該模型在圖像恢復(fù)領(lǐng)域具有良好的泛化性，無論是圖像去噪還是圖像去模糊任務(wù)，都達(dá)到了目前的 SOTA。

由于技術(shù)創(chuàng)新，該模型使用了簡單的乘法操作替換了激活函數(shù)，在不影響性能的情況下提升了處理速度。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

該模型全名叫 NAFNet 去噪模型，即非線性無激活網(wǎng)絡(luò)（Nonlinear Activation Free Network），證明了常見的非線性激活函數(shù)（Sigmoid、ReLU、GELU、Softmax 等）不是必須的，它們是可以被移除或者是被乘法算法代替的。該模型是對 CNN 結(jié)構(gòu)設(shè)計的重要創(chuàng)新。

本模型可以做為很多應(yīng)用的前置步驟，如智能手機(jī)圖像去噪、圖像去運(yùn)動模糊等。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

2. 照片修復(fù)及增強(qiáng)

模型名字：GPEN 人像增強(qiáng)模型

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

體驗(yàn)地址：https://www.modelscope.cn/models/damo/cv_gpen_image-portrait-enhancement/

除照片去噪以外，對照片的質(zhì)量（包括分辨、細(xì)節(jié)紋理、色彩等）會有更高的處理要求，我們也開放了專門的人像增強(qiáng)模型，對輸入圖像中的每一個檢測到的人像做修復(fù)和增強(qiáng)，并對圖像中的非人像區(qū)域采用 RealESRNet 做兩倍的超分辨率，最終返回修復(fù)后的完整圖像。該模型能夠魯棒地處理絕大多數(shù)復(fù)雜的真實(shí)降質(zhì)，修復(fù)嚴(yán)重?fù)p傷的人像。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

從效果上看，GPEN 人像增強(qiáng)模型將預(yù)訓(xùn)練好的 StyleGAN2 網(wǎng)絡(luò)作為 decoder 嵌入到完整模型中，并通過 finetune 的方式最終實(shí)現(xiàn)修復(fù)功能，在多項指標(biāo)上達(dá)到行業(yè)領(lǐng)先的效果。

從應(yīng)用的視角，本模型可以修復(fù)家庭老照片或者明星的老照片，修復(fù)手機(jī)夜景拍攝的低質(zhì)照片，修復(fù)老視頻中的人像等。

后續(xù)我們將增加 1024、2048 等支持處理大分辨人臉的預(yù)訓(xùn)練模型，并在模型效果上持續(xù)更新迭代。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

3. 小結(jié)

底層視覺，關(guān)注的是畫質(zhì)問題。只要是生物（含人），都會對因光影而產(chǎn)生的細(xì)節(jié)、形狀、顏色、流暢性等有感應(yīng)，人對高畫質(zhì)的追求更是天然的，但由于各種現(xiàn)實(shí)條件，畫質(zhì)往往不理想，這時候視覺 AI 就能派上用場。

從任務(wù)分類上，可以分為：清晰度（分辨率 / 細(xì)節(jié)、噪聲 / 劃痕、幀率）、色彩（亮度、色偏等）、修瑕（膚質(zhì)優(yōu)化、去水印字幕）等，如下表：

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

編輯生成類模型

1. 變得更漂亮

模型名字：ABPN 人像美膚

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

體驗(yàn)鏈接：https://www.modelscope.cn/models/damo/cv_unet_skin-retouching/

人們對照片人像的美觀度是一個剛性需求，包括斑點(diǎn)、顏色、瑕疵等，甚至高矮胖瘦。本次我們開放了專業(yè)級別的人像美膚、液化等模型供大家使用。

本模型提出了一個新穎的自適應(yīng)混合模塊 ABM，其利用自適應(yīng)混合圖層實(shí)現(xiàn)了圖像的局部精準(zhǔn)修飾。此外，我們在 ABM 的基礎(chǔ)上進(jìn)一步構(gòu)建了一個混合圖層金字塔，實(shí)現(xiàn)了超高清圖像的快速修飾。

相比于現(xiàn)有的圖像修飾方法，ABPN 在修飾精度、速度上均有較大提升。ABPN 人像美膚模型為 ABPN 模型在人像美膚任務(wù)中的具體應(yīng)用。

如下示例：

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

更進(jìn)一步，我們還可以在服飾上做一些有意思的嘗試，如去皺：

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

甚至瘦身美型：

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

體驗(yàn)鏈接：https://www.modelscope.cn/models/damo/cv_flow-based-body-reshaping_damo/summary

從效果上來說，有如下幾點(diǎn)特色：

局部修飾。只對目標(biāo)區(qū)域進(jìn)行編輯，保持非目標(biāo)區(qū)域不動。
精準(zhǔn)修飾。充分考慮目標(biāo)本身的紋理特征和全局上下文信息，以實(shí)現(xiàn)精準(zhǔn)修飾，去除瑕疵的同時保留皮膚本身的質(zhì)感。
超高分辨率的處理能力。模型的混合圖層金字塔設(shè)計，使其可以處理超高分辨率圖像（4K~6K）。

本模型有很強(qiáng)的實(shí)用性，比如可應(yīng)用于專業(yè)修圖領(lǐng)域，如影樓、廣告等，提高生產(chǎn)力，也可以應(yīng)用于直播互娛場景，提升人像皮膚質(zhì)感。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

2. 變成卡通人

模型名：DCT-Net 人像卡通化模型

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

體驗(yàn)鏈接：https://www.modelscope.cn/models/damo/cv_unet_person-image-cartoon_compound-models/

人像卡通化是一個具有很好互動性的玩法，同時又有多種風(fēng)格可選。魔搭開放的人像卡通化模型基于全新的域校準(zhǔn)圖像翻譯網(wǎng)絡(luò) DCT-Net（Domain-Calibrated Translation）實(shí)現(xiàn)，采用了「先全局特征校準(zhǔn)，再局部紋理轉(zhuǎn)換」的核心思想，利用百張小樣本風(fēng)格數(shù)據(jù)，即可訓(xùn)練得到輕量穩(wěn)定的風(fēng)格轉(zhuǎn)換器，實(shí)現(xiàn)高保真、強(qiáng)魯棒、易拓展的高質(zhì)量人像風(fēng)格轉(zhuǎn)換效果。

如下示例：

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

從效果上來看：

DCT-Net 具備內(nèi)容匹配的高保真能力，能有效保留原圖內(nèi)容中的人物 ID、配飾、身體部件、背景等細(xì)節(jié)特征；
DCT-Net 具備面向復(fù)雜場景的強(qiáng)魯棒能力，能輕松處理面部遮擋、稀有姿態(tài)等；
DCT-Net 在處理維度上和風(fēng)格適配度上具有易拓展性，利用頭部數(shù)據(jù)即可拓展至全身像 / 全圖的精細(xì)化風(fēng)格轉(zhuǎn)換，同時模型具有通用普適性，適配于日漫風(fēng)、3D、手繪等多種風(fēng)格轉(zhuǎn)換。

后續(xù)我們也會對卡通化進(jìn)行系列化的開放，除圖像轉(zhuǎn)換外，后續(xù)將包含圖像、視頻、3D 卡通化等系列效果，先放一些效果大家看看：

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

3. 小結(jié)

這類模型對圖像內(nèi)容進(jìn)行修改，包括對源圖內(nèi)容進(jìn)行編輯加工（增加內(nèi)容、刪除內(nèi)容、改換內(nèi)容等），或者直接生成一個新的視覺內(nèi)容，轉(zhuǎn)換一個風(fēng)格，得到一張新的圖像（基于源圖像且與源圖不同），都屬于編輯生成這個大類，可以理解成，從 A 圖得到 B 圖的過程。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

行業(yè)場景類模型

如最開始所說，視覺 AI 技術(shù)的價值體現(xiàn)，在廣泛的各類場景中都存在，除了上述「人」相關(guān)的視覺 AI 技術(shù)，我們也開放了來自互聯(lián)網(wǎng)、工業(yè)、互娛、傳媒、安全、醫(yī)療等多個實(shí)戰(zhàn)型的模型，這些模型可以拿來即用，也可以基于finetune訓(xùn)練或自學(xué)習(xí)工具進(jìn)一步加工完善，用于開發(fā)者、客戶特定的場景，這里舉一個例子：

模型名：煙火檢測（正在集成中）

模型功能：可做室外、室內(nèi)的火焰檢測以及煙霧檢測，森林、城市道路、園區(qū)，臥室、辦公區(qū)域、廚房、吸煙場所等，算法打磨近 2 年，并在多個客戶場景實(shí)際應(yīng)用，整體效果相對穩(wěn)定。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

從技術(shù)視角來說，本模型提出 Correlation block 提升多幀檢測精度，其設(shè)計數(shù)據(jù)增強(qiáng)方法提高識別靈敏度同時有效控制誤報。

從應(yīng)用上來說，模型可應(yīng)用于室內(nèi)、室外多種場景，只需要手機(jī)拍攝、監(jiān)控攝像頭等簡單設(shè)備就可以實(shí)現(xiàn)模型功能。

結(jié)語：視覺 AI 的開放未來

通過上述分析，我們可以發(fā)現(xiàn)，視覺 AI 的應(yīng)用潛能極為廣泛，社會需求極為多樣，但現(xiàn)實(shí)情況卻是：視覺 AI 的供給能力非常有限。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

達(dá)摩院在魔搭 ModelScope 之前，就率先開放了 API 形態(tài)的視覺 AI 服務(wù)，通過公共云平臺對 AI 開發(fā)者提供一站式視覺在線服務(wù)平臺，即視覺智能開放平臺（vision.aliyun.com），其中開放了超 200 個 API，涵蓋了基礎(chǔ)視覺、行業(yè)視覺等方面，也包括上面所說的「以人為中心」的視覺技術(shù)。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

從開放視覺平臺到魔搭社區(qū)，這意味著達(dá)摩院視覺 AI 的開放邁出了更大的一步。從 OpenAPI 拓展到 OpenSDK、OpenSOTA，從公共云到端云協(xié)同，從平臺到社區(qū)，我們希望去滿足千行百業(yè)對視覺 AI 的需求，希望促進(jìn)視覺 AI 的生態(tài)發(fā)展。

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）

相關(guān)新聞

0代碼體驗(yàn)效果，1行實(shí)現(xiàn)推理，10行搞定調(diào)優(yōu)！101個CV模型開源（cv 代碼）