機器學(xué)習(xí)零代碼平臺:SageMaker Canvas拆解
低代碼、無代碼平臺在近幾年流行了起來,那么這類平臺的實際體驗效果如何?本篇文章里,作者就針對一款面向業(yè)務(wù)分析師的零代碼機器學(xué)習(xí)工具——Amazon SageMaker Canvas,進行了分析體驗,一起來看一下。
一、概述
Sagemaker Canvas 是一款面向非技術(shù)人員,提供無代碼自動化建模及數(shù)據(jù)預(yù)測的機器學(xué)習(xí)服務(wù)。所以,在拆解該產(chǎn)品前,我覺得有必要了解下機器學(xué)習(xí)和無代碼這兩個的基本概念。
1. 機器學(xué)習(xí)
關(guān)于機器學(xué)習(xí)的定義,我引用百度百科說明:“機器學(xué)習(xí)是對能通過經(jīng)驗自動改進的計算機算法的研究;機器學(xué)習(xí)是用數(shù)據(jù)或以往的經(jīng)驗,以此優(yōu)化計算機程序的性能標(biāo)準(zhǔn)”。
簡單來講,機器學(xué)習(xí)是一個模型訓(xùn)練過程:數(shù)據(jù)輸入-建模-結(jié)果輸出,基于結(jié)果再進行“數(shù)據(jù)輸入-建模-結(jié)果輸出”循環(huán)往復(fù),最終得到最優(yōu)模型的過程。此處用到的模型,也可以叫算法,算法基本上是有現(xiàn)成方法論的機器學(xué)習(xí)模型。所以,想要得到一個最優(yōu)的模型,核心是需要:
2. 無代碼
低代碼平臺概念最早在2014年由Forrester Research正式提出,隨后各低代碼頭部企業(yè)對低代碼平臺有了自己的定義和解釋,因此也誕生了無代碼這種類型的產(chǎn)品。粗獷點理解,我覺得低代碼是一個便于開發(fā)人員快速開發(fā)和部署應(yīng)用的平臺,而無代碼是面向業(yè)務(wù)人員通過頁面的可視化操作便可以搭建應(yīng)用的平臺。
由此我得到了一個信息:那就是無代碼平臺適用于流程比較容易標(biāo)準(zhǔn)化的業(yè)務(wù)場景;面向的是技術(shù)能力相對不足且希望能快速搭建自己的業(yè)務(wù)系統(tǒng)以降本增效的中小企業(yè)業(yè)務(wù)人員,及大型企業(yè)中對這部分預(yù)算投入較少的部門。
機器學(xué)習(xí)流程上容易標(biāo)準(zhǔn)化,且一方面建設(shè)一個數(shù)據(jù)科學(xué)團隊的成本很高,另一方面從業(yè)務(wù)需求到模型產(chǎn)出之間的時間也會比較長,作為需要及時相應(yīng)的業(yè)務(wù)來說,他們也需要一個可以業(yè)務(wù)直接使用的輕量機器學(xué)習(xí)工具,我覺得這是canvas找到的一個突破口。
二、行業(yè)
1. 規(guī)模
基于艾瑞2022年8月低代碼行業(yè)報告顯示,2021年中國低代碼行業(yè)市場規(guī)模為27.5億,預(yù)計未來4年復(fù)合增速達到44.1%,2025年規(guī)模達到118.4億。單從增速上來看,低代碼在國內(nèi)還處于成長期。但一個比較有意思的數(shù)據(jù)是,基于海比研究院2021年中國低代碼/無代碼行業(yè)報告顯示,2020年低代碼行業(yè)市場規(guī)模占比86%,無代碼市場規(guī)模僅占了14%。
2022年1月艾瑞人工智能行業(yè)報告,2021年中國AI產(chǎn)品服務(wù)核心市場規(guī)模達到275億,預(yù)計未來4年復(fù)合增速達到20.6%,2025年規(guī)模達到578億。從增速和現(xiàn)有市場規(guī)模來看,機器學(xué)習(xí)相較低代碼行業(yè)已經(jīng)進入一個穩(wěn)定增長期,但增速還是比較可觀的。
2. 標(biāo)準(zhǔn)化
無代碼適用于流程相對固定且容易標(biāo)準(zhǔn)化的場景。作為一個機器學(xué)習(xí)工具類產(chǎn)品,無疑它的標(biāo)準(zhǔn)化是更容易做到且更容易跨行業(yè)兼容的產(chǎn)品形態(tài)。
3. 商業(yè)環(huán)境
1)根據(jù)國家統(tǒng)計局數(shù)據(jù),2022年前三季度,GDP累計同比增長為3%,第三產(chǎn)業(yè)累計同比增長為2.3%,其中,信息傳輸、軟件和信息技術(shù)服務(wù)同比增長8.8%。整體經(jīng)濟增速放緩,傳統(tǒng)企業(yè)對數(shù)字化轉(zhuǎn)型的愿望更加迫切,需求也會逐步提高。
2)根據(jù)億歐智庫2020年報告統(tǒng)計,2010年至2020年4月,中國人工智能企業(yè)數(shù)量共計1135家,私募股權(quán)投資從2015年的千億級別回落到2020年第一季度的幾十億,人工智能的創(chuàng)業(yè)敞口期正在縮緊。資本對人工智能的認(rèn)知更加理性,更加看重人工智能在實際場景的落地而不是炒概念,所以未來所謂AI 產(chǎn)品更加重要的是如何通過AI解決企業(yè)的實際業(yè)務(wù)痛點。
3)技術(shù)應(yīng)用上,據(jù)億歐智庫2020年報告,機器學(xué)習(xí)在中國13項人工智能技術(shù)應(yīng)用企業(yè)數(shù)量中排名第三,占比為12%。機器學(xué)習(xí)是需求側(cè)比較受認(rèn)可的應(yīng)用之一。
4. 競爭態(tài)勢
三、定位
中大型企業(yè)/通用型/工具型。
一款面向業(yè)務(wù)分析師的零代碼機器學(xué)習(xí)工具,幫助客戶解決:① 機器學(xué)習(xí)結(jié)果對業(yè)務(wù)的相應(yīng)時間過慢問題 ② 為沒有機器學(xué)習(xí)能力的企業(yè)快速構(gòu)建自己的機器學(xué)習(xí)模型。
客群:主要為能夠有一定業(yè)務(wù)量的中大型企業(yè)。
盈利模式:會話時長及訓(xùn)練數(shù)據(jù)單元格的數(shù)量付費。
產(chǎn)品線:Amazon Sagemaker。
四、資源
- 原生的云服務(wù)資源,提供穩(wěn)定的算力和數(shù)據(jù)存儲服務(wù)。
- 亞馬遜作為在北美區(qū)月活占有率50%以上的頭部線上交易平臺,擁有豐富的機器學(xué)習(xí)經(jīng)驗及客戶資源。
五、能力
- 豐富的適用場景:由于機器學(xué)習(xí)的通用性,canvas理論上可以服務(wù)于大部分?jǐn)?shù)字化程度較高的行業(yè),如:金融、電商、物流、倉儲、連鎖超市等。
- 云計算:AWS擁有超過16年的云服務(wù)運營經(jīng)驗,能為應(yīng)用程序提供穩(wěn)定性更高的云服務(wù)。
- 使用便捷:Amazon SageMaker是基于AWS構(gòu)建的完全托管的機器學(xué)習(xí)服務(wù),可讓日常開發(fā)人員和數(shù)據(jù)科學(xué)家無需任何前置經(jīng)驗即可運用機器學(xué)習(xí)。
六、用戶體驗
1. 注冊
AWS提供統(tǒng)一賬號管理,注冊試用期12個月,可免費試用AWS所有產(chǎn)品。
因為AWS提供的產(chǎn)品實在太多了,注冊頁還能檢索具體的免費方案。
注冊后進入SageMaker,需要先配置SageMaker域。這一步作為非技術(shù)的我不知道有什么作用,但是在這個配置的過程中,每個頁面都會有明確引導(dǎo),所以不理解也沒關(guān)系,照著做就行。設(shè)置頁已經(jīng)配置好了默認(rèn)設(shè)置,這個也很友好,基本傻瓜式點下一步就可以完成了。
每一步提示信息都很明晰。
總結(jié):就注冊環(huán)節(jié)上來說,引導(dǎo)清晰,每一步都有明確提示,注冊上不會有太多障礙。
2. 實際試用
亮點一:針對0代碼經(jīng)驗的業(yè)務(wù)分析人員提供的樣例和操作導(dǎo)覽很豐富。
非常清晰的使用導(dǎo)覽(幾個月前試用的時候還是沒有的,迭代速度還是很快的,而且也很注重用戶的反饋):
workshop studio提供樣例數(shù)據(jù)集試用,標(biāo)明行業(yè),使用場景以及使用的模型,真的太贊了。
功能模塊按照機器學(xué)習(xí)的核心流程劃分清晰:
亮點二:基于需要預(yù)測的字段數(shù)據(jù)類型自動推薦模型類型。
配置需要預(yù)測的數(shù)據(jù),系統(tǒng)為你推薦最優(yōu)模型類型,當(dāng)然你也可以自己選。目前支持二分類、時間序列、numeric model
亮點三:提供可視化的數(shù)據(jù)預(yù)處理界面。
可查看每個字段的數(shù)據(jù)分布:
支持通過托拉拽對數(shù)據(jù)進行交叉分析:
支持建模前的預(yù)處理:
亮點四:模型結(jié)果報告自動生成
這個需求的點在于,業(yè)務(wù)分析師通過0代碼平臺構(gòu)建模型最大的好處是提高對業(yè)務(wù)的響應(yīng),可以對數(shù)據(jù)和模型訓(xùn)練做一個預(yù)探索,如果有更復(fù)雜的需求才找到數(shù)據(jù)團隊解決。
就拿風(fēng)控策略來說,一個策略分析師必須是對風(fēng)控策略及各類信貸產(chǎn)品有非常深刻的理解的,但是TA不一定懂復(fù)雜的代碼編寫,很多業(yè)務(wù)的需求需要經(jīng)由風(fēng)控分析師的分析將需求給到數(shù)據(jù)團隊,數(shù)據(jù)團隊接到需求建模后給到業(yè)務(wù),業(yè)務(wù)基于數(shù)據(jù)表現(xiàn)再決定是要再進行優(yōu)化調(diào)整還是可以直接投入使用,這一來二去的耗時是非常久了。
如果有一個0代碼的分析工具,業(yè)務(wù)分析師可以自己先進行簡單的數(shù)據(jù)探索和模型構(gòu)建,之后再把可能需要編程才能完成的工作給到數(shù)據(jù)科學(xué)團隊,這樣顯然效率是更高的。這就需要一個可以將模型結(jié)果對外分享的功能,以便數(shù)據(jù)科學(xué)團隊可以再做進一步優(yōu)化。canvas提供了PNG下載,以解決此需求。
提供報告png圖片格式下載,方便分享給部門其他人:
亮點五:結(jié)果預(yù)測支持在線調(diào)整數(shù)值以更新預(yù)測結(jié)果。
這個功能的好處是,你可以自己調(diào)整每個字段的數(shù)值,來測試哪個數(shù)值區(qū)間對預(yù)測結(jié)果更敏感。
七、總結(jié)
首先就canvas的定位而言,我覺得是一個比較巧妙的切入點,產(chǎn)品功能小而聚焦,功能設(shè)計輕便且直觀,滿足了高可用的這一特點。
就我比較了解的電商運營和信貸風(fēng)控而言,由于是業(yè)務(wù)需要及時響應(yīng)的領(lǐng)域,如果一個需求響應(yīng)時間需要1-2周,一個大促都走完一半了,一個信貸周期都過去一半了。如果有一個產(chǎn)品能幫業(yè)務(wù)人員解決這個問題,以前1周的需求周期能縮減到幾個小時,這將大大提升業(yè)務(wù)的運營效率。但是在實際試用后我發(fā)現(xiàn)理想是豐滿的,但是現(xiàn)實還是很骨感:
① canvas依照會話時長及訓(xùn)練數(shù)據(jù)單元格的數(shù)量付費,并不適宜國內(nèi)的使用習(xí)慣
我在試用canvas的一周內(nèi),幾乎無感知的獲得了一份費用大禮包,我甚至都不知道這些費用是怎么產(chǎn)生的。謝謝亞馬遜,讓我對云服務(wù)的收費有了直觀的理解。
② 可以對數(shù)據(jù)進行自動處理的功能很吸引人,但是實際使用并不美好
我試用了一組《信貸用戶逾期預(yù)測建?!窋?shù)據(jù),這組數(shù)據(jù)中有非常多的空值。在做機器學(xué)習(xí)之前,對無效數(shù)據(jù)進行處理是一種基本操作,canvas很自然的提供了可以自動識別missing data且進行刪除的功能,但是這個功能只支持單個字段添加刪除的形式。所以當(dāng)我的元數(shù)據(jù)集中有非常多空值時,我甚至多了非常多的機械操作。
③ 目前的預(yù)測只支持單指標(biāo)預(yù)測,使用場景可能會受限制
首先是只能對單指標(biāo)進行預(yù)測,其次模型分享其實只能分享給同樣使用了sagemaker studio的用戶。這意味著想要有更好的用戶體驗和更便利的辦公協(xié)同環(huán)境,企業(yè)可能需要同時購買sagemaker studio服務(wù)。合理懷疑,canvas是studio產(chǎn)品使用過程中催生出來的新需求。
參考資料:
[1] sagemaker canvas產(chǎn)品文檔:https://docs.aws.amazon.com/sagemaker/latest/dg/canvas.html
[2] 【海比研究院】2021年中國低代碼_無代碼市場研究報告
[3] 【億歐智庫】2021低代碼市場研究報告0806_2021-08-11
[4] 艾瑞咨詢:生態(tài)聚合-中國低代碼行業(yè)生態(tài)發(fā)展洞察報告
[5] 艾瑞咨詢:不啻微芒,造炬成陽:2022年中國低代碼行業(yè)研究報告
數(shù)據(jù)來源:
[1] Amazon workshop studio:https://catalog.us-east-1.prod.workshops.aws/workshops/80ba0ea5-7cf9-4b8c-9d3f-1cd988b6c071/en-US
[2] 阿里云天池:信貸用戶逾期預(yù)測建?!?span id="gg8g4gg" class="candidate-entity-word" data-gid="1066749932429119594">銀聯(lián)商務(wù)】
本文由 @隱君隨記 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。