機器學習零代碼平臺:SageMaker Canvas拆解
低代碼、無代碼平臺在近幾年流行了起來,那么這類平臺的實際體驗效果如何?本篇文章里,作者就針對一款面向業(yè)務分析師的零代碼機器學習工具——Amazon SageMaker Canvas,進行了分析體驗,一起來看一下。
一、概述
Sagemaker Canvas 是一款面向非技術人員,提供無代碼自動化建模及數(shù)據預測的機器學習服務。所以,在拆解該產品前,我覺得有必要了解下機器學習和無代碼這兩個的基本概念。
1. 機器學習
關于機器學習的定義,我引用百度百科說明:“機器學習是對能通過經驗自動改進的計算機算法的研究;機器學習是用數(shù)據或以往的經驗,以此優(yōu)化計算機程序的性能標準”。
簡單來講,機器學習是一個模型訓練過程:數(shù)據輸入-建模-結果輸出,基于結果再進行“數(shù)據輸入-建模-結果輸出”循環(huán)往復,最終得到最優(yōu)模型的過程。此處用到的模型,也可以叫算法,算法基本上是有現(xiàn)成方法論的機器學習模型。所以,想要得到一個最優(yōu)的模型,核心是需要:
2. 無代碼
低代碼平臺概念最早在2014年由Forrester Research正式提出,隨后各低代碼頭部企業(yè)對低代碼平臺有了自己的定義和解釋,因此也誕生了無代碼這種類型的產品。粗獷點理解,我覺得低代碼是一個便于開發(fā)人員快速開發(fā)和部署應用的平臺,而無代碼是面向業(yè)務人員通過頁面的可視化操作便可以搭建應用的平臺。
由此我得到了一個信息:那就是無代碼平臺適用于流程比較容易標準化的業(yè)務場景;面向的是技術能力相對不足且希望能快速搭建自己的業(yè)務系統(tǒng)以降本增效的中小企業(yè)業(yè)務人員,及大型企業(yè)中對這部分預算投入較少的部門。
機器學習流程上容易標準化,且一方面建設一個數(shù)據科學團隊的成本很高,另一方面從業(yè)務需求到模型產出之間的時間也會比較長,作為需要及時相應的業(yè)務來說,他們也需要一個可以業(yè)務直接使用的輕量機器學習工具,我覺得這是canvas找到的一個突破口。
二、行業(yè)
1. 規(guī)模
基于艾瑞2022年8月低代碼行業(yè)報告顯示,2021年中國低代碼行業(yè)市場規(guī)模為27.5億,預計未來4年復合增速達到44.1%,2025年規(guī)模達到118.4億。單從增速上來看,低代碼在國內還處于成長期。但一個比較有意思的數(shù)據是,基于海比研究院2021年中國低代碼/無代碼行業(yè)報告顯示,2020年低代碼行業(yè)市場規(guī)模占比86%,無代碼市場規(guī)模僅占了14%。
2022年1月艾瑞人工智能行業(yè)報告,2021年中國AI產品服務核心市場規(guī)模達到275億,預計未來4年復合增速達到20.6%,2025年規(guī)模達到578億。從增速和現(xiàn)有市場規(guī)模來看,機器學習相較低代碼行業(yè)已經進入一個穩(wěn)定增長期,但增速還是比較可觀的。
2. 標準化
無代碼適用于流程相對固定且容易標準化的場景。作為一個機器學習工具類產品,無疑它的標準化是更容易做到且更容易跨行業(yè)兼容的產品形態(tài)。
3. 商業(yè)環(huán)境
1)根據國家統(tǒng)計局數(shù)據,2022年前三季度,GDP累計同比增長為3%,第三產業(yè)累計同比增長為2.3%,其中,信息傳輸、軟件和信息技術服務同比增長8.8%。整體經濟增速放緩,傳統(tǒng)企業(yè)對數(shù)字化轉型的愿望更加迫切,需求也會逐步提高。
2)根據億歐智庫2020年報告統(tǒng)計,2010年至2020年4月,中國人工智能企業(yè)數(shù)量共計1135家,私募股權投資從2015年的千億級別回落到2020年第一季度的幾十億,人工智能的創(chuàng)業(yè)敞口期正在縮緊。資本對人工智能的認知更加理性,更加看重人工智能在實際場景的落地而不是炒概念,所以未來所謂AI 產品更加重要的是如何通過AI解決企業(yè)的實際業(yè)務痛點。
3)技術應用上,據億歐智庫2020年報告,機器學習在中國13項人工智能技術應用企業(yè)數(shù)量中排名第三,占比為12%。機器學習是需求側比較受認可的應用之一。
4. 競爭態(tài)勢
三、定位
中大型企業(yè)/通用型/工具型。
一款面向業(yè)務分析師的零代碼機器學習工具,幫助客戶解決:① 機器學習結果對業(yè)務的相應時間過慢問題 ② 為沒有機器學習能力的企業(yè)快速構建自己的機器學習模型。
客群:主要為能夠有一定業(yè)務量的中大型企業(yè)。
盈利模式:會話時長及訓練數(shù)據單元格的數(shù)量付費。
產品線:Amazon Sagemaker。
四、資源
- 原生的云服務資源,提供穩(wěn)定的算力和數(shù)據存儲服務。
- 亞馬遜作為在北美區(qū)月活占有率50%以上的頭部線上交易平臺,擁有豐富的機器學習經驗及客戶資源。
五、能力
- 豐富的適用場景:由于機器學習的通用性,canvas理論上可以服務于大部分數(shù)字化程度較高的行業(yè),如:金融、電商、物流、倉儲、連鎖超市等。
- 云計算:AWS擁有超過16年的云服務運營經驗,能為應用程序提供穩(wěn)定性更高的云服務。
- 使用便捷:Amazon SageMaker是基于AWS構建的完全托管的機器學習服務,可讓日常開發(fā)人員和數(shù)據科學家無需任何前置經驗即可運用機器學習。
六、用戶體驗
1. 注冊
AWS提供統(tǒng)一賬號管理,注冊試用期12個月,可免費試用AWS所有產品。
因為AWS提供的產品實在太多了,注冊頁還能檢索具體的免費方案。
注冊后進入SageMaker,需要先配置SageMaker域。這一步作為非技術的我不知道有什么作用,但是在這個配置的過程中,每個頁面都會有明確引導,所以不理解也沒關系,照著做就行。設置頁已經配置好了默認設置,這個也很友好,基本傻瓜式點下一步就可以完成了。
每一步提示信息都很明晰。
總結:就注冊環(huán)節(jié)上來說,引導清晰,每一步都有明確提示,注冊上不會有太多障礙。
2. 實際試用
亮點一:針對0代碼經驗的業(yè)務分析人員提供的樣例和操作導覽很豐富。
非常清晰的使用導覽(幾個月前試用的時候還是沒有的,迭代速度還是很快的,而且也很注重用戶的反饋):
workshop studio提供樣例數(shù)據集試用,標明行業(yè),使用場景以及使用的模型,真的太贊了。
功能模塊按照機器學習的核心流程劃分清晰:
亮點二:基于需要預測的字段數(shù)據類型自動推薦模型類型。
配置需要預測的數(shù)據,系統(tǒng)為你推薦最優(yōu)模型類型,當然你也可以自己選。目前支持二分類、時間序列、numeric model
亮點三:提供可視化的數(shù)據預處理界面。
可查看每個字段的數(shù)據分布:
支持通過托拉拽對數(shù)據進行交叉分析:
支持建模前的預處理:
亮點四:模型結果報告自動生成
這個需求的點在于,業(yè)務分析師通過0代碼平臺構建模型最大的好處是提高對業(yè)務的響應,可以對數(shù)據和模型訓練做一個預探索,如果有更復雜的需求才找到數(shù)據團隊解決。
就拿風控策略來說,一個策略分析師必須是對風控策略及各類信貸產品有非常深刻的理解的,但是TA不一定懂復雜的代碼編寫,很多業(yè)務的需求需要經由風控分析師的分析將需求給到數(shù)據團隊,數(shù)據團隊接到需求建模后給到業(yè)務,業(yè)務基于數(shù)據表現(xiàn)再決定是要再進行優(yōu)化調整還是可以直接投入使用,這一來二去的耗時是非常久了。
如果有一個0代碼的分析工具,業(yè)務分析師可以自己先進行簡單的數(shù)據探索和模型構建,之后再把可能需要編程才能完成的工作給到數(shù)據科學團隊,這樣顯然效率是更高的。這就需要一個可以將模型結果對外分享的功能,以便數(shù)據科學團隊可以再做進一步優(yōu)化。canvas提供了PNG下載,以解決此需求。
提供報告png圖片格式下載,方便分享給部門其他人:
亮點五:結果預測支持在線調整數(shù)值以更新預測結果。
這個功能的好處是,你可以自己調整每個字段的數(shù)值,來測試哪個數(shù)值區(qū)間對預測結果更敏感。
七、總結
首先就canvas的定位而言,我覺得是一個比較巧妙的切入點,產品功能小而聚焦,功能設計輕便且直觀,滿足了高可用的這一特點。
就我比較了解的電商運營和信貸風控而言,由于是業(yè)務需要及時響應的領域,如果一個需求響應時間需要1-2周,一個大促都走完一半了,一個信貸周期都過去一半了。如果有一個產品能幫業(yè)務人員解決這個問題,以前1周的需求周期能縮減到幾個小時,這將大大提升業(yè)務的運營效率。但是在實際試用后我發(fā)現(xiàn)理想是豐滿的,但是現(xiàn)實還是很骨感:
① canvas依照會話時長及訓練數(shù)據單元格的數(shù)量付費,并不適宜國內的使用習慣
我在試用canvas的一周內,幾乎無感知的獲得了一份費用大禮包,我甚至都不知道這些費用是怎么產生的。謝謝亞馬遜,讓我對云服務的收費有了直觀的理解。
② 可以對數(shù)據進行自動處理的功能很吸引人,但是實際使用并不美好
我試用了一組《信貸用戶逾期預測建?!窋?shù)據,這組數(shù)據中有非常多的空值。在做機器學習之前,對無效數(shù)據進行處理是一種基本操作,canvas很自然的提供了可以自動識別missing data且進行刪除的功能,但是這個功能只支持單個字段添加刪除的形式。所以當我的元數(shù)據集中有非常多空值時,我甚至多了非常多的機械操作。
③ 目前的預測只支持單指標預測,使用場景可能會受限制
首先是只能對單指標進行預測,其次模型分享其實只能分享給同樣使用了sagemaker studio的用戶。這意味著想要有更好的用戶體驗和更便利的辦公協(xié)同環(huán)境,企業(yè)可能需要同時購買sagemaker studio服務。合理懷疑,canvas是studio產品使用過程中催生出來的新需求。
參考資料:
[1] sagemaker canvas產品文檔:https://docs.aws.amazon.com/sagemaker/latest/dg/canvas.html
[2] 【海比研究院】2021年中國低代碼_無代碼市場研究報告
[3] 【億歐智庫】2021低代碼市場研究報告0806_2021-08-11
[4] 艾瑞咨詢:生態(tài)聚合-中國低代碼行業(yè)生態(tài)發(fā)展洞察報告
[5] 艾瑞咨詢:不啻微芒,造炬成陽:2022年中國低代碼行業(yè)研究報告
數(shù)據來源:
[1] Amazon workshop studio:https://catalog.us-east-1.prod.workshops.aws/workshops/80ba0ea5-7cf9-4b8c-9d3f-1cd988b6c071/en-US
[2] 阿里云天池:信貸用戶逾期預測建?!?span id="gg8g4gg" class="candidate-entity-word" data-gid="1066749932429119594">銀聯(lián)商務】
本文由 @隱君隨記 原創(chuàng)發(fā)布于人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。