一文讀懂?dāng)?shù)據(jù)倉庫、數(shù)據(jù)平臺(tái)、數(shù)據(jù)中臺(tái)、數(shù)據(jù)湖的概念和區(qū)別

在數(shù)據(jù)倉庫、數(shù)據(jù)平臺(tái)、數(shù)據(jù)中臺(tái)、數(shù)據(jù)湖的相關(guān)概念中,都與數(shù)據(jù)有關(guān)系,但它們之間又有什么區(qū)別呢?本文圍繞它們的概念、架構(gòu)、使用場景進(jìn)行了介紹,一起來看一下吧。

一文讀懂?dāng)?shù)據(jù)倉庫、數(shù)據(jù)平臺(tái)、數(shù)據(jù)中臺(tái)、數(shù)據(jù)湖的概念和區(qū)別

我們經(jīng)常聽到別人談?wù)摂?shù)據(jù)倉庫、數(shù)據(jù)平臺(tái)、數(shù)據(jù)中臺(tái)、數(shù)據(jù)湖的相關(guān)概念,它們都與數(shù)據(jù)有關(guān)系,但它們之間又有什么區(qū)別,下面我們將圍繞數(shù)據(jù)倉庫、數(shù)據(jù)平臺(tái)、數(shù)據(jù)湖和數(shù)據(jù)中臺(tái)的概念、架構(gòu)、使用場景進(jìn)行介紹。

一、數(shù)據(jù)倉庫

1. 數(shù)據(jù)倉庫概念

數(shù)據(jù)倉庫由比爾·恩門(Bill Inmon,數(shù)據(jù)倉庫之父)于1990年提出,主要功能是將企業(yè)系統(tǒng)聯(lián)機(jī)事務(wù)處理(OLTP)長期壁壘的大量數(shù)據(jù),通過數(shù)據(jù)倉庫理論支持所持有的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),做有系統(tǒng)的分析整理。

一文讀懂?dāng)?shù)據(jù)倉庫、數(shù)據(jù)平臺(tái)、數(shù)據(jù)中臺(tái)、數(shù)據(jù)湖的概念和區(qū)別

隨著企業(yè)的發(fā)展,業(yè)務(wù)系統(tǒng)的數(shù)據(jù)不斷激增,這些存儲(chǔ)在企業(yè)業(yè)務(wù)數(shù)據(jù)庫中(也就是關(guān)系型數(shù)據(jù)庫Oracle,Microsoft SQL Sever,MySQL等)數(shù)據(jù)會(huì)隨著時(shí)間的積累越來越多,會(huì)使業(yè)務(wù)數(shù)據(jù)庫會(huì)有一定的負(fù)載,導(dǎo)致業(yè)務(wù)系統(tǒng)的運(yùn)行效率低,且這些數(shù)據(jù)中有很大一部分是冷數(shù)據(jù),而我們業(yè)務(wù)系統(tǒng)一般對(duì)我們近期的數(shù)據(jù),也就是熱數(shù)據(jù)調(diào)用的比較頻繁,對(duì)冷數(shù)據(jù)使用頻率較低。

同時(shí)隨著企業(yè)數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)概念的興起,企業(yè)需要將各業(yè)務(wù)部門的業(yè)務(wù)數(shù)據(jù)提取出來進(jìn)行數(shù)據(jù)分析與挖掘,輔助高層進(jìn)行分析與決策,但各部門需求的數(shù)據(jù)種類千差萬別,接口錯(cuò)綜復(fù)雜,過多的數(shù)據(jù)查詢腳本以及接口的接入導(dǎo)致業(yè)務(wù)數(shù)據(jù)庫的穩(wěn)定性降低。

為了避免冷數(shù)據(jù)與歷史數(shù)據(jù)的積壓對(duì)我們業(yè)務(wù)數(shù)據(jù)庫效能產(chǎn)生影響,企業(yè)需要定期將冷數(shù)據(jù)從業(yè)務(wù)數(shù)據(jù)庫中轉(zhuǎn)移出來存儲(chǔ)到一個(gè)專門存放歷史數(shù)據(jù)的倉庫里面,各部門可以根據(jù)自身業(yè)務(wù)特性對(duì)外提供統(tǒng)一的數(shù)據(jù)服務(wù),這個(gè)倉庫就是數(shù)據(jù)倉庫。

2. 數(shù)據(jù)倉庫特點(diǎn)

數(shù)據(jù)倉庫(Data Warehoese)的特點(diǎn):面向主題的、集成的、穩(wěn)定的、反映歷史數(shù)據(jù)變化的。

  • 面向主題的:數(shù)據(jù)倉庫是用來分析特點(diǎn)主題域的,所以說數(shù)據(jù)倉庫是面向主題的。例如,電商行業(yè)的主題域通常分為交易域、會(huì)員域、商品域等。
  • 集成的:數(shù)據(jù)倉庫集成了多個(gè)數(shù)據(jù)源,同一主題或產(chǎn)品相關(guān)數(shù)據(jù)可能來自不同的系統(tǒng)不同類型的數(shù)據(jù)庫,日志文件等。
  • 穩(wěn)定的:數(shù)據(jù)一旦進(jìn)入數(shù)據(jù)倉庫,則不可改變。數(shù)據(jù)倉庫的歷史數(shù)據(jù)是不應(yīng)該被更新的,同時(shí)存儲(chǔ)穩(wěn)定性較強(qiáng)
  • 反映歷史數(shù)據(jù)變化的:數(shù)據(jù)倉庫保存了長期的歷史數(shù)據(jù),這點(diǎn)相對(duì)OLTP的數(shù)據(jù)庫而言。因?yàn)樾阅芸紤]后者統(tǒng)籌保存近期的熱數(shù)據(jù)。

3. OLTP與OLAP

1)OLTP與OLAP概念

數(shù)據(jù)處理大致可以分成兩大類:聯(lián)機(jī)事務(wù)處理OLTP(on-line transaction processing)、聯(lián)機(jī)分析處理OLAP(On-Line Analytical Processing)。

OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的主要應(yīng)用,主要是基本的、日常的事務(wù)處理,例如銀行交易。OLAP是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。

一文讀懂?dāng)?shù)據(jù)倉庫、數(shù)據(jù)平臺(tái)、數(shù)據(jù)中臺(tái)、數(shù)據(jù)湖的概念和區(qū)別

2)OLTP與OLAP區(qū)別

一文讀懂?dāng)?shù)據(jù)倉庫、數(shù)據(jù)平臺(tái)、數(shù)據(jù)中臺(tái)、數(shù)據(jù)湖的概念和區(qū)別

OLTP 系統(tǒng)強(qiáng)調(diào)數(shù)據(jù)庫內(nèi)存效率,強(qiáng)調(diào)內(nèi)存各種指標(biāo)的命令率,綁定變量,并發(fā)操作等。OLAP 系統(tǒng)則強(qiáng)調(diào)數(shù)據(jù)分析,強(qiáng)調(diào)SQL執(zhí)行市場,磁盤I/O,分區(qū)等。

3)OLAP與數(shù)據(jù)倉庫的聯(lián)系

OLAP和數(shù)倉的關(guān)系是依賴互補(bǔ)的,一般以數(shù)據(jù)倉庫作為基礎(chǔ),既從數(shù)據(jù)倉庫中抽取出詳細(xì)數(shù)據(jù)的一個(gè)子集并經(jīng)過必要的聚集存儲(chǔ)到OLAP存儲(chǔ)中供數(shù)據(jù)分析工具讀取。

4. 數(shù)據(jù)倉庫的作用

數(shù)據(jù)倉庫將來自不同來源的結(jié)構(gòu)化數(shù)據(jù)聚合起來,用于業(yè)務(wù)智能領(lǐng)域的比較和分析,數(shù)據(jù)倉庫是包含多種數(shù)據(jù)的存儲(chǔ)庫,并且是高度建模的。

如下圖所示:各個(gè)系統(tǒng)的元數(shù)據(jù)通過ETL同步到操作性數(shù)據(jù)倉庫ODS中,對(duì)ODS數(shù)據(jù)進(jìn)行面向主題域建模形成DW(數(shù)據(jù)倉庫),DM是針對(duì)某一個(gè)業(yè)務(wù)領(lǐng)域建立模型,具體用戶(決策層)查看DM生成的報(bào)表。

一文讀懂?dāng)?shù)據(jù)倉庫、數(shù)據(jù)平臺(tái)、數(shù)據(jù)中臺(tái)、數(shù)據(jù)湖的概念和區(qū)別

什么是ETL?(extraction-transformation-load 抽取-轉(zhuǎn)換-加載)

傳統(tǒng)的數(shù)據(jù)倉庫集成處理架構(gòu)是ETL,利用ETL平臺(tái)的能力,E=從源數(shù)據(jù)庫抽取數(shù)據(jù),L=將數(shù)據(jù)清洗(不符合規(guī)則的數(shù)據(jù))、轉(zhuǎn)化(對(duì)表按照業(yè)務(wù)需求進(jìn)行不同維度、不同顆粒度、不同業(yè)務(wù)規(guī)則計(jì)算進(jìn)行統(tǒng)計(jì)),T=將加工好的表以增量、全量、不同時(shí)間加載到數(shù)據(jù)倉庫。

一文讀懂?dāng)?shù)據(jù)倉庫、數(shù)據(jù)平臺(tái)、數(shù)據(jù)中臺(tái)、數(shù)據(jù)湖的概念和區(qū)別

什么是ELT?(extraction-load-transformation抽取-加載-轉(zhuǎn)換)

大數(shù)據(jù)背景下的架構(gòu)體系是ELT結(jié)構(gòu),其根據(jù)上層的應(yīng)用需求,隨時(shí)從數(shù)據(jù)中臺(tái)中抽取想要的原始數(shù)據(jù)進(jìn)行建模分析。

ELT是利用數(shù)據(jù)庫的處理能力,E=從源數(shù)據(jù)庫抽取數(shù)據(jù),L=把數(shù)據(jù)加載到目標(biāo)庫的臨時(shí)表中,T=對(duì)臨時(shí)表中的數(shù)據(jù)進(jìn)行轉(zhuǎn)換,然后加載到目標(biāo)庫目標(biāo)表中。

一文讀懂?dāng)?shù)據(jù)倉庫、數(shù)據(jù)平臺(tái)、數(shù)據(jù)中臺(tái)、數(shù)據(jù)湖的概念和區(qū)別

ELT對(duì)比ETL的優(yōu)勢(shì):

  • 資源利用率的提升:ELT主要通過數(shù)據(jù)庫引擎來實(shí)現(xiàn)系統(tǒng)的可擴(kuò)展性(尤其是當(dāng)數(shù)據(jù)加工過程在晚上時(shí),可以充分利用數(shù)據(jù)庫引擎的資源)。
  • 任務(wù)運(yùn)行效率的提升:ELT可以保持所有的數(shù)據(jù)始終在數(shù)據(jù)庫當(dāng)中,避免數(shù)據(jù)的加載和導(dǎo)出,從而保證效率,提高系統(tǒng)的可監(jiān)控性。
  • 并行處理優(yōu)化:ELT可以根據(jù)數(shù)據(jù)的分布情況進(jìn)行并行處理優(yōu)化,并可以利用數(shù)據(jù)庫的固有功能優(yōu)化磁盤I/O。
  • 可擴(kuò)展性增強(qiáng):ELT的可擴(kuò)展性取決于數(shù)據(jù)庫引擎和其硬件服務(wù)器的可擴(kuò)展性。
  • 性能優(yōu)化:通過對(duì)相關(guān)數(shù)據(jù)庫進(jìn)行性能調(diào)優(yōu),ETL過程獲得3到4倍的效率提升一般不是特別困難。

數(shù)據(jù)倉庫系統(tǒng)的作用能實(shí)現(xiàn)跨業(yè)務(wù)條線、跨系統(tǒng)的數(shù)據(jù)整合,為管理分析和業(yè)務(wù)決策提供統(tǒng)一的數(shù)據(jù)支持。數(shù)據(jù)倉庫能夠從根本上幫助你把公司的運(yùn)營數(shù)據(jù)轉(zhuǎn)化成為高價(jià)值的可以獲取的信息(或知識(shí)),并且在恰當(dāng)?shù)臅r(shí)候通過恰當(dāng)?shù)姆绞桨亚‘?dāng)?shù)男畔鬟f給恰當(dāng)?shù)娜恕R韵聢D為例:

一文讀懂?dāng)?shù)據(jù)倉庫、數(shù)據(jù)平臺(tái)、數(shù)據(jù)中臺(tái)、數(shù)據(jù)湖的概念和區(qū)別

數(shù)據(jù)倉庫的作用主要體現(xiàn)在企業(yè)決策、分析、計(jì)劃和響應(yīng)以下幾個(gè)方面:

一文讀懂?dāng)?shù)據(jù)倉庫、數(shù)據(jù)平臺(tái)、數(shù)據(jù)中臺(tái)、數(shù)據(jù)湖的概念和區(qū)別

數(shù)據(jù)倉庫針對(duì)實(shí)時(shí)數(shù)據(jù)處理和非結(jié)構(gòu)化數(shù)據(jù)處理能力較弱,以及在業(yè)務(wù)在預(yù)警預(yù)測(cè)等方面應(yīng)用有一定的限制。

一文讀懂?dāng)?shù)據(jù)倉庫、數(shù)據(jù)平臺(tái)、數(shù)據(jù)中臺(tái)、數(shù)據(jù)湖的概念和區(qū)別

二、數(shù)據(jù)平臺(tái)

1. 數(shù)據(jù)平臺(tái)概念

大數(shù)據(jù)時(shí)代,數(shù)據(jù)平臺(tái)一般被稱之為大數(shù)據(jù)平臺(tái)。

狹義上的數(shù)據(jù)平臺(tái):是為了解決數(shù)據(jù)倉庫不能處理非結(jié)構(gòu)化數(shù)據(jù)和報(bào)表開發(fā)周期長的問題,所以先撇開業(yè)務(wù)需求、把企業(yè)所有的數(shù)據(jù)都抽取出來放到一起,成為一個(gè)大的數(shù)據(jù)集,其中有結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)等。當(dāng)業(yè)務(wù)方有需求的時(shí)候,再把他們需要的若干個(gè)小數(shù)據(jù)集單獨(dú)提取出來,以數(shù)據(jù)集的形式提供給數(shù)據(jù)應(yīng)用。

廣義的大數(shù)據(jù)平臺(tái):廣義的大數(shù)據(jù)平臺(tái)通常被賦予更多的使命,以處理海量數(shù)據(jù)存儲(chǔ)、計(jì)算及不間斷流數(shù)據(jù)實(shí)時(shí)計(jì)算、離線計(jì)算、智能推薦、交互式查詢、數(shù)據(jù)湖構(gòu)建等場景為主的一套基礎(chǔ)設(shè)施。典型的包括基于Hadoop 生態(tài)構(gòu)建的大數(shù)據(jù)平臺(tái)。提供易于部署及管理的 Hive、Spark、HBase、Flink、StarRocks、Iceberg、Alluxio 等開源大數(shù)據(jù)計(jì)算和存儲(chǔ)引擎。

狹義的數(shù)據(jù)平臺(tái)和傳統(tǒng)的數(shù)據(jù)平臺(tái)(數(shù)據(jù)倉庫)功能一致,區(qū)別只是技術(shù)架構(gòu)和數(shù)據(jù)容量方面的不同。

廣義上的大數(shù)據(jù)平臺(tái)是數(shù)據(jù)湖的基座,提供易于部署和管理的泛Hadoop生態(tài)及其他存儲(chǔ)計(jì)算引擎的PaaS平臺(tái),助力企業(yè)構(gòu)建企業(yè)級(jí)數(shù)據(jù)湖技術(shù)架構(gòu)。

Tip:本文以狹義的數(shù)據(jù)平臺(tái)進(jìn)行對(duì)比,這里不對(duì)狹義的數(shù)據(jù)平臺(tái)做過多概述。

三、數(shù)據(jù)中臺(tái)

1. 數(shù)據(jù)中臺(tái)概念

數(shù)據(jù)中臺(tái)的起源:2015 年年中,馬云帶領(lǐng)阿里巴巴集團(tuán)高管拜訪了一家芬蘭的小型游戲公司 Supercell。這家僅有不到 200 名員工的小型游戲公司竟創(chuàng)造了高達(dá) 15 億美元的年稅前利潤!而 Supercell 之所以能夠支持多個(gè)團(tuán)隊(duì)快速、敏捷地推出高質(zhì)量的游戲作品,其強(qiáng)大的中臺(tái)能力功不可沒。

因此,在拜訪 Supercell 的旅程結(jié)束之后,馬云決定對(duì)阿里巴巴的組織和系統(tǒng)架構(gòu)進(jìn)行整體調(diào)整,建立阿里產(chǎn)品技術(shù)和數(shù)據(jù)能力的強(qiáng)大中臺(tái),構(gòu)建“大中臺(tái),小前臺(tái)”的組織和業(yè)務(wù)體制。

數(shù)據(jù)中臺(tái)的主要目的:解決企業(yè)在發(fā)展過程中,由于數(shù)據(jù)激增與業(yè)務(wù)的擴(kuò)大而出現(xiàn)的統(tǒng)計(jì)口徑不一致、重復(fù)開發(fā)、指標(biāo)開發(fā)需求響應(yīng)慢、數(shù)據(jù)質(zhì)量低、數(shù)據(jù)成本高等問題。通過一系列數(shù)據(jù)工具(元數(shù)據(jù)中心、數(shù)據(jù)指標(biāo)中心、數(shù)倉模型中心、數(shù)據(jù)資產(chǎn)中心-資產(chǎn)質(zhì)量/治理/安全、數(shù)據(jù)服務(wù)中心等),規(guī)范數(shù)據(jù)供應(yīng)鏈的各個(gè)環(huán)節(jié)。

2. 數(shù)據(jù)中臺(tái)特點(diǎn)

數(shù)據(jù)中臺(tái)特點(diǎn):以一種標(biāo)準(zhǔn)的、安全的、可靠的、統(tǒng)一的、共享的、解耦的、服務(wù)化的方式支持前端數(shù)據(jù)的應(yīng)用。

3. 數(shù)據(jù)中臺(tái)作用

一文讀懂?dāng)?shù)據(jù)倉庫、數(shù)據(jù)平臺(tái)、數(shù)據(jù)中臺(tái)、數(shù)據(jù)湖的概念和區(qū)別

(阿里數(shù)據(jù)中臺(tái)邏輯架構(gòu)圖)

一文讀懂?dāng)?shù)據(jù)倉庫、數(shù)據(jù)平臺(tái)、數(shù)據(jù)中臺(tái)、數(shù)據(jù)湖的概念和區(qū)別

(數(shù)據(jù)中臺(tái)產(chǎn)品能力圖)

數(shù)據(jù)中臺(tái)通過對(duì)企業(yè)內(nèi)外部多源異構(gòu)的數(shù)據(jù)采集、建設(shè)、管理、分析和應(yīng)用,使數(shù)據(jù)對(duì)內(nèi)優(yōu)化管理提高業(yè)務(wù)價(jià)值,對(duì)外進(jìn)行數(shù)據(jù)合作讓業(yè)務(wù)價(jià)值得到釋放,使之成為企業(yè)數(shù)據(jù)資產(chǎn)管理中樞。數(shù)據(jù)中臺(tái)建立后,會(huì)形成數(shù)據(jù)API服務(wù),為企業(yè)和客戶提供高效各種數(shù)據(jù)服務(wù)。

數(shù)據(jù)中臺(tái)對(duì)一個(gè)企業(yè)的數(shù)字化轉(zhuǎn)型可持續(xù)發(fā)展起著至關(guān)重要的作用。數(shù)據(jù)中臺(tái)為解耦而生,企業(yè)建設(shè)數(shù)據(jù)中臺(tái)的最大意義就是應(yīng)用與數(shù)據(jù)之間的解耦,這樣企業(yè)就可以不受限制地按需構(gòu)建滿足業(yè)務(wù)需求的數(shù)據(jù)應(yīng)用。

構(gòu)建了開放、靈活、可擴(kuò)展的企業(yè)級(jí)統(tǒng)一數(shù)據(jù)管理和分析平臺(tái), 將企業(yè)內(nèi)、外部數(shù)據(jù)隨需關(guān)聯(lián),打破了數(shù)據(jù)的系統(tǒng)界限。

利用大數(shù)據(jù)智能分析、數(shù)據(jù)可視化等技術(shù),實(shí)現(xiàn)了數(shù)據(jù)共享、日常報(bào)表自動(dòng)生成、快速和智能分析,滿足企業(yè)各級(jí)部門之間的數(shù)據(jù)分析應(yīng)用需求。

深度挖掘數(shù)據(jù)價(jià)值,助力企業(yè)數(shù)字化轉(zhuǎn)型落地。實(shí)現(xiàn)了數(shù)據(jù)的目錄、模型、標(biāo)準(zhǔn)、認(rèn)責(zé)、安全、可視化、共享等管理,實(shí)現(xiàn)數(shù)據(jù)集中存儲(chǔ)、處理、分類與管理,建立大數(shù)據(jù)分析工具庫、算法服務(wù)庫,實(shí)現(xiàn)報(bào)表生成自動(dòng)化、數(shù)據(jù)分析敏捷化、數(shù)據(jù)挖掘可視化,實(shí)現(xiàn)數(shù)據(jù)質(zhì)量評(píng)估、落地管理流程。

四、數(shù)據(jù)湖

1. 數(shù)據(jù)湖概念

數(shù)據(jù)湖起源:數(shù)據(jù)湖的起源,應(yīng)該追溯到2010年10月,由 Pentaho 的創(chuàng)始人兼 CTO, James Dixon 所提出,他提出的目的就當(dāng)時(shí)歷史背景來看,其實(shí)是為了推廣自家產(chǎn)品 Pentaho。當(dāng)時(shí)核心要解決的問題是傳統(tǒng)數(shù)據(jù)倉庫報(bào)表分析面臨的兩個(gè)問題:

  • 只使用部分屬性,這些數(shù)據(jù)只能回答預(yù)先定義好(pre-determined)的問題。
  • 數(shù)據(jù)被聚合了,最低層級(jí)的細(xì)節(jié)丟失了,能回答的問題被限制了。

而我們當(dāng)前所討論的數(shù)據(jù)湖,已經(jīng)遠(yuǎn)遠(yuǎn)超過了當(dāng)初 James Dixon 所定義的數(shù)據(jù)湖,各廠商之間也對(duì)數(shù)據(jù)湖有了更多的不同定義。

1)AWS

A data lake is a centralized repository that allows you to store all your structured and unstructured data at any scale. You can store your data as-is, without having to first structure the data, and run different types of analytics—from dashboards and visualizations to big data processing, real-time analytics, and machine learning to guide better decisions.

“數(shù)據(jù)湖是一個(gè)集中式存儲(chǔ)庫,允許您以任意規(guī)模存儲(chǔ)所有結(jié)構(gòu)化非結(jié)構(gòu)化數(shù)據(jù)。您可以按原樣存儲(chǔ)數(shù)據(jù)(無需先對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理),并運(yùn)行不同類型的分析– 從控制面板和可視化到大數(shù)據(jù)處理、實(shí)時(shí)分析和機(jī)器學(xué)習(xí),以指導(dǎo)做出更好的決策。”

2)微軟

Azure Data Lake includes all the capabilities required to make it easy for developers, data scientists, and analysts to store data of any size, shape, and speed, and do all types of processing and analytics across platforms and languages. It removes the complexities of ingesting and storing all of your data while making it faster to get up and running with batch, streaming, and interactive analytics.

“Azure 的數(shù)據(jù)湖包括一切使得開發(fā)者、數(shù)據(jù)科學(xué)家、分析師更簡單的存儲(chǔ)、處理數(shù)據(jù)的能力,這些能力使得用戶可以存儲(chǔ)任意規(guī)模、任意類型、任意產(chǎn)生速度的數(shù)據(jù),并且可以跨平臺(tái)、跨語言的做所有類型的分析和處理。數(shù)據(jù)湖在能幫助用戶加速應(yīng)用數(shù)據(jù)的同時(shí),消除了數(shù)據(jù)采集和存儲(chǔ)的復(fù)雜性,同時(shí)也能支持批處理、流式計(jì)算、交互式分析等?!?/p>

3)阿里云

“數(shù)據(jù)湖是統(tǒng)一存儲(chǔ)池,可對(duì)接多種數(shù)據(jù)輸入方式,您可以存儲(chǔ)任意規(guī)模的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)湖可無縫對(duì)接多種計(jì)算分析平臺(tái),根據(jù)業(yè)務(wù)場景不同,可以選擇相應(yīng)的計(jì)算引擎對(duì)數(shù)據(jù)湖中存儲(chǔ)的數(shù)據(jù)進(jìn)行數(shù)據(jù)處理與分析,從而打破孤島,挖掘業(yè)務(wù)價(jià)值?!?/p>

2. 數(shù)據(jù)湖內(nèi)容

數(shù)據(jù)湖中包括來自于關(guān)系型數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)(行和列)、半結(jié)構(gòu)化數(shù)據(jù)(如CSV、日志、XML、JSON)、非結(jié)構(gòu)化數(shù)據(jù)(如 email、文檔、PDF 等)和 二進(jìn)制數(shù)據(jù)(如圖像、音頻、視頻)。

3. 數(shù)據(jù)湖的特點(diǎn)

  • 統(tǒng)一的數(shù)據(jù)存儲(chǔ),存放原始的數(shù)據(jù)。
  • 支持任意結(jié)構(gòu)的數(shù)據(jù)存儲(chǔ),包括結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化。
  • 支持多種計(jì)算分析,適用多種應(yīng)用場景。
  • 支持任意規(guī)模的數(shù)據(jù)存儲(chǔ)與計(jì)算能力。
  • 目標(biāo)都是為了更好,更快的發(fā)現(xiàn)數(shù)據(jù)價(jià)值。

4. 數(shù)據(jù)湖能夠解決的問題

1)數(shù)據(jù)湖整體架構(gòu)

一文讀懂?dāng)?shù)據(jù)倉庫、數(shù)據(jù)平臺(tái)、數(shù)據(jù)中臺(tái)、數(shù)據(jù)湖的概念和區(qū)別

最底下是分布式文件系統(tǒng);

第二層是數(shù)據(jù)加速層。數(shù)據(jù)湖架構(gòu)是一個(gè)存儲(chǔ)計(jì)算徹底分離的架構(gòu),如果所有的數(shù)據(jù)訪問都遠(yuǎn)程讀取文件系統(tǒng)上的數(shù)據(jù),那么性能和成本開銷都很大。如果能把經(jīng)常訪問到的一些熱點(diǎn)數(shù)據(jù)緩存在計(jì)算節(jié)點(diǎn)本地,這就非常自然的實(shí)現(xiàn)了冷熱分離,一方面能收獲到不錯(cuò)的本地讀取性能,另一方面還節(jié)省了遠(yuǎn)程訪問的帶寬。

第三層就是 Table format 層,主要是把一批數(shù)據(jù)文件封裝成一個(gè)有業(yè)務(wù)意義的 table,提供 ACID、snapshot、Schema、partition 等表級(jí)別的語義。

最上層就是不同計(jì)算場景的計(jì)算引擎了。開源的一般有 Spark、Flink、Hive、Presto、Hive MR 等,這一批計(jì)算引擎是可以同時(shí)訪問同一張數(shù)據(jù)湖的表的。

2)數(shù)據(jù)湖能解決哪類問題

數(shù)據(jù)分散,存儲(chǔ)散亂,形成數(shù)據(jù)孤島,無法聯(lián)合數(shù)據(jù)發(fā)現(xiàn)更多價(jià)值。

這方面來講,其實(shí)數(shù)據(jù)湖要解決的與數(shù)據(jù)倉庫是類似的問題,但又有所不同,因?yàn)樗亩x里支持對(duì)半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的管理。而傳統(tǒng)數(shù)據(jù)倉庫僅能解決結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一管理。

在這個(gè)萬物互聯(lián)的時(shí)代,數(shù)據(jù)的來源多種多樣,隨著不同應(yīng)用場景,產(chǎn)出的數(shù)據(jù)格式也是越來越豐富,不能再僅僅局限于結(jié)構(gòu)化數(shù)據(jù)。如何統(tǒng)一存儲(chǔ)這些數(shù)據(jù),就是迫切需要解決的問題。

3)存儲(chǔ)成本

數(shù)據(jù)庫或數(shù)據(jù)倉庫的存儲(chǔ)受限于實(shí)現(xiàn)原理及硬件條件,導(dǎo)致存儲(chǔ)海量數(shù)據(jù)時(shí)成本過高,而為了解決這類問題就有了HDFS/對(duì)象存儲(chǔ)這類技術(shù)方案。數(shù)據(jù)湖場景下如果使用這類存儲(chǔ)成本較低的技術(shù)架構(gòu),將會(huì)為企業(yè)大大節(jié)省成本。結(jié)合生命周期管理的能力,可以更好的為湖內(nèi)數(shù)據(jù)分層(冷溫?zé)岽娣旁诓煌拇鎯?chǔ)介質(zhì):HDDSSD、MEM),不用糾結(jié)在是保留數(shù)據(jù)還是刪除數(shù)據(jù)節(jié)省成本的問題。

4)SQL已經(jīng)無法滿足的分析需求

越來越多種類的數(shù)據(jù),意味著越來越多的分析方式,傳統(tǒng)的 SQL 方式已經(jīng)無法滿足分析的需求,如何通過各種語言自定義貼近自己業(yè)務(wù)的代碼,如何通過機(jī)器學(xué)習(xí)挖掘更多的數(shù)據(jù)價(jià)值。

5)存儲(chǔ)/計(jì)算擴(kuò)展性不足

傳統(tǒng)數(shù)據(jù)庫等在海量數(shù)據(jù)下,如規(guī)模到 PB 級(jí)別,因?yàn)榧夹g(shù)架構(gòu)的原因,已經(jīng)無法滿足擴(kuò)展的要求或者擴(kuò)展成本極高,而這種情況下通過數(shù)據(jù)湖架構(gòu)下的擴(kuò)展技術(shù)能力,實(shí)現(xiàn)成本為0,硬件成本也可控。業(yè)務(wù)模型不定,無法預(yù)先建模。

傳統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)倉庫,都是 Schema-on-Write 的模式,需要提前定義 Schema 信息。而在數(shù)據(jù)湖場景下,可以先保存數(shù)據(jù),后續(xù)待分析時(shí),再發(fā)現(xiàn) Schema,也就是 Schema-on-Read。

五、對(duì)比

1. 數(shù)據(jù)倉庫 VS 數(shù)據(jù)中臺(tái) VS 數(shù)據(jù)湖

一文讀懂?dāng)?shù)據(jù)倉庫、數(shù)據(jù)平臺(tái)、數(shù)據(jù)中臺(tái)、數(shù)據(jù)湖的概念和區(qū)別

2. 數(shù)據(jù)倉庫 VS 數(shù)據(jù)平臺(tái)

因狹義的數(shù)據(jù)平臺(tái)是由于數(shù)據(jù)倉庫具有歷史性的特性,其中存儲(chǔ)的數(shù)據(jù)大多是結(jié)構(gòu)化數(shù)據(jù),而數(shù)據(jù)平臺(tái)的出現(xiàn)解決了數(shù)據(jù)倉庫不能處理非結(jié)構(gòu)化數(shù)據(jù)和報(bào)表開發(fā)周期長的問題,故將數(shù)據(jù)倉庫與數(shù)據(jù)平臺(tái)(狹義)單獨(dú)做對(duì)比。

本質(zhì)區(qū)別:技術(shù)架構(gòu)和數(shù)據(jù)容量方面的不同。

一文讀懂?dāng)?shù)據(jù)倉庫、數(shù)據(jù)平臺(tái)、數(shù)據(jù)中臺(tái)、數(shù)據(jù)湖的概念和區(qū)別

通過以上的論述,我們發(fā)現(xiàn)數(shù)據(jù)平臺(tái)和數(shù)據(jù)湖好像存在諸多相似性,這二者之間的區(qū)別,從個(gè)人角度理解上分析應(yīng)該是數(shù)據(jù)加工的角度不同,數(shù)據(jù)湖更著重于對(duì)原始數(shù)據(jù)的存儲(chǔ),而數(shù)據(jù)平臺(tái)則同數(shù)據(jù)倉庫一樣,需對(duì)原始數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換等數(shù)據(jù)處理后按照統(tǒng)一的標(biāo)準(zhǔn)規(guī)范進(jìn)行存儲(chǔ)。

六、總結(jié)

根據(jù)以上數(shù)據(jù)平臺(tái)、數(shù)據(jù)倉庫、數(shù)據(jù)湖和數(shù)據(jù)中臺(tái)的概念論述和對(duì)比,我們進(jìn)行如下總結(jié):

  1. 數(shù)據(jù)中臺(tái)、數(shù)據(jù)倉庫和數(shù)據(jù)湖沒有直接的關(guān)系;
  2. 數(shù)據(jù)中臺(tái)、數(shù)據(jù)平臺(tái)、數(shù)據(jù)倉庫和數(shù)據(jù)湖在某個(gè)維度上為業(yè)務(wù)產(chǎn)生價(jià)值的形式有不同的側(cè)重;
  3. 數(shù)據(jù)倉庫是數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)的邏輯概念,用于支持管理決策分析,為業(yè)務(wù)提供服務(wù)的主要方式是報(bào)表;
  4. 數(shù)據(jù)中臺(tái)是企業(yè)級(jí)的邏輯概念,體現(xiàn)企業(yè)數(shù)據(jù)向業(yè)務(wù)價(jià)值轉(zhuǎn)化的能力,為業(yè)務(wù)提供服務(wù)的主要方式是數(shù)據(jù) API;
  5. 數(shù)據(jù)湖是企業(yè)級(jí)的技術(shù)邏輯概念,體現(xiàn)企業(yè)級(jí)數(shù)據(jù)湖架構(gòu)加速數(shù)據(jù)向業(yè)務(wù)價(jià)值轉(zhuǎn)化的能力,為業(yè)務(wù)提供服務(wù)的主要方式是原始數(shù)據(jù);
  6. 數(shù)據(jù)中臺(tái)、數(shù)據(jù)湖距離業(yè)務(wù)更近,能夠更快速的響應(yīng)業(yè)務(wù)和應(yīng)用開發(fā)需求,從而為業(yè)務(wù)提供速度更快的服務(wù);
  7. 數(shù)據(jù)中臺(tái)可以建立在數(shù)據(jù)倉庫和數(shù)據(jù)平臺(tái)之上,是加速企業(yè)從數(shù)據(jù)到業(yè)務(wù)價(jià)值的過程的中間層;

本文由 @Z先生聊產(chǎn)品 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自Unsplash,基于CC0協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

相關(guān)新聞

聯(lián)系我們
聯(lián)系我們
公眾號(hào)
公眾號(hào)
在線咨詢
分享本頁
返回頂部