作者:許江
我經(jīng)常接觸數(shù)據(jù)倉庫建設(shè)的需求,而現(xiàn)有的大數(shù)據(jù)系統(tǒng)也希望基于大數(shù)據(jù)建設(shè)數(shù)據(jù)倉庫,然而Hadoop為核心發(fā)展起來的軟件適用于OLAP的數(shù)據(jù)分析需求,OLTP這樣的分布式數(shù)據(jù)庫系統(tǒng)也如火如荼的發(fā)展。
在企業(yè)數(shù)據(jù)信息數(shù)據(jù)整合過程中,往往都是不同數(shù)據(jù)源放到不同的數(shù)據(jù)庫系統(tǒng)中,沒有數(shù)據(jù)倉庫的規(guī)范化建設(shè),跨部門進行數(shù)據(jù)協(xié)作,打破數(shù)據(jù)孤島無法實現(xiàn)。
分布式系統(tǒng),幫助解決這些問題,我們真正深入了解數(shù)據(jù)價值的人都知道,建設(shè)統(tǒng)一的數(shù)據(jù)中心,數(shù)據(jù)倉庫,整合行業(yè)數(shù)據(jù)可以進行多種維度的數(shù)據(jù)分析,數(shù)據(jù)驅(qū)動決策,幫助企業(yè)創(chuàng)新。目前在金融、電商、廣告等行業(yè)已經(jīng)大規(guī)模利用新技術(shù)取得了不菲的成績。
今天,企業(yè)級數(shù)據(jù)分析平臺發(fā)生了很大的變化。
發(fā)生什么了?
那么,對于傳統(tǒng)的數(shù)據(jù)倉庫,你有各種各樣的數(shù)據(jù)來源。您正在收集、清洗和整合數(shù)據(jù),以便您可以將其呈現(xiàn)在您的數(shù)據(jù)倉庫中,進行統(tǒng)計分析、預測分析、商業(yè)智能和其他工作。
好吧,隨著時間的推移,現(xiàn)在變得更加復雜了。
我們有云、有移動設(shè)備、社交媒體數(shù)據(jù)、機器數(shù)據(jù)、傳感器數(shù)據(jù)。越來越多的數(shù)據(jù)來源,數(shù)據(jù)爆發(fā)式增長,非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)。
有大量的關(guān)于大數(shù)據(jù)介紹中,你會看到幻燈片談論您必須處理PB級數(shù)據(jù)量,才能利用上這些新的數(shù)據(jù)分析技術(shù)。但是對我來說,這是沒有抓住重點。
數(shù)據(jù)倉庫真正的意義是什么?為什么企業(yè)對數(shù)據(jù)倉庫支出不斷增加。這是因為不是數(shù)據(jù)量和速度問題。隨著發(fā)展,我們只需要增加硬件就能增加我們數(shù)據(jù)處理的規(guī)模,這才是分布式系統(tǒng)的強大之處。
萬物互聯(lián)的時代,隨著數(shù)據(jù)的多樣性和異質(zhì)性從而增加數(shù)據(jù)分析的復雜性。我們的需求是關(guān)聯(lián)和整合這些數(shù)據(jù)。但是,我們現(xiàn)有的數(shù)據(jù)分析工具,Hadoop或Spark并沒有帶來任何神器的解決方案。我們?nèi)匀辉谂鉀Q同樣的問題:如何從不同的渠道獲取數(shù)據(jù)、然后將他們關(guān)聯(lián)起來,這樣企業(yè)可以讓數(shù)據(jù)說話,數(shù)據(jù)驅(qū)動決策。為了解決這些問題,我們需要依賴更多新的工具。
數(shù)據(jù)倉庫的演變
利用新技術(shù),使我們能更好的解決實際業(yè)務問題。
那么,我們來看看不同的技術(shù),是如何幫助我們解決與數(shù)據(jù)相關(guān)的需求,為業(yè)務提供數(shù)據(jù)支撐。
OLAP場景的Hadoop解決方案,OLTP場景的NewSQL解決方案。
流水線式的數(shù)據(jù)分析
我們看到一個有趣的現(xiàn)象,每個公司幾乎都建立了一個數(shù)據(jù)流水線,隨著新數(shù)據(jù)的進入,他們利用NoSQL數(shù)據(jù)庫來存儲文檔數(shù)據(jù)。就像是一個無線容量的數(shù)據(jù)庫,擁有很好的擴展性,并且還能進行大數(shù)據(jù)量的高速查詢和搜索。
我們可以看到很多大規(guī)模使用MongoDB、Hbase、cassandra數(shù)據(jù)庫,還有NewSQL的發(fā)展。
隨著數(shù)據(jù)多樣性的出現(xiàn),出現(xiàn)了很多新型的數(shù)據(jù)庫。
新型數(shù)據(jù)分析需求
越來越高的數(shù)據(jù)分析需求和數(shù)據(jù)多樣性的探索,導致了數(shù)據(jù)庫系統(tǒng)的蓬勃發(fā)展,國產(chǎn)數(shù)據(jù)庫也有了非常大的進步可以進入國際頂級的數(shù)據(jù)庫會議發(fā)表論文,2017年騰訊的開源項目VLDB也發(fā)文了,而做為去IOE發(fā)起者的阿里在云端阿里云也如火如荼的發(fā)展數(shù)據(jù)庫服務,比如:PolarDB、螞蟻金服金融級數(shù)據(jù)庫分布式數(shù)據(jù)庫OceanBase都是黑科技級別的產(chǎn)品。為了在云端兼顧OLTP和OLAP的數(shù)據(jù)分析引擎,各大云廠商阿里云、騰訊云、XX云都使勁的推廣各自的數(shù)據(jù)庫技術(shù),也采取與開源數(shù)據(jù)庫廠商廣泛合作的方式。
底層數(shù)據(jù)庫系統(tǒng),特別是NewSQL幾大巨頭也有有在長期招聘相關(guān)職位??梢娔壳胺植际絆LTP/OLAP數(shù)據(jù)庫發(fā)展的勢頭,必然是與Cloud相結(jié)合,也只有云化才有機會大把撈金,不然開源數(shù)據(jù)庫這樣的生態(tài)下,底層基礎(chǔ)軟件出路在何方?
Analytic DB 的發(fā)展
我們列表?RDBMS -> MPP -> HADOOP -> NOSQL -> NEWSQL?主流的系統(tǒng),根據(jù)我接觸過的公司或產(chǎn)品來列舉,個人認知有限,如未能列表全面,歡迎補充。
RDBMS
MPP
Hadoop ?Ecosystem
NoSQL
NewSQL
雖然NoSQL因其性能、可伸縮性與可用性而廣受贊譽,但其開發(fā)與數(shù)據(jù)重構(gòu)的工作量要大于SQL存儲。因此,有些人開始轉(zhuǎn)向了NewSQL,它將NoSQL的優(yōu)勢與SQL的能力結(jié)合了起來。
OLAP場景做到極致的Hadoop生態(tài)。OLTP場景的NewSQL數(shù)據(jù)庫的發(fā)展。- 特朗普宣布200億美元投資計劃,在美國多地建設(shè)數(shù)據(jù)中心
- 工信部:“點、鏈、網(wǎng)、面”體系化推進算力網(wǎng)絡工作 持續(xù)提升算網(wǎng)綜合供給能力
- 2025年超融合基礎(chǔ)設(shè)施的4大趨勢
- 2025年將影響數(shù)據(jù)中心的5個云計算趨勢
- 80萬輛大眾汽車因AWS云配置錯誤導致數(shù)據(jù)泄露,包含“高精度”位置記錄
- 名創(chuàng)優(yōu)品超4000家門店接入“碰一下”支付,引爆年輕消費熱潮
- 免稅店也能用“碰一下”支付了!中免海南免稅店:碰一下就優(yōu)惠
- 報告:人工智能推動數(shù)據(jù)中心系統(tǒng)支出激增25%
- 密態(tài)計算技術(shù)助力農(nóng)村普惠金融 螞蟻密算、網(wǎng)商銀行項目入選大數(shù)據(jù)“星河”案例
- 專利糾紛升級!Netflix就虛擬機專利侵權(quán)起訴博通及VMware
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。