大數(shù)據(jù)是什么
我從08年開(kāi)始實(shí)際接觸hadoop的,這得益于當(dāng)年IBM和我在的學(xué)校的一次合作,做一個(gè)研究項(xiàng)目:怎么樣用蒙特卡洛的辦法來(lái)解決數(shù)據(jù)中的不確定性問(wèn)題。這個(gè)解決方案有兩個(gè)特點(diǎn),第一是計(jì)算量非常非常的大,第二是計(jì)算和計(jì)算之間相對(duì)獨(dú)立。這就使得基于Hadoop的并行計(jì)算成為一個(gè)很好的選擇。
大數(shù)據(jù)作為一個(gè)名詞其實(shí)是晚于Hadoop的,更是晚于MapReduce。曾經(jīng)有那么一段時(shí)間,流行的詞語(yǔ)是MapReduce而不是大數(shù)據(jù)。當(dāng)然再后來(lái),大數(shù)據(jù)這個(gè)詞就流行開(kāi)了。但是大數(shù)據(jù)到底是什么,到今天應(yīng)該還是稀里糊涂的一筆賬。
話說(shuō)我做所謂的大數(shù)據(jù)都不知道多少年了,今天我還是搞不清楚大數(shù)據(jù)到底是什么。于是我就請(qǐng)教權(quán)威吧,查了一下百度百科。
百度百科是這樣定義的:
大數(shù)據(jù)(big data),指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。在維克托·邁爾-舍恩伯格及肯尼斯·庫(kù)克耶編寫(xiě)的《大數(shù)據(jù)時(shí)代》中大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。大數(shù)據(jù)的5V特點(diǎn)(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價(jià)值密度)、Veracity(真實(shí)性)。
我不知道大家是不是讀懂了,反正我做大數(shù)據(jù)這么多年,這段定義我是讀不懂。
這個(gè)定義最大的特點(diǎn),和很多紅皮書(shū)白皮書(shū)黑皮書(shū)之類(lèi)的差不多,就是裝逼。說(shuō)白了,不說(shuō)人話。反正我是沒(méi)聽(tīng)明白大數(shù)據(jù)和小數(shù)據(jù)有什么本質(zhì)的區(qū)別。無(wú)非是數(shù)據(jù)和處理數(shù)據(jù)的工具以及從數(shù)據(jù)里面提取有用信息變成錢(qián)的過(guò)程。曾經(jīng)我們?cè)谧鲞@些事情,現(xiàn)在我們?cè)谧鲞@些事情,將來(lái)我們也會(huì)繼續(xù)做這些事情。
所以呢,我在我的文章里面共享過(guò)行為學(xué)家Dan Ariely關(guān)于大數(shù)據(jù)的名言,今天的講座我們繼續(xù)共享一下這段名言:
Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it.
簡(jiǎn)單翻譯一下:
大數(shù)據(jù)就像青少年性行為:大家都談?wù)?,沒(méi)有人真正知道怎么做,每個(gè)人都認(rèn)為其他人都在做,所以每個(gè)人都聲稱自己在做。
以前幾年國(guó)內(nèi)大數(shù)據(jù)概念炒上天的情況來(lái)看,其實(shí)真的誰(shuí)也不知道大數(shù)據(jù)是什么,誰(shuí)也不清楚大數(shù)據(jù)怎么玩,但是各行各業(yè)忽如一夜春風(fēng)來(lái),冒出無(wú)數(shù)個(gè)大數(shù)據(jù)公司大數(shù)據(jù)專(zhuān)家。
說(shuō)的俗一點(diǎn),大數(shù)據(jù)是造出來(lái)的概念。我們?nèi)祟?lèi)其實(shí)非常擅長(zhǎng)造概念,炒概念,然后炒完一個(gè)以后再起一個(gè)新的。所以大數(shù)據(jù)作為一個(gè)人造的概念飛起來(lái)也不奇怪。就像現(xiàn)在的人工智能一樣也是炒概念。早年還有納米洗衣機(jī)呢。
現(xiàn)在我們可以看到各行各業(yè)都在談?wù)摯髷?shù)據(jù)。從政府到企業(yè),從互聯(lián)網(wǎng)行業(yè)到傳統(tǒng)行業(yè),隨便寫(xiě)個(gè)App背后沒(méi)有大數(shù)據(jù)都不能叫好App?,F(xiàn)在大數(shù)據(jù)都上升到國(guó)家高度了。比如說(shuō)政府辦公要上大數(shù)據(jù),一個(gè)三線城市,放兩三臺(tái)機(jī)器搞定的,這數(shù)據(jù)真的非常的大。
如果我們撇開(kāi)大數(shù)據(jù)這個(gè)概念不談,自從有了數(shù)據(jù)以來(lái),人類(lèi)一直做的事情是什么?這個(gè)其實(shí)也是今天大數(shù)據(jù)的背景下大家都在做的事情,概括起來(lái)講:分析數(shù)據(jù),產(chǎn)生有價(jià)值的信息。
這個(gè)事情20年前在做10年前也在做,今天還是在做,其實(shí)沒(méi)什么變化。 那么什么東西發(fā)生了變化呢?最大的一個(gè)是工具的能力發(fā)生了變化。 現(xiàn)在我們可以幾千幾萬(wàn)臺(tái)機(jī)器一起協(xié)同做計(jì)算了。其次是性價(jià)比的變化。以前買(mǎi)Oracle的數(shù)據(jù)庫(kù)IBM大型機(jī)Teradata的解決方案,賊貴?,F(xiàn)在開(kāi)源軟件一搭,弄些PC機(jī)就好。糙一點(diǎn)無(wú)所謂,所謂便宜才能普及。
然而本質(zhì)來(lái)講,大家做的事情并無(wú)改變。所以我們不需要去糾結(jié)于大數(shù)據(jù)到底是什么,而是要看清楚具體業(yè)務(wù)問(wèn)題是什么,有什么合適的工具去解決。這些工具可能是新的也可能是舊的。我想大數(shù)據(jù)的所謂發(fā)展無(wú)非就是工具的進(jìn)步使得大家能夠更有能力去在限定的時(shí)間內(nèi)處理更多的數(shù)據(jù),獲得更有效的信息。
Google的大數(shù)據(jù)發(fā)展
大凡我們開(kāi)始提到大數(shù)據(jù)的時(shí)候,都會(huì)提到Google。就像學(xué)哲學(xué)的言必稱希臘一樣。講到大數(shù)據(jù)不提Google,就有點(diǎn)感覺(jué)不是正宗做大數(shù)據(jù)的。我以前認(rèn)識(shí)一個(gè)學(xué)哲學(xué)的中國(guó)人,天天都掛著蘇格拉底,柏拉圖,亞里士多德,希臘三賢人。我們聊大數(shù)據(jù),其實(shí)也差不多。掛嘴邊的就是Google三駕馬車(chē)。
這三駕馬車(chē)是Google File System, MapReduce和BigTable.這些東西在開(kāi)源的世界里面的代表分別是Hadoop File System, Hadoop MapReduce, 以及HBase。Google File System出來(lái)的最早,MapReduce最有名,BigTable出來(lái)的最晚。
Google之所以成為大數(shù)據(jù)的鼻祖,在我個(gè)人看來(lái),最主要的原因不是它的技術(shù)有多牛,而是它的商業(yè)模式向我們展示的東西和前人非常的不同。
在Google之前很多互聯(lián)網(wǎng)服務(wù)是收費(fèi)的,比如說(shuō)郵箱。Google搞起了免費(fèi)的Gmail,然后越是免費(fèi)就越是賺錢(qián)。因?yàn)镚oogle有一個(gè)有針對(duì)性投放廣告的系統(tǒng)。而投放廣告則給Google帶來(lái)了規(guī)模效應(yīng),越多的人用,收入也就越多。Google之所有能夠讓這個(gè)廣告系統(tǒng)有效,重要的就是對(duì)用戶的數(shù)據(jù)做了分析,并且從分析以后的海量數(shù)據(jù)里面變成了真金白銀。雪花花的銀子擺在大家面前,所謂財(cái)帛動(dòng)人心。因?yàn)橛绣X(qián)賺,別人才會(huì)在乎它家的技術(shù)。任何的技術(shù)都沒(méi)有Google每次財(cái)務(wù)報(bào)告里面不斷滾動(dòng)增長(zhǎng)的錢(qián)來(lái)得有說(shuō)服力。
Google三架馬車(chē)分別的意思是:
Google File System:文件系統(tǒng)
MapReduce:編程模式和運(yùn)行環(huán)境
BigTable:一個(gè)SortMap
其實(shí)我們需要先了解一下Google發(fā)明這些技術(shù)最初是為了什么。
文件系統(tǒng)很簡(jiǎn)單,當(dāng)然是存文件的。Google之所以需要一個(gè)新的文件系統(tǒng)是因?yàn)镚oogle需要存儲(chǔ)的數(shù)據(jù)是整個(gè)互聯(lián)網(wǎng)加上各種索引等等。這樣的數(shù)據(jù)規(guī)模顯然無(wú)法通過(guò)現(xiàn)存的技術(shù)來(lái)支持,所以Google就發(fā)明了自己的文件系統(tǒng)。
能夠廉價(jià)的海量存儲(chǔ)數(shù)據(jù)是一切后續(xù)的基石。這個(gè)文件系統(tǒng)其實(shí)是整個(gè)構(gòu)架里面最為基礎(chǔ)和核心的東西。所以如果我們以此類(lèi)比去看,在Hadoop的世界里, Hadoop File System才是最牢固的基石,其他東西能變這個(gè)也不能變。
正是因?yàn)橛辛薍DFS,才成就了Hadoop的生態(tài)圈;而不是因?yàn)橛辛薍adoop的MapReduce。要不今天為什么Spark滿天飛呢?
MapReduce在2006到2012年的期間被炒翻天了。我們先不看為什么MapReduce被吵翻天。本質(zhì)上來(lái)講,Google發(fā)明這個(gè)技術(shù)最重要的目的是為了它的網(wǎng)頁(yè)搜索建立inverted index。搜索本質(zhì)上是搜索關(guān)鍵詞到網(wǎng)頁(yè)的一個(gè)對(duì)應(yīng)過(guò)程。網(wǎng)絡(luò)爬蟲(chóng)爬下來(lái)的網(wǎng)頁(yè)會(huì)被建立起從網(wǎng)頁(yè)里面的單詞到這個(gè)網(wǎng)頁(yè)的逆向索引。而這種索引的建立在整個(gè)互聯(lián)網(wǎng)的規(guī)模下是一個(gè)非常有挑戰(zhàn)的問(wèn)題。Google在MapReduce做出來(lái)之后最大的目的就是為了建立這個(gè)索引。而我們看到的論文里面的word count的例子也可以看做是這種逆序索引的一個(gè)簡(jiǎn)化的例子。
MapReduce后來(lái)就被神話了。MapReduce的論文,我其實(shí)很難區(qū)分是Google故意攪渾水還是Google自己也被自己的虛假成就給迷惑了。有一段時(shí)間,MapReduce在Google和數(shù)據(jù)庫(kù)元老、圖靈獎(jiǎng)獲得者M(jìn)ichael Stonebraker之間展開(kāi)了一場(chǎng)大撕逼。基本上的原則來(lái)說(shuō),圖靈獎(jiǎng)獲得者覺(jué)得這個(gè)東西沒(méi)什么,很傻逼。而Google則認(rèn)為這是救市良藥。唯一的作用是在那些年里,MapReduce催生了無(wú)數(shù)的論文。大家把成年的各種問(wèn)題用MapReduce重新實(shí)現(xiàn)了一遍。應(yīng)該說(shuō)給廣大科研工作者創(chuàng)造了很多的研究機(jī)會(huì)。而對(duì)于實(shí)際上這個(gè)業(yè)界的毒害是很明顯的。Hadoop長(zhǎng)期以來(lái)就只提供了MapReduce的實(shí)現(xiàn),笨,慢,資源浪費(fèi)等等。
至于BigTable,和其他兩個(gè)東西比其實(shí)是一個(gè)很突兀的東西。當(dāng)然BigTable并不是自己稱呼自己是Map而是說(shuō)叫做Key-Value Store,又改一個(gè)名字叫做NoSQL。這些東西也是炒作概念了。 BigTable的最大的目的依然是建立 inverted index。只是不同的是,這個(gè)工具提供了incremental build的功能。這就是Google新一代的索引引擎Caffeine的基礎(chǔ)。
所以我們?nèi)绻莻€(gè)皮來(lái)看的話,這三駕馬車(chē)本質(zhì)上來(lái)說(shuō)首先是為了Google的互聯(lián)網(wǎng)搜索服務(wù)的。這樣的工具是否具有普適性。其實(shí)很難說(shuō)。文件系統(tǒng)當(dāng)然是好東西。但是Hadoop的文件系統(tǒng)其實(shí)被很多人罵。所以有人直接重新寫(xiě)了文件系統(tǒng)保留了接口。MapReduce這個(gè)東西,連做join都非要把兩個(gè)數(shù)據(jù)源硬合并成一個(gè)數(shù)據(jù)源,怎么樣來(lái)看都是模型本身太過(guò)于狹隘。做不得是一個(gè)很通用的計(jì)算模型。至于BigTable嗎,連Google自己的廣告部門(mén)都寧愿用MySQL也不肯用BigTable,這個(gè)沒(méi)有實(shí)現(xiàn)transaction支持的系統(tǒng)其對(duì)用戶寫(xiě)應(yīng)用有很多的負(fù)擔(dān)和要求。在Facebook里面一度有傳出來(lái)要用HBase取代MySQL的做法。但是不知道是HBase本身不成熟還是BigTable的概念的問(wèn)題,這個(gè)一直沒(méi)做成,而MySQL則一直活下去了。
Google的大數(shù)據(jù)技術(shù)的發(fā)展還可以展開(kāi)說(shuō)很多。但是我只是想強(qiáng)調(diào)我個(gè)人的一個(gè)觀點(diǎn),Google的技術(shù)是為了Google內(nèi)部的使用而發(fā)展起來(lái)的,而它帶著明顯的為互聯(lián)網(wǎng)搜索服務(wù)的特征。所以它們本質(zhì)上來(lái)說(shuō)也是為了解決Google的問(wèn)題和需要,這些東西適合不適合外面其他的人,就是兩說(shuō)的了。
而我們必須說(shuō),實(shí)際上,這些工具的確被開(kāi)源拷貝。但是我們同樣看到,開(kāi)源社區(qū)很快就走向其他的途徑了。比如SQL-ON Hadoop像HIVE就出來(lái)了。
HIVE這個(gè)東西,雖然下面還是用了MapReduce,它對(duì)用戶的編程模型就變了,變得不是那么的搜索相關(guān)了。下面的引擎現(xiàn)在也給換成更通用的TEZ了。
因此我這里最主要的觀點(diǎn)是Google本身發(fā)展出來(lái)的技術(shù)的目的性其實(shí)明確,沒(méi)有那么多的普適性。到開(kāi)源生態(tài)圈里面,慢慢就會(huì)有變化,而這種變化作為技術(shù)的最初發(fā)明者的Google其實(shí)并沒(méi)有迅速的接受并且改變。
Google為什么錯(cuò)失了大數(shù)據(jù)市場(chǎng)
我們繼續(xù)聊第三個(gè)問(wèn)題,為什么Google作為大數(shù)據(jù)的鼻祖一般的公司,有三駕馬車(chē)的奠基性工作,但是其實(shí)在這場(chǎng)大數(shù)據(jù)概念和由概念引起的賺錢(qián)風(fēng)潮里面沒(méi)有賺到錢(qián),也沒(méi)有實(shí)際的話語(yǔ)權(quán)。很多人會(huì)說(shuō)很簡(jiǎn)單啊,不就是有Hadoop嗎?但是Hadoop是怎么來(lái)的?又是怎么就成了這個(gè)龐然大物?Google就任由Hadoop成長(zhǎng)嗎?
這個(gè)問(wèn)題我們先說(shuō)第一點(diǎn),Google是個(gè)很奇葩的不會(huì)做生意的公司。(我先聲明,下面都代表我個(gè)人觀點(diǎn)。大家可以不同意,聽(tīng)聽(tīng)就好。)
Google做生意最大的特點(diǎn)在于,把自己當(dāng)聰明人把其他人都當(dāng)傻子。對(duì)傻子么, 騙一個(gè)是一個(gè)。先舉個(gè)例子,Google推出一個(gè)東西叫做Chromebook,一臺(tái)電腦打開(kāi)來(lái),里面只有一個(gè)Chrome瀏覽器。然后Google的想法其實(shí)是,你上了瀏覽器的賊船以后你的所有數(shù)據(jù)都必須存在我這里了。我有了你的數(shù)據(jù)就可以這樣那樣的利用你的隱私給我更好的賺錢(qián)。你想吧,花錢(qián)買(mǎi)個(gè)硬件,里面只有瀏覽器,你愿意嗎?這是典型的廣告廠商的大數(shù)據(jù)思維。但是宣傳不是這樣的,宣傳是這樣多好多好。未來(lái)的趨勢(shì)就是什么都在“我Google”的Cloud上。
Chromebook曾經(jīng)很長(zhǎng)時(shí)間都賣(mài)得不好。等到Google開(kāi)放了本地硬盤(pán)存儲(chǔ)作為cache以后,這個(gè)局面才得到改善。我并不否認(rèn)有一部分的人一部分的場(chǎng)景需要Chromebook這樣的東西。但是如果把這個(gè)吹成了所有的人未來(lái)都是這樣的,那么到底是Google傻還是消費(fèi)者傻呢?
Google想給大家提供大數(shù)據(jù)的服務(wù)的念頭和實(shí)踐其實(shí)非常早。在2008年的時(shí)候,就主推一個(gè)叫做AppEngine的東西。如果有機(jī)會(huì)去聽(tīng)那個(gè)年代的Google的講話和宣傳,大概的說(shuō)法就是你看我們多牛逼,發(fā)表了三架馬車(chē)的論文。我們現(xiàn)在開(kāi)放了這些牛逼的技術(shù)的API,你只要把數(shù)據(jù)放到我們這里來(lái),我們就替你搞定了。
問(wèn)題呢?很多時(shí)候用戶并不想把數(shù)據(jù)存到你的那個(gè)BigTable里面去。一方面是自己的數(shù)據(jù)進(jìn)到別人肚子里了,另外一方面BigTable的API實(shí)在難用,不如SQL寫(xiě)的痛快。
用戶,哪怕是用云的用戶,很多時(shí)候也是希望用一些看得見(jiàn)摸的著的東西。這種把用戶變成純粹寫(xiě)APP而所有的基礎(chǔ)架構(gòu)都要用Google的想法,在今天可能還是有些機(jī)會(huì)的。
但是在2008年的時(shí)候,不由得各大彎曲創(chuàng)業(yè)公司擔(dān)心Google是不是會(huì)把所有的創(chuàng)業(yè)公司都變成它龐大的基礎(chǔ)架構(gòu)上面寫(xiě)APP的人。所以AppEngine出來(lái)一直都不死不活的。沒(méi)人敢用啊,免費(fèi)都不敢。Google大概4年以后不得不學(xué)亞馬遜開(kāi)始賣(mài)虛擬機(jī),叫做compute engine。但是那個(gè)時(shí)候已經(jīng)太晚了。當(dāng)然也不是沒(méi)傻子被騙,有個(gè)前幾天剛上市的SnapChat,就上了google的賊船?,F(xiàn)在每年要給Google交租很貴。
而且沒(méi)法換,數(shù)據(jù)都在人家那個(gè)奇葩的東西里,想倒出來(lái)還不是太容易。業(yè)務(wù)邏輯也和其他的云計(jì)算提供商不一樣,改用亞馬遜,程序都要重寫(xiě)。
換句話說(shuō)如果Google發(fā)表了論文,然后發(fā)起一個(gè)開(kāi)源項(xiàng)目,主推的話,今天的世界早就不一樣了。有影響力有技術(shù),開(kāi)源都是Google的,妥妥的。用了AppEngine這個(gè)方式去,是Google一個(gè)比較大的戰(zhàn)略錯(cuò)誤。
為什么在08年推AppEngine,目的就是和當(dāng)年推Chromebook異曲同工。想要?jiǎng)e人把數(shù)據(jù)都放到它那里。才能更好地做廣告。
第二個(gè)原因其實(shí)在于Google的優(yōu)越感和對(duì)其他公司的低估。Google的技術(shù)領(lǐng)先業(yè)界很多年。但是其他公司比如Facebook,Linkedin有點(diǎn)規(guī)模的顯然不會(huì)選擇通過(guò)重寫(xiě)自己的應(yīng)用,綁到AppEngine的API上去來(lái)用Google的系統(tǒng)。所以很大程度上來(lái)說(shuō),Hadoop是業(yè)界自然而然對(duì)于這些技術(shù)的一個(gè)回應(yīng)。Google不做肯定是有人做的。
在Hadoop出來(lái)的早年,那個(gè)難用:性能差,功能差。Google很開(kāi)心的和IBM買(mǎi)下了一個(gè)破舊的datacenter裝上Hadoop,以便可以讓學(xué)術(shù)界的人領(lǐng)會(huì)一下MapReduce的偉大,然后可以投奔Google。
這當(dāng)然沒(méi)有成功。相反的,正是因?yàn)榇蠹叶贾篮虶oogle的差距,這么多公司才會(huì)在Hadoop項(xiàng)目的早期就一路開(kāi)源互相合作來(lái)打造一個(gè)生態(tài)系統(tǒng)。我想Google的科技肯定是領(lǐng)先的,人才也是濟(jì)濟(jì)的。但是雙拳難敵四腿。一個(gè)從一開(kāi)始就試圖把大家綁到自己戰(zhàn)車(chē)上,又對(duì)周?chē)腥丝床黄鸬墓?,最后是?huì)被亂拳打死的。永遠(yuǎn)不要小看了整個(gè)世界。
在2008年的時(shí)候Hadoop和Google差距是巨大的,到2016年呢?這個(gè)差距就沒(méi)有那么大了,技術(shù)的先進(jìn)性只有這么多。一個(gè)人永遠(yuǎn)不要小看整個(gè)世界的力量。
第三個(gè)原因在于Google不是一個(gè)實(shí)誠(chéng)的公司。大家對(duì)Google都有信任危機(jī)。Google常常會(huì)通過(guò)發(fā)表不實(shí)的論文來(lái)誤導(dǎo)整個(gè)業(yè)界造成戰(zhàn)略欺騙,或者故意隱瞞重要的信息。比如說(shuō),我對(duì)Google披露的信息是不信任的。
早年的時(shí)候,Google有過(guò)關(guān)于數(shù)據(jù)中心怎么建設(shè)的研究,內(nèi)部研究表明不是越大越好,差不多是最有效的。然而對(duì)外的宣傳卻一直是越大越好,大的才能省能耗。關(guān)于這個(gè)誤導(dǎo)了業(yè)界一段時(shí)間。
后來(lái)比較大的一件事情是Google的MapReduce數(shù)據(jù)跑起來(lái)非常的牛逼。但是Hadoop死活就是做不到那么好,無(wú)論穩(wěn)定性還是資源的精確控制。這個(gè)原因今天大家知道了,Google很早就開(kāi)始使用容器了。cgroup這個(gè)關(guān)鍵的補(bǔ)丁就是Google提交給linux的,但是Google從來(lái)沒(méi)有宣傳過(guò)它是用容器的。這個(gè)秘密是后來(lái)隨著Google人才流失而慢慢被大家知道的。這才有了twitter做Mesos的故事。
從某種程度上來(lái)說(shuō),這種利用自己影響力來(lái)做戰(zhàn)略欺騙的做法可以一時(shí)得逞,若干年得逞。但是到最后當(dāng)然就是大家都不信任了。也可以這樣說(shuō),今天Google有很多大殺器,但是沒(méi)有人愿意把自己的未來(lái)綁定到大殺器上。其他的云服務(wù)商,比如亞馬遜比如微軟,客戶所選擇的是通用的Hadoop體系,所以到最后這成了標(biāo)準(zhǔn)。Google也就沒(méi)有了話語(yǔ)權(quán)。一時(shí)的得利,換來(lái)整個(gè)行業(yè)對(duì)這個(gè)公司的警惕和不信任。值得不值得呢?
Google顯然意識(shí)到了信任危機(jī),所以最近這兩年開(kāi)源的開(kāi)源,然后繼續(xù)開(kāi)源。但是,我想這種壞印象的形成,不容易改變了。
最后一個(gè)原因吧,Google始終都沒(méi)有明白一件事,就是解決一個(gè)或者幾個(gè)規(guī)模非常巨大的問(wèn)題的體系架構(gòu),不一定就適用于解決無(wú)數(shù)多個(gè)問(wèn)題,但是每個(gè)問(wèn)題規(guī)模都不大的場(chǎng)景。
亞馬遜賣(mài)云服務(wù),基本上來(lái)說(shuō)大客戶少,有的是龐大的小客戶,所以要支持無(wú)數(shù)多個(gè)小客戶。而Google解決互聯(lián)網(wǎng)搜索和跨大洲做事務(wù)處理的這些黑科技,這世界上絕大部分小客戶都用不上。
Hadoop這個(gè)東西好啊,20臺(tái)node就能工作了,worker很多,浪費(fèi)的機(jī)器很少。代價(jià)當(dāng)然是各種不穩(wěn)定各種沒(méi)辦法scale。Namenode出了名的爛。
但是在Google這種體系里面,系統(tǒng)的基本目標(biāo)是要支持幾千幾萬(wàn)臺(tái)機(jī)器的。那就必須有一些機(jī)器去做無(wú)用功。比如要watchdog啊,要記錄寫(xiě)log啊,這些機(jī)器的比例在大數(shù)據(jù)中心的前提條件下不高,但是哪怕只有20臺(tái)機(jī)器,這些服務(wù)每個(gè)起碼一臺(tái)機(jī)器也得占上。所以如果我要20臺(tái)的話,跑個(gè)Google版本的MapReduce,能不能跑起來(lái)先不說(shuō),跑起來(lái)了估計(jì)18臺(tái)機(jī)器都在干雜活,兩臺(tái)機(jī)器能用。
Google雖然號(hào)稱做大數(shù)據(jù),它也確實(shí)解決了大數(shù)據(jù)運(yùn)算的問(wèn)題,比如說(shuō)互聯(lián)網(wǎng)搜索,比如說(shuō)圍棋,但是這套體系是不是和為大量的中小型用戶去服務(wù)的體系很好的切合,我認(rèn)為不是的。所以Google并沒(méi)有具備競(jìng)爭(zhēng)優(yōu)勢(shì)。它提供的大數(shù)據(jù)服務(wù)也就是看看好看而已了。
- 消息稱去年全球IT支出超過(guò)5萬(wàn)億美元 數(shù)據(jù)中心系統(tǒng)支出大幅增加
- 2025年全球數(shù)據(jù)中心:數(shù)字基礎(chǔ)設(shè)施的演變
- 谷歌押注多模態(tài)AI,BigQuery湖倉(cāng)一體是核心支柱
- 數(shù)字化轉(zhuǎn)型支出將飆升:到2027年將達(dá)到4萬(wàn)億美元
- 量子與人工智能:數(shù)字化轉(zhuǎn)型的力量倍增器
- 華為OceanStor Dorado全閃存存儲(chǔ)榮獲CC認(rèn)證存儲(chǔ)設(shè)備最高認(rèn)證級(jí)別證書(shū)
- 2024年終盤(pán)點(diǎn) | 華為攜手伙伴共筑鯤鵬生態(tài),openEuler與openGauss雙星閃耀
- 特朗普宣布200億美元投資計(jì)劃,在美國(guó)多地建設(shè)數(shù)據(jù)中心
- 工信部:“點(diǎn)、鏈、網(wǎng)、面”體系化推進(jìn)算力網(wǎng)絡(luò)工作 持續(xù)提升算網(wǎng)綜合供給能力
- 2025年超融合基礎(chǔ)設(shè)施的4大趨勢(shì)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。