作者:jihong10102006
隨著DT時代的到來,傳統(tǒng)的統(tǒng)計圖表很難對復(fù)雜數(shù)據(jù)進(jìn)行直觀地展示。這幾年數(shù)據(jù)可視化作為一個新研究領(lǐng)域也變得越來越火。成功的可視化,如果做得漂亮,雖表面簡單卻富含深意,可以讓觀測者一眼就能洞察事實并產(chǎn)生新的理解。可視化(visualization)和可視效果(visual)兩個詞是等價的,表示所有結(jié)構(gòu)化的信息表現(xiàn)方式,包括圖形、圖表、示意圖、地圖、故事情節(jié)圖以及不是很正式的結(jié)構(gòu)化插圖。
基本的可視化展現(xiàn)方式,如條形圖、折線圖、餅圖、雷達(dá)圖可以很容易通過各種軟件(如Excel)容易生成,這些方法是常見可視化問題的良好且強(qiáng)大的解決方案。然而,使用這些方法的最佳方式局限于一些特定的數(shù)據(jù)類型,而且其標(biāo)準(zhǔn)型和普遍性意味著它們基本無法達(dá)到新穎性。如果對地理空間數(shù)據(jù)、社會網(wǎng)絡(luò)關(guān)系、多維數(shù)據(jù)進(jìn)行可視化,直觀地傳遞數(shù)據(jù)期望表達(dá)的信息是需要特定的圖表類型來展示。
讓我們一起來看幾個經(jīng)典的可視化,觀測它們是如何充分利用其源數(shù)據(jù)結(jié)構(gòu)的。
1. “美國大選”數(shù)據(jù)可視化
在美國大選期間,美國媒體做了不少與之相關(guān)的數(shù)據(jù)報道,讓我們來回顧一下,他們是如何將美國大選的數(shù)據(jù)可視化的吧!
下圖為各洲“選舉人票”的占比情況。作者設(shè)計了兩種表現(xiàn)方法,一是以“選舉人票”的分布做為底圖,一是直接以美國地圖作為底圖。除此圖上方雙方選舉人票總體數(shù)量對比外,鼠標(biāo)移至各洲上方還能顯示各洲“選舉人票”數(shù)量及對希拉里與特朗普的支持比例。
關(guān)于第三方選舉人影響的情況(在只有兩種選擇和有四個選舉人的情況下,選民的態(tài)度又是怎樣呢?)
特朗普的粉絲更多的是公立學(xué)校出身,而希拉里的則大都為精英階層。
希拉里的粉絲大都較為“書生氣”,使用與書籍相關(guān)的詞匯,其中有很多被認(rèn)證為教授或博士;而特朗普的粉絲更加喜歡流行文化,他們可能同時是流行歌手的粉絲,也更加關(guān)注球類運(yùn)動等。
2. 社會關(guān)系可視化
社會網(wǎng)絡(luò)分析(Social Netwrok Analysis,SNA)是在傳統(tǒng)的圖與網(wǎng)絡(luò)的理論之上對社會網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分析的方法。隨著人類進(jìn)入了移動互聯(lián)網(wǎng)時代,社會網(wǎng)絡(luò)數(shù)據(jù)成了重要的數(shù)據(jù)資源。SNA的本質(zhì)是利用各樣本間的關(guān)系來分析整體樣本的群落現(xiàn)象,并分析樣本點(diǎn)在群落形成中的作用以及群落間的關(guān)系。
近幾年手機(jī)端網(wǎng)游越來越重視游戲用戶社交性設(shè)計。這款游戲的玩法設(shè)計特別強(qiáng)調(diào)強(qiáng)社交性:用戶可以在游戲內(nèi)組建家族,家族成員有不同的職務(wù)等級,用戶也可以在游戲內(nèi)給好友贈送道具。我們從數(shù)據(jù)庫中收集抽取了部分用戶的家族數(shù)據(jù)(Nodes)和好友溝通數(shù)據(jù)(Links)。其中Nodes數(shù)據(jù)集包括Id(用戶ID)、Label(用戶名稱)、Group(所屬家族)、Level(等級)的信息;Links數(shù)據(jù)集包括Source(發(fā)起方)、Target(接收方)和Weight(斗氣數(shù)量)信息。
從網(wǎng)絡(luò)圖可以看出,不同家族的成員基本緊密聯(lián)系在一起,并通過一些關(guān)鍵成員與其他家族成員聯(lián)系。例如我們發(fā)現(xiàn)右下角的那個社群的成員先通過user1用戶、再通過user12用戶跟其他社團(tuán)成員聯(lián)系在一個大網(wǎng)絡(luò)圖中。
我們也可以用Gephi軟件快速繪制社會網(wǎng)絡(luò)圖,并對其進(jìn)行美化。
3. 地理信息可視化
在第一個例子中,我們已經(jīng)見識到了地理信息可視化的魅力。接下來我們簡單了解下如何利用Remap包快速繪制可交互的地圖數(shù)據(jù)可視化。目前托管在github,https://github.com/lchiffon/REmap。
百度遷徙圖是近年來非常流行的一種地理信息可視化,可以通過連線動態(tài)查看人口流向。此處給大家繪制一幅動態(tài)航班圖的地理信息可視化圖,大家點(diǎn)擊鏈接可查看動態(tài)效果。
也可以利用Remap快速實現(xiàn)未來天氣預(yù)報。
還可以把一些各地舉行的會議事件在地圖上進(jìn)行可視化展示,下圖是2015年中國R語言會議在各個城市舉行的可視化展示(動圖鏈接)。
城市熱力圖也是近年來非常流行的一種地理信息可視化方式,通過顏色的深淺表示不同地區(qū)的實際數(shù)值大?。▌訄D鏈接)。
通過以上的幾個小例子,相信大家已經(jīng)驚嘆于上面的可視化效果,給人眼前一亮、耳目一新的感覺。以上可視化并未運(yùn)用到很高深的技術(shù),如果你也掌握以下一些可視化知識,也能繪制出以上圖表的效果。接下來,就給大家介紹幾個常用的交互數(shù)據(jù)可視化手段:D3、Echarts和R(R是一款數(shù)據(jù)分析挖掘軟件,但是其擁有強(qiáng)大的可視化功能,并能集成D3、Echarts圖庫,實現(xiàn)交互繪圖)。
1.?D3
D3 是最流行的可視化庫之一,它被很多其他的表格插件所使用。它允許綁定任意數(shù)據(jù)到DOM,然后將數(shù)據(jù)驅(qū)動轉(zhuǎn)換應(yīng)用到Document中。你可以使用它用一個數(shù)組創(chuàng)建基本的HTML表格,或是利用它的流體過度和交互,用相似的數(shù)據(jù)創(chuàng)建驚人的SVG條形圖。
比如D3可以非常容易地繪制交互?;鶊D。?;鶊D(Sankey diagram),即桑基能量分流圖,也叫?;芰科胶鈭D。它是一種特定類型的流程圖,圖中延伸的分支的寬度對應(yīng)數(shù)據(jù)流量的大小,通常應(yīng)用于能源、材料成分、金融等數(shù)據(jù)的可視化分析。?;鶊D最明顯的特征就是,始末端的分支寬度總和相等,即所有主支寬度的總和應(yīng)與所有分出去的分支寬度的總和相等,保持能量的平衡(動圖鏈接)。
可以通過D3對Sunburst Partition可視化探索。通過解析布點(diǎn)獲得的用戶行為路徑數(shù)據(jù),我們可以用最簡單與直接的方式將每個用戶的事件路徑點(diǎn)擊流數(shù)據(jù)進(jìn)行統(tǒng)計,并用數(shù)據(jù)可視化方法將其直觀地呈現(xiàn)出來。 D3.js是當(dāng)前最流行的數(shù)據(jù)可視化庫之一,我們可以利用其中的Sunburst Partition來刻畫用戶群體的事件路徑點(diǎn)擊狀況。從該圖的圓心出發(fā),層層向外推進(jìn),代表了用戶從開始使用產(chǎn)品到離開的整個行為統(tǒng)計;Sunburst事件路徑圖可以快速定位用戶的主流使用路徑。通過提取特定人群或特定模塊之間的路徑數(shù)據(jù),并使用Sunburst事件路徑圖進(jìn)行分析,可以定位到更深層次的問題。靈活使用Sunburst路徑統(tǒng)計圖,是我們在路徑分析中的一大法寶(動圖鏈接)。
2.ECharts
ECharts,縮寫來自Enterprise Charts,商業(yè)級數(shù)據(jù)圖表,一個純Javascript的圖表庫,可以流暢的運(yùn)行在PC和移動設(shè)備上,兼容當(dāng)前絕大部分瀏覽器(IE6/7/8/9/10/11,chrome,firefox,Safari等),底層依賴輕量級的Canvas類庫ZRender,提供直觀,生動,可交互,可高度個性化定制的數(shù)據(jù)可視化圖表。創(chuàng)新的拖拽重計算、數(shù)據(jù)視圖、值域漫游等特性大大增強(qiáng)了用戶體驗,賦予了用戶對數(shù)據(jù)進(jìn)行挖掘、整合的能力。
ECharts 3還新增更多圖表類型,更好的滿足不同數(shù)據(jù)的處理需求 更多的搭配方案讓你的數(shù)據(jù)呈現(xiàn)方式更個性和完美。
比如地圖信息可視化:
動圖鏈接
利用ECharts繪制?;鶊D。
3.?R
R語言是一套開源的數(shù)據(jù)分析解決方案,幾乎可以獨(dú)立完成數(shù)據(jù)處理、數(shù)據(jù)可視化、數(shù)據(jù)建模及模型評估等工作,而且可以完美配合其他工具進(jìn)行數(shù)據(jù)交互。5) R語言擁有頂尖的制圖功能。不僅有 lattcie包、ggplot2包對復(fù)雜數(shù)據(jù)進(jìn)行可視化,更有rCharts包、recharts包、plotly包實現(xiàn)數(shù)據(jù)交互可視化,甚至可以利用功能強(qiáng)大的shiny包實現(xiàn)R與web整合部署,構(gòu)建網(wǎng)頁應(yīng)用,幫助不懂CSS,HTML的用戶能利用R快速搭建自己的數(shù)據(jù)分析APP應(yīng)用。
比如我們可以繪制動態(tài)交互的氣泡圖,通過下面的時間軸播放動態(tài)查看不同年份的氣泡情況。
也可以利用networkD3包調(diào)用D3.js庫,繪制社會網(wǎng)絡(luò)圖和桑基圖。
前文我們已經(jīng)了解了幾種常用的數(shù)據(jù)可視化技術(shù)。接下來,讓我們一起來學(xué)習(xí)下創(chuàng)建有效的可視化的步驟。我們通常會按照下述的幾個關(guān)鍵步驟進(jìn)行:
你有什么數(shù)據(jù)?數(shù)據(jù)有哪些分類?關(guān)于數(shù)據(jù)你想了解什么?應(yīng)該使用哪種可視化方式?能夠進(jìn)行可視化的工具有哪些?透過可視化你看見了什么,有什么意義?最后,復(fù)雜高維數(shù)據(jù)無法用單一的靜態(tài)圖表進(jìn)行直觀地展示,因此需要借助可視化手段讓數(shù)據(jù)動起來,更好地發(fā)現(xiàn)數(shù)據(jù)價值。比如說有不同組別的數(shù)據(jù),我們想查看各組別間的數(shù)據(jù)和總計時,此時就可以通過交互式探索的形式進(jìn)行展示。
還可以結(jié)合自己掌握的數(shù)據(jù)分析和可視化技術(shù),搭建數(shù)據(jù)可視化平臺,從而實現(xiàn)智能BI的可視化功能。比如說,我們不需要具備開發(fā)能力,利用R工具的shiny包可以快速搭建數(shù)據(jù)可視化原型。下面這個例子就是一個通過shiny包結(jié)合可視化技術(shù)實現(xiàn)的一個可視化平臺。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 被聯(lián)想海外起訴專利侵權(quán) 中興通訊回應(yīng)
- “數(shù)據(jù)要素×”大賽圓滿落幕,啟信寶在金融服務(wù)賽道斬獲佳績
- JetBrains 面向非商業(yè)用途免費(fèi)提供 WebStorm 和 Rider
- IDC:2024年邊緣計算支出將達(dá)到2280億美元
- 聯(lián)想集團(tuán)任命前戴爾高管擔(dān)任基礎(chǔ)設(shè)施方案集團(tuán)新總裁
- 報告稱上半年IT安全軟件市場規(guī)模112.5億元,同比增長4.1%
- 報告稱中國邊緣服務(wù)器市場量價齊漲 2028年將達(dá)108億美元
- Gartner數(shù)字化轉(zhuǎn)型調(diào)查:52%的企業(yè)未能實現(xiàn)預(yù)期目標(biāo)
- 驅(qū)動未來:數(shù)據(jù)中心能源的變革與創(chuàng)新
- 數(shù)據(jù)中心如何扭轉(zhuǎn)碳排放趨勢
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。