運維工程師說要有光,于是便有了它

原標題:運維工程師說要有光,于是便有了它

云計算歷經多年發(fā)展,從最初的概念模型,到被大眾熟知,再到現在全行業(yè)擁抱上云,取得巨大進步。云的主要客戶已從最初的中小初創(chuàng)公司逐步滲透到各行各業(yè)的大型企業(yè)??梢哉f,企業(yè)上云已是企業(yè)發(fā)展的必由之路。部分數據敏感的企業(yè)結合自身數據的安全性、所有權和控制權等綜合因素考慮,會選擇搭建自己的私有云或者混合云環(huán)境。

但是在上述環(huán)境中,用戶的機器都需要自行管理,這就必然給云運維人員帶來很多意想不到的麻煩。

其實我們面臨的問題從來就沒有什么大的變化,唯一不同的只是機器規(guī)模越來越大,人心越來越復雜。

Q:如何在1臺機器上部署基礎設施?

A:

一切都源于那個亙古不變的道理:扔一個文件到機器上,然后跑一個命令。

Q:如何在10臺機器上部署基礎設施?

A:

寫個for循環(huán)搞定。

Q:如何在1000臺機器上部署基礎設施?

A:

這個也好辦!定制操作系統鏡像CUSTOM.iso裝機自動化安裝!

then……

Q:如何快速升級所有機器上的基礎設施?

Q:服務因異常掛掉,能自動重啟?;顔??

Q:公司做活動,預計流量突增,能擴容嗎?

Q:公司活動結束,為節(jié)約成本,能縮容嗎?

Q:新開發(fā)的基礎設施服務有問題,能立馬回滾嗎?

Q:可以做虛擬化資源限制基礎設施不占用過多的機器資源嗎?

Q:如何先部署小批量機器,確認無誤之后,再做全集群部署?簡而言之,灰度發(fā)布。

Q:新到位10000機器,如何高效部署最新的基礎設施?使集群中所有機器環(huán)境同質化?

管中窺豹,我們可以發(fā)現如果在私有云或者混合云場景中還是通過人肉運維的方式管理,那么管理效率將會十分低下,并且其中重復繁雜的操作,難以保證云環(huán)境的穩(wěn)定性和安全性。

急人之所急,需人之所需。百度云的工程師們便展開了一場頭腦風暴......

原始太初

私有云中存在大規(guī)模的機器集群,集群中一片空虛混沌,淵面黑暗,僅有字節(jié)流在其間穿梭。為有效地管控體量龐大的集群,合理分配資源,降低運維成本,保障云上服務穿越狂風暴雨,工程師們意識到:“必須要有一個優(yōu)秀系統來管控這混沌的集群世界!”

第一天

工程師們說:“這個系統要代表操作系統的意志!占用資源少!對外部系統零依賴!裝機自帶!要能自升級和自保活!”。當裸機啟動之后,這個系統便以root身份運行,能?;钭约?,還能托管維護其余基礎設施,后續(xù)迭代升級也能自動完成,整個流程高度自動化,不需要人工介入,極大地降低運維成本。

第二天

工程師們說:“這個系統必須運行穩(wěn)定,性能卓越,支持跨平臺(Linux、Windows、ARM)安裝,要做到同時管理上萬臺服務器,一點兒都不慌。”

第三天

工程師們說:“這個系統不能像瑞士軍刀,而應該重劍無鋒、大巧不工,僅支持基礎設施的維護管理,要能做到快速擴縮容!出現問題能立刻回滾,保障云環(huán)境的安全和穩(wěn)定。”

第四天

工程師們說:“這個系統還要做到‘麻雀雖小,五臟俱全’!要為基礎設施提供虛擬化容器隔離,應用部署,應用拓撲搭建和集群控制的功能。為應用的整個生命周期保駕護航,提供一條龍服務?!?/p>

總之就是四個字,“輕”、“穩(wěn)”、“?!薄ⅰ叭?,對于這一切,工程師們很滿意。

于是百度云的工程師們結合百度歷年來云計算的經驗與技術沉淀,潛心打磨,匠心打造,最終強勢推出新一代私有云云基礎設施管理引擎HALO。

Q:HALO是什么?

A:HALO全稱

Hybrid-cloud Application Layout and Operation system。

顧名思義,它是私有云或混合云環(huán)境中的基礎設施部署和集群控制系統,是混亂集群中的第一束光,讓無序的集群世界變得有序可控,是云最底層的基石,肩負著裸機環(huán)境配置,root域權限控制和智能托管基礎設施的重任。如果沒有HALO,集群機器將處于失控的狀態(tài)。它屏蔽了云服務底層繁雜的管控邏輯,提供簡化接口給上層系統NoahEE調用,使上層系統更好更快地釋放價值。

Q:這么優(yōu)秀的系統到底是如何實現的呢?

A:一圖勝千言,HALO的架構簡圖如下所示。

HALO系統采用主從架構,分為Master端和Agent端。

  • Master端主要做復雜的任務調度和管控邏輯,并且所有功能都是模塊化設計,用戶可以根據自己的需求定制安裝,包括虛擬化容器管理,應用包管理、部署、擴縮容、拓撲搭建和?;睿嚎刂频?。
  • Agent端則以簡單為原則,弱化繁瑣功能,僅作為任務的執(zhí)行器,其中的supervisor組件,結合父子雙進程原理,做到自升級和自?;?,把云運維人員的工作量降到最低。

整個系統的工作流程也十分簡潔優(yōu)雅!Agent通過定期心跳的方式,與Master進行通信,在心跳發(fā)包中發(fā)送本機狀態(tài)信息,在心跳回包中獲取Master期望的本機狀態(tài)plan,并把期望plan與本地實際plan進行對比,針對有差異的地方做相應修改,使二者保持一致,從而保證集群中所有機器最終狀態(tài)一致。

總之一句話,一朝HALO在手,從此不用發(fā)愁。所有運維需求,直接調用接口。

結 語

為了防止大規(guī)模集群被破壞,為了保護集群世界的安全,貫徹高效和簡單的運維理念,這就是我們新一代的基礎設施管理引擎HALO。

親愛的讀者如果你看到這,恭喜你在有意義的事上花費不止1分鐘。來都來了,不妨看個硬廣再走~

在全行業(yè)擁抱上云的大背景下,如果你的企業(yè)在各類云場景中存在痛點或困境,歡迎

關注百度云微信公眾號,了解和聯系試用我們的智能運維產品,其中除了有重磅企業(yè)級運維平臺NoahEE,更有我們在智能運維領域的實踐和探索!

最后的最后,如果本文能讓你快樂1秒,請評論、點贊、收藏、轉發(fā)!祝全家不脫發(fā)!

如果沒看過癮,記得關注百度云微信公眾號哈

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2019-03-01
運維工程師說要有光,于是便有了它
。當裸機啟動之后,這個系統便以root身份運行,能?;钭约海€能托管維護其余基礎設施,后續(xù)迭代升級也能自動完成,整個流程高度自動化,不需要人工介入,極大地降低運維成本。

長按掃碼 閱讀全文