經過快速穩定的發展,川慶物探IT規模逐漸擴大,IT基礎架構建設趨于完備。云計算時代,川慶物探著眼于業務擴展的需要,引入云資源,加快了川慶物探信息化建設的步伐。但是,川慶物探原有的IT運維并不完善,IT運維服務模式的改革創新勢在必行。
目前川慶物探共有3個數據中心機房:2個在成都,1個在新疆庫爾勒。其中庫爾勒為移動式機房,成都1樓機房主要為利舊將下線的老設備,2樓機房為承載川慶物探重要業務應用的集群化服務器和存儲資源。
目前針對機房及設備間的管理都比較完善,服務器和存儲設備資源均已池化,但隨著支撐業務應用的逐漸增多,資源的合理利用是一個較大問題。
對石油勘探行業而言,IT資源除了存儲海量數據的設備外,最關鍵的就是計算資源。石油勘探行業采集的地質數據數量龐大,而且需要經由地震資料處理類軟件和地震資料解釋類軟件復雜的運算才能完成數據分析工作,這兩類軟件分別用于地震數據的處理和地震數據的解釋,其所需要的運算量相當龐大。
采集上來的原始數據經過地震資料處理類軟件或解釋類軟件的復雜運算,再通過矩陣的變化,迭代后會產生更龐大的數據量。最后,輸出原始數據處理結果時,又需要進行大量計算,最后變成與原始數據體量規模相似的數據。
2016年底,勤智運維與川慶物探研究中心合作,搭建一體化智能運維平臺承擔整個研究中心的運維支撐工作。川慶物探研究中心通過部署勤智 OneCenter一體化運維管理平臺,對川慶成都數據中心機房的核心網絡設備、計算和存儲集群資源進行了全面監控;通過網絡拓撲圖、設備性能視圖、設備告警視圖、自動化運維及定制化功能,直觀了解網絡設備、技術、存儲集群資源的使用情況,并能及時發現設備故障;通過自動化資源調度合理分配、計算、存儲資源,由被動運維變為主動運維。
類似川慶物探研究中心計算所這樣的科研機構,承載地學研究、勘探數據分析等任務的石油勘探行業的研究所或計算中心,都面臨著同樣的信息化運維難題。隨著數據規模不斷增長,計算壓力逐漸變大,計算所的規模也在擴大。川慶物探現有3個數據中心,2個在成都,1個在新疆。各數據中心只能負責各自的數據,數據中心之間的遠程監控還未實現。
為了保障勘探項目的順利進行,為各項目組提供服務,川慶物探研究中心計算所投資建設的高性能計算平臺有2000多個計算節點,近40000個CPU,每個CPU的核數超過了10000。硬件上的投入看似足夠,但當項目繁忙需要很多應用軟件同時在高性能計算平臺上運行時,系統的穩定性就會出現問題。川慶物探急需一套專業的一體化運維平臺,實現網絡、計算、存儲資源監控、遠程、自動化的調度管理,讓投資的硬件、軟件資源的利用率更高,為業務順利開展提供服務保障。
隨著川慶物探投資建設的高性能計算平臺上線運行,各核心網絡設備運行基本暢通,計算及存儲資源在實際項目中的合理高效利用成為關注的焦點。為此,川慶物探從實際業務出發提出了如下要求:
1) 實現對核心網絡設備的全面監控,并可在拓撲視圖中直觀顯示網絡架構、設備的運行狀態和網絡鏈路的性能和通斷情況。
2) 實現對計算及存儲集群資源監控,并通過統計視圖展現集群資源CPU、內存使用情況。
3) 實現磁盤陣列各文件系統的信息采集,并以圖表方式展現。
4) 實現以矩陣方式展現各計算集群節點運行應用分布情況,不同應用以不同顏色區分。
5) 實現計算集群資源通過自動化執行腳本方式自動調度分配。
經過前期需求調研,考慮到需監控管理的計算節點超過1000個,勤智運維決定采用分布式部署方式,數據處理器單獨部署一臺服務器,兩個數據采集器、集中門戶等組件單獨部署一臺服務器,數據庫采用Oracle 11g單獨部署一臺服務器。
1)通過網絡拓撲視圖展示,自動發現生成網絡拓撲,并且關聯設備的性能和告警信息,便于進行故障隔離和快速定位。
2)通過勤智OneCenter一體化智能運維平臺實現對網絡、計算、存儲集群資源全面監控,實時展現各資源的CPU、內存、磁盤、接口等性能指標信息。
將業務資源分組,以統計視圖方式集中展現各計算、存儲集群資源CPU、內存使用情況。
3)磁盤陣列使用情況統計:通過定時代理方式,在指定存儲節點上執行腳本命令采集獲取磁盤陣列文件系統目錄使用情況,并以圖表方式進行集中展現。
4)項目應用矩陣視圖展現:按照川慶物探的業務,每個計算集群節點上均會部署運行一個項目應用,例如:Omega、Paradigm等。計算集群節點為Linux系統,勤智OneCenter一體化智能運維平臺按照Linux對各節點進行監控,并將川慶物探的項目應用名稱同Linux操作系統的“系統說明”字段進行綁定,綁定策略可在后臺配置文件中進行維護。
以矩陣方式集中展現a段、b段、c段等計算集群節點上運行應用情況。
5)自動化資源調度:通過對計算集群資源的全面監控,及時掌控各集群節點的使用情況,結合資源調度功能實現自動化在線分配節點資源(釋放空閑節點的資源到業務緊張的節點中)。
勤智OneCenter一體化智能運維平臺,能夠幫助川慶物探用戶找到問題出現的根源,比如哪些資源已經超負荷,哪些資源處于閑置狀態,并通過在線資源調度合理分配超負荷資源和閑置資源,使其得到高效利用。川慶物探能夠實時掌控計算平臺上的應用運行情況,預知分配給應用的計算節點何時達到峰值。如果當前CPU利用率較低,就可以加載將要運行的軟件,提高平臺處理效率。
川慶物探反饋引入勤智OneCenter一體化智能運維平臺后,業務能夠更好地順利開展,所有可監控的業務都做到了提前報警,計算集群節點使用狀況實時可控,實現了資源的統一、自動化管理,投資的軟硬件資源利用率更高。
本項目一期建設亮點如下:
1) 實現對川慶物探核心網絡設備、計算和存儲集群資源全面監控,結合ITAM平臺實現自動調用腳本實現計算集群資源的在線調度。
2) 通過定制化需求對計算集群節點CPU、內存性能指標進行集中展現;以矩陣方式展現各計算集群節點運行業務應用情況。
3) 通過定時代理方式在指定存儲節點上執行腳本命令,獲取磁盤陣列文件系統目錄使用情況,并以圖表方式進行集中展現。
Copyright ?2005-2021 勤智數碼科技股份有限公司 川公網安備 51019002003506號 蜀ICP備11012966號-7