- 方案概述
超算云是坤通科技推出的一站式超算平臺,。它基于中國超算環(huán)境與云計算技術,直通各大超算中心與數(shù)據(jù)中心,,提供專屬優(yōu)化網(wǎng)絡,、軟件應用部署與行業(yè)SaaS解決方案,,滿足多,、快,、好,、省的計算需求,,并為各行業(yè)提供高效便捷的超算服務,。
超算云平臺的構(gòu)建,將為科研和仿真分析發(fā)展奠定堅實的基礎,。坤通科技基于分布式集群技術和超算作業(yè)調(diào)度,、監(jiān)控、應用特征搭建一站式的超算平臺,,做為坤通科技的優(yōu)勢業(yè)務,,坤通科技以創(chuàng)新,、融合、高端的建設能力,,助力客戶打造更具市場力的,、更全面的超算平臺。
- 總體方案架構(gòu)
坤通ONE PBS是專為坤通超算平臺定制的作業(yè)調(diào)度系統(tǒng),,安裝在調(diào)度服務器上,,用戶可以通過瀏覽器進行作業(yè)的調(diào)度和管理,調(diào)度服務器會根據(jù)集群中的資源使用情況來合理的調(diào)度用戶的作業(yè),,從而達到高效,、快捷的超算服務。
作業(yè)調(diào)度監(jiān)控系統(tǒng)為分布式架構(gòu),,分為前臺和后臺系統(tǒng),,前臺系統(tǒng)用來查看作業(yè)情況和告警信息,后臺系統(tǒng)包含服務器端程序和采集端程序,。
前臺系統(tǒng)支持windows和linux操作系統(tǒng),,后臺只支持linux系統(tǒng),前臺通常部署在控制臺,,后臺服務器端部署在群集管理節(jié)點,,采集端部署在群集節(jié)點上。
- 平臺特點
- 簡單易用的SaaS化交互
簡單,、易用的SaaS化交互系統(tǒng),,用戶在同一界面完成數(shù)據(jù)管理,、作業(yè)管理,、前后處理等全部工作,消除平臺與用戶間的鴻溝,,降低平臺學習成本,,專注科研生產(chǎn),提升效率與產(chǎn)能,。 同時,,管理員可便捷地進行軟、硬資源管理,,快速發(fā)布應用,,基于數(shù)據(jù)運營總結(jié),引進先進的運營管理能力,。
-
- 基于HPC優(yōu)化的一站式交付平臺
從用戶的應用特征出發(fā),,對CAE,MCS,EDA,基因分析等行業(yè)提供一站式的交付??杀憬莸剡M行軟,、硬資源管理,,快速發(fā)布應用,基于數(shù)據(jù)運營總結(jié),,引進先進的運營管理能力,。坤通超算云桌面具有一個賬號直通多家超算中心功能,因此依托此平臺即可調(diào)用各大超算中心軟硬件資源,,從而使用更加靈活方便,。
-
- 本地資源和云資源無差別訪問
無論是本地資源還是云端資源,平臺統(tǒng)一抽象為無差別資源池,,統(tǒng)一調(diào)度算力資源,,并在客戶無感知的情況下對本地及云端資源進行統(tǒng)籌建立資源池,實現(xiàn)資源最大化,。
-
- 應用的分析與加速
智能分析應用特征,,基于機器學習的智能調(diào)度系統(tǒng),為用戶匹配最佳的算力,,并對應用進行加速,。
- 平臺主要功能描述
4.1 極簡的高性能計算交互使用方式
通過圖形化的交互方式,再同一界面便捷快速地完成前處理,、計算求解,、后處理、數(shù)據(jù)管理等全部工作內(nèi)容,,無需使用命令行,,無需掌握復雜的IT技能,全 心專注業(yè)務領域,;
4.2 便捷的SaaS化集成與發(fā)布
便捷的應用集成管理,、應用發(fā)布管理、應用權限管理以及用戶作業(yè)管理等功能,,幫助管理員輕松實現(xiàn)應用管理,, 快速為用戶構(gòu)建使用環(huán)境,使用戶便捷地使用計算環(huán)境,,同時減少運維支持工作量,。
4.3 前后處理一體化
集批處理應用能力、2D/3D遠程可視化技術能力以及存儲與數(shù)據(jù)管理能力,,形成了一站式的前后處理與計算求解一體化體驗,。
4.4 自動化調(diào)度登陸節(jié)點池
命令行終端用戶無需記錄登陸節(jié)點IP、用戶名和密碼等信息,,ParaPortal調(diào)度引擎根據(jù)調(diào)度策略進行自動化調(diào)度 ,、實現(xiàn)負載均衡,提升終端交互效率。
4.5 應用性能分析與優(yōu)化
基于應用運行特征方法論,,建立應用運行特征庫和應用性能分析能力,,快速發(fā)現(xiàn)應用性能瓶頸,優(yōu)化提升應用運行效率,,降低 成本,,同事提升產(chǎn)出效率。
4.6 全面計量計費
多維度數(shù)據(jù)采集計量,,靈活的定價策略,,提供功能全面的計量和計費基于全面的計量數(shù)據(jù),建立 資源與應用使用率統(tǒng)計分析,、科學運營決策能力,,建立資源使用審計能力,建立記賬收費能力,。
4.7 人工智能云平臺
采用容器化技術快速構(gòu)建人工智能計算環(huán)境,,提升平臺管理效率集成TensorFlow和caffe等主流框架, 提供完備的支持環(huán)境,,減少學習成本,,加速開發(fā)未來。
4.8 運維管理平臺
面向業(yè)務運維,,構(gòu)建全局業(yè)務拓撲,,主動發(fā)現(xiàn),構(gòu)建自動化運維能力,,提升業(yè)務持續(xù)運行連續(xù)性,,幫助客戶構(gòu)建大數(shù)據(jù)匯聚、存儲 ,、分析挖掘以及展現(xiàn)能力,,實現(xiàn)基于數(shù)據(jù)的精細化運營。
- 構(gòu)建從底層硬件到上層業(yè)務應用的全面數(shù)據(jù)指標關聯(lián)監(jiān)控
- 全局業(yè)務拓撲視圖,,業(yè)務故障根源及影響清晰直觀,,實時報警
- 故障指示庫積累,,自愈常見故障,,自愈常見故障,持續(xù)提升自動化運維能力
4.9 運營分析挖掘與大屏展示
-
-
- 業(yè)務熱點,、資源熱點直觀展現(xiàn),,基于數(shù)據(jù)科學運營決策
- 多維度、多來源數(shù)據(jù)靈活接入
- 億級數(shù)據(jù)秒級處理
- 按照行業(yè)需求,,靈活定制
- 專業(yè)的視覺設計團隊,,展現(xiàn)時尚、前沿
- 平臺與產(chǎn)品
5.1 基礎架構(gòu)
- 遠程圖形可視化: 遠程可視化技術,, 省去冗長數(shù)據(jù)下載過程
無需再花費數(shù)小時,,將數(shù)十GB的計算結(jié)果數(shù)據(jù)下載至本地,,才能進行圖形處理,通過遠程可視化技術,,將數(shù)據(jù)在超算上處理,,圖形在本地顯示, 大幅提升了工作效率,。
- 網(wǎng)絡優(yōu)化:多接入點選擇,、坤通快傳、坤通專線
1,、多接入點選擇是指優(yōu)化用戶到超算間的網(wǎng)絡鏈路,,減少跳轉(zhuǎn)節(jié)點,保障網(wǎng)絡性能,。根據(jù)用戶所在地點,,提供多條鏈路,供用戶選擇到超算的最佳傳輸路,。
2,、坤通快傳是坤通科技自主研發(fā)的海量數(shù)據(jù)傳輸解決方案,采用覆蓋全國各大運營商的接入服務器網(wǎng)絡,,能最大程度利用用戶帶寬,,結(jié)合私有傳輸協(xié)議實現(xiàn)斷點續(xù)傳和云端秒傳,最大程度減少無效數(shù)據(jù)的傳輸,, 坤通快傳功能支持Windows/MacOS/Linux/網(wǎng)頁版平臺,。
3、坤通專線是坤通科技面向教育與科研領域超算用戶打造的新一代網(wǎng)絡基礎設施,,10Gbps光纖專線直連超算,,為用戶免費提供低延遲、高吞吐的高質(zhì)量超算接入網(wǎng)絡,。
5.2 平臺和工具
坤通超算云客戶端軟件,,直通全國各大超算中心,在一個桌面內(nèi)即可完成數(shù)據(jù)傳輸,、圖形化 作業(yè)提交,、SSH命令行交互、作業(yè)狀態(tài)監(jiān)控遠程可視化前后處理,,以及查看費用詳單,。
隨時隨地查看和管理作業(yè),發(fā)現(xiàn)問題及時處理,,通過獲取Gfkops值得出作業(yè)性能指數(shù),,隨時查殺作業(yè),查閱機時費用詳單。
通過Paramon前臺實時查看自己所提交作業(yè)性能,,分析應用程序運行性能瓶頸,,平臺可以給出優(yōu)化建議輔助用戶提高整體系統(tǒng)的 利用率。
面向人工智能使用GPU計算場景,,清晰直觀實時展現(xiàn)各GPU卡利用率,、顯卡使用率以及溫度等性能指標,一鍵快速查看各GPU卡使用模式等配置信息,,助人工智能程序提速,。
定期發(fā)送機時使用分析報告,展示機時使用消費情況,、統(tǒng)計作業(yè)提交情況,、分析作業(yè)成功率以及常用作業(yè)類型和規(guī)模,匯總在報告區(qū)間內(nèi)出現(xiàn)的問題及解決的方案,。
- 應用領域
6.1 人工智能應
ensorFlow一大亮點是支持異構(gòu)設備分布式計算,,它能夠在各個平臺上自動運行模型,從手機,、單個CPU/GPU到成百上千GPU卡組成的分布式系統(tǒng),。目前,AI相關計算規(guī)模需求快速增長,,需要利用超算資源來滿足AI訓練計算規(guī)模,,并且,對于各種加速設備,,如GPU,、KNL,也非常適合運行機器學習應用程序,。
坤通科技充分利用中國國家網(wǎng)格優(yōu)勢,,支持多超算、多平臺進行高性能計算方案,,提供了超算平臺的CPU/GPU 環(huán)境支持TensorFlow等模塊的AI計算,,支持KNL計算平臺進行AI領域的計算支持,提供了完善的人工智能應用解決方案,。
在廣州超算,、長沙超算、KNL平臺展示了AI領域TensorFlow的測試和運行過程,,測試算例主要 針對四種典型的神經(jīng)網(wǎng)絡VGG-A/OverFeat/AlexNet
/GoogLeNet 開展,。
利用多超算實現(xiàn)人工圍棋軟件的計算支持,參加全世界圍棋人工智能大賽,。
完善的AI解決方案,超高的性價比。
6.2 超算云平臺業(yè)務化
某業(yè)務化系統(tǒng)要求每天全自動化定時定點完成,,具有很強的時效性,。任何因素造成業(yè)務作業(yè)的異常,都有可能導致無法按時完成任務,,因此,,在業(yè)務系統(tǒng)中,不僅需要準確定時地啟動業(yè)務作業(yè)流程以及保證它們的時序關系,,而且要求實時監(jiān)控和報告業(yè)務作業(yè)運行過程中發(fā)生的任何異常,,以便及時處理,確保業(yè)務作業(yè)的及時準確,。
①多超算及計算節(jié)點備案,,避免硬件故障影響業(yè)務化作業(yè);
②多云端主機備案,,避免云端故障影響數(shù)據(jù)傳輸,;
③多鏈路并發(fā)傳輸文件,自動選擇最優(yōu)鏈路,,提高傳輸效率,;
④實現(xiàn)全自動化運行業(yè)務化作業(yè),全程無人工干預,;
⑤專家團隊協(xié)助優(yōu)化程序,,解決程序性能問題;
⑥全天候人工監(jiān)控作業(yè),,第一時間發(fā)現(xiàn)并解決問題,。
①坤通超算云提供多家超算資源、云端資源極其備用資源,,現(xiàn)多家超算備案,、自動選擇最優(yōu)鏈路傳輸文件;
②分析并解決程序性能瓶頸,,降低程序故障,,提高作業(yè)計算率,單個作業(yè)計算速率最高可提高75%,;
③坤通超算云業(yè)務化解決方案,,面向需要在超算上實現(xiàn)復雜業(yè)務流程,且業(yè)務具有時效性,、持續(xù)性,,需要高穩(wěn)定性和正確性 的用戶。坤通科技能夠幫助用戶優(yōu)化搭建超算上運行的業(yè)務流程,,優(yōu)化業(yè)務模塊,,最終實現(xiàn)定制業(yè)務在超算上的穩(wěn)定運行,。
6.3 應用SaaS定制化
某汽車工程研究院系國家一類科研院所,擁有強大的研發(fā)和試驗檢測能力,,業(yè)務范圍主要涉及各類汽車產(chǎn)品的開發(fā),、設計與研究,各類汽車整車及總成,、零部件的試驗研究與質(zhì)量檢測等,。該用戶具有大規(guī)模、批量化,、持續(xù)性在超算使用STAR-CCM軟件的生產(chǎn)需求,,針對用戶使用習慣,坤通科技為其量身定制了該應用軟件的SaaS化超算端解決方案,。目前,,用戶可以直接使用"坤通超算云桌面"的SaaS化提交作業(yè),完成STAR-CCM的算例計算,,大幅度提高工作效率,。
1.一鍵提交:SaaS化應用提交,工作流高度簡化自動化,,真正實現(xiàn)一鍵提交
2.高速網(wǎng)格:數(shù)據(jù)高速傳輸專線,,協(xié)議優(yōu)化,充分利用寬帶資源
3.中國國家網(wǎng)格:多超算提交能力,,資源互備,,業(yè)務中斷
以客戶的真實應用場景為依據(jù),幫助客戶梳理工作流程,,結(jié)合我們操作快,、傳輸快、計算快,、分析快等優(yōu)勢,,刪繁就簡, 在保證滿足工作需求的前提下,,保留核心關鍵步驟,,并在此基礎上對交互進一步優(yōu)化,降低操作門檻,,將提交環(huán)節(jié)的體驗優(yōu)化到極致,, 真正做到一鍵提交,提高用戶生產(chǎn)力,。
應用SaaS定制化解決方案,,適合于習慣使用圖形界面,以及對超算系統(tǒng)不熟悉,、直接使用超算有一定困難的用戶,?;谥袊鴩揖W(wǎng)格與 坤通科技多年深耕細作基礎上,為用戶打造專屬的SaaS服務,,將軟件安裝,、調(diào)試,、提交等全套流程集成在一個界面,,達到方便快捷的超算使用體驗, 同事兼具中國國家網(wǎng)格在資源,、性能,、可靠性等方面的優(yōu)勢。
6.4 應用與優(yōu)化
hpMusic軟件主要用來對CFD(即計算流體力學)應用進行數(shù)值模擬,。CFD是目前國際上一個影響廣泛的研究流域,,主要應用于航天設計、 汽車設計,、生物醫(yī)學工業(yè),、化工處理工業(yè)、渦輪機設計,、半導體設計,、HVAC&R等諸多工程領域??梢妼FD的研究會直接影響社會上 眾多關于國計民生的工程項目,,由于CFD領域問題的復雜性也使得解決這些問題存在諸多挑戰(zhàn),應用性能差無法充分發(fā)揮現(xiàn)有硬件資源計算能力 就是其中的一個重要問題,。我們以hpMusic軟件為例子,,通過使用先進的性能測試工具對該軟件從硬件級、系統(tǒng)級和微架構(gòu)級別進行了性能給分析,, 并采用響應的優(yōu)化手段取得了較好的優(yōu)化效果,。
憑借專業(yè)的工具,依據(jù)科學的數(shù)據(jù)統(tǒng)計和分析,,提供客觀的hpMusic系統(tǒng)優(yōu)化基礎數(shù)據(jù),,才能保證hpMusic系統(tǒng)優(yōu)化的正確性和高效性, 測試工具選擇了坤通科技自主研發(fā)的Paramon應用應用運行特征采集軟件和Paratune應用運行特征分析軟件作為優(yōu)化的支持平臺,。
坤通科技在應用優(yōu)化領域有多年研究基礎和實踐經(jīng)驗,,具有業(yè)內(nèi)最頂尖的優(yōu)化團隊,優(yōu)化團隊立足于行業(yè)應用,,以硬件架構(gòu)發(fā)展為導向,,為用戶應用 軟件從應用級、函數(shù)級,、代碼級等多方面進行深層次的分析,,挖掘軟件程序存在的性能瓶頸,,采用應用級、函數(shù)級,、代碼級等多種優(yōu)化方法對程序熱點進行代碼現(xiàn)代化 改造,,以充分發(fā)揮硬件資源的處理能力。
憑借高效,、專業(yè)的Paramon和Paratune工具軟件,,以及坤通科技應用優(yōu)化團隊的豐富經(jīng)驗,使hpMusic軟件模塊性能大幅提升:
1.軟件浮點運算速率百分比由原來的1.33%提升為4.85%
2.CPU利用率由原來的66.79%提升為100%
3.相同算例在10個節(jié)點上進行測試,,性能加速比達到3.19X
6.5 遠程提交的圖形交互
Materials Studio (MS) 是最常用的材料計算模擬軟件之一,,可進行動力學模擬、量子力學計算,、結(jié)構(gòu)性優(yōu)化,、性能預測和X射線衍射分析 等模擬計算。傳統(tǒng)的使用方法一般在本地PC機或小集群進行計算,,收到計算規(guī)模,、機器性能等限制,而且無法看到作業(yè)運行狀態(tài)等信息,。坤通科技提供的超算端提交方式完美的解決了這些問題,,可以讓用戶在無需學習linux的前提下,即可使用豐富優(yōu)質(zhì)的超算資源,,并且可以隨時查看作業(yè)運行的詳細信息,。
通過坤通科技在超算端進行配置后,用戶首次打開本地Materials Studio客戶端時,,只需配置網(wǎng)關即可完成與超算的對接,,選擇程序響應參數(shù)、隊列,,一鍵提交到后臺,, 同時可登陸用戶板Paramon查看當前作業(yè)性能。算例運行結(jié)束后可通過本地界面進行分析或下載數(shù)據(jù)進行二次處理,。
① 使用超算端方式提交Materials Studio作業(yè),,無需擔心斷網(wǎng)斷電問題
② 數(shù)倍于本地的可選規(guī)模,極大提高用戶工作效率
③ 在線分析作業(yè)性能,,大幅提升資源利用率
Materials Studio遠程提交的圖形交互解決方案,,極大方便了習慣于Windows平臺的用戶。同時這一方案不僅僅局限于該軟件,, 凡是可利用http協(xié)議進行遠程方式提交的軟件,,均可使用此模式實現(xiàn)超算調(diào)用。典型的應用有材料模擬,、CFD等行業(yè)的成熟商業(yè)軟件,,例如Ansys,,LS-DYNA,CFX等,。
- 方案與案例
7.1 教育科研高性能計算方案
“買建管用運營” 全生命周期的軟件,、服務支持
坤通科技為教育科研用戶提供面向高性能計算、人工智能方向"買,、建,、管、用,、運營"全生命周期軟件產(chǎn)品和技術支持,,實現(xiàn)平臺資源的合理調(diào)度與管理,,減少建設周期,、 降低投入成本,為各學科提供高效,、便捷的計算服務,。
該方案具有良好的兼容性和健壯性,可便捷的獲取軟/硬件管理,,性能瓶頸分析,、運維支撐能力,消除平臺與用戶之間的鴻溝,,降低平臺學習成本,,專注科研生產(chǎn),提升效率與產(chǎn)能,, 引進先進的運營管理能力,。
7.2 仿真制造高性能計算方案
坤通科技面向仿真制造領域為企業(yè) 供高性能計算私有云平臺, 利用門戶系統(tǒng),、三維可視化技術,、運營大數(shù)據(jù)分析等系統(tǒng)實現(xiàn)對 高性能計算資源和存儲資源云華管理,最終用戶可通過Web瀏覽器便捷地完成批處理應用,、交互式應用以及數(shù)據(jù)管理等工作,,極大程度地簡化了 高性能計算資源管理和使用的復雜度。該方案已在汽車,、船舶等行業(yè)廣泛應用,。
7.3 能源勘探行業(yè)高性能計算方案
坤通科技為教育科研用戶提供面向高性能計算、人工智能方向"買,、建,、管、用,、運營"全生命周期軟件產(chǎn)品和技術支持,,實現(xiàn)平臺資源的合理調(diào)度與管理,,減少建設周期、 降低投入成本,,為各學科提供高效,、便捷的計算服務。
該方案具有良好的兼容性和健壯性,,可便捷的獲取軟/硬件管理,,性能瓶頸分析、運維支撐能力,,消除平臺與用戶之間的鴻溝,,降低平臺學習成本,專注科研生產(chǎn),,提升效率與產(chǎn)能,, 引進先進的運營管理能力。
7.4 氣象海洋高性能計算方案
坤通科技為氣象,、海洋用戶配備完備的坤通計算開發(fā)和運行環(huán)境,,通過高性能計算集群進行數(shù)值計算,求解描寫流體演變過程的流體力學和熱力學的控制方程組,,預測未來一定時段的流體運動狀態(tài)和大氣,、海洋現(xiàn)象, 包含針對不同模式軟件開發(fā)的Web作業(yè)提交界面,,提供常用數(shù)值模式的安裝,、調(diào)試和培訓服務,并配合用戶完成數(shù)值預報業(yè)務系統(tǒng)的安裝調(diào)試,,可以大大降低高性能計算機的使用門檻,。
7.5 軍工科研高性能計算方案
坤通科技面向國內(nèi)軍工科研用戶提供設計、計算一體化私有云平臺,,利用門戶系統(tǒng),、三維可視化技術、運營大數(shù)據(jù)分析等系統(tǒng)實現(xiàn)對高性能計算資源和存儲資源云化管理,, 最終用戶可通過Web瀏覽器便捷地完成批處理應用,、交互式應用以及數(shù)據(jù)管理等工作,極大程度地簡化了高性能計算資源管理和使用的復雜度,。該方案已在航空航天,、船舶等行業(yè)廣泛應用。
7.6 人工智能GPU解決方案
坤通科技提供人工智能領域GPU解決方案,,基于自主研發(fā)的高性能計算平臺,,具備豐富的集群管理功能,如用戶管理、集群資源管理,、作業(yè)調(diào)度系統(tǒng),、性能分析等功能,同時包含了多種深度學習框架,,如Caffe,、Tensorflow、MXNet,、PyTorch,、Keras等,用戶可以直接編寫算法,,調(diào)用人工智能平臺中的軟件,、函數(shù)庫,進行訓練學習,,同時支持容器技術,,免除深度學習框架的安裝、部署等操作,,為用戶提供便捷的使用環(huán)境,。