成都海擎科技有限公司
電話:028-65065822
郵箱:cdhaiqing@163.com
聯系人:袁女士
地址:成都市高新區天府三街69號
高性能異構分布式計算平臺MDPP
1. 背景
為了順應以“大數據、人工智能”為代表的第四次工業革命潮流,智能化的裝備是必然的趨勢,裝備必須具有高效能的特點。所以具備高效能的裝備系統必然是異構硬件平臺,目前比較成熟的就是CPU+GPU,CPU+DSP+GPU等,為了最大充分利用異構硬件平臺的資源,不僅需要對這些異構集群資源進行整體管理(統一分配和調度),還需要對業務系統的計算任務提供統一任務調度和分配。
為了落實《十三五國家科技創新規劃》對異構計算和智能計算的推廣應用,加快裝備智能化;為了支持國產處理芯片和操作系統,實現自主可控。海擎科技特地開發了一款“海量數據高性能異構計算平臺(MDPP)”對異構硬件和各種業務系統的支持,具有一定的通用性和可裝備性特點。
2. 設備簡介
MDPP主要目的是把海量數據處理的任務通過MDPP的并行引擎切分成小任務,再把這些小任務自動調度到各種處理器組成的異構硬件中,實現多計算機、多處理器、多核集群并行協同處理;MDPP還提供二次開發接口和通用算法庫,特別是自定義算法開發組件,降低海量數據處理系統的開發難度,為應用開發人員搭建高性能與易用性之間的橋梁。
MDPP是將以千兆/萬兆網絡、PCIE高速總線互聯的CPU、GPU計算設備形成統一的計算資源池,實現多機(計算機)、多卡(CPU/GPU/DSP/……卡)、多核(CPU/GPU/DSP/PowerPC/FPGA/MIC/ARM的多個計算核)并行處理的統一資源調度、任務調度、任務分配、數據管理和負載均衡,實現海量數據的快速分析處理。
3. 引進的必要性
隨著芯片技術多樣化的發展,高性能的處理器種類越來越多,包括X86 CPU、GPU、DSP、PowerPC、FPGA、MIC、ARM等。這些處理器各有優缺點,適合不同的應用場景或業務算法。CPU邏輯單元多、計算單元少,適合處理IO、邏輯復雜的算法和主控; GPU核數很多、單核性能弱,適合處理并行粒度小、并行規模大、規整的數值運算;DSP專門對數字信號處理進行了優化,適合處理信號處理等數值計算;FPGA功耗低、穩定性和可靠性高,適合低功耗情況下的數值運算。GPU由于發展迅速、生態完善、性價比高,在數據處理和高性能計算中主要采用CPU+GPU+DSP的異構并行處理作為計算資源。
4. 設備的主要功能
MDPP邏輯框圖如圖1 所示,共包括硬件層、并行處理框架層、并行算法層、管理客戶端和應用程序五大部分。
圖1 臺MDPP邏輯層次結構圖
4.1. 概要
a) 硬件層
硬件層由萬兆網、千兆網連接的多臺GPU/DSP/CPU服務器集群組成。每臺服務器中的PCIE槽上,也可以混合插入GPU/DSP/CPU卡。
b) 資源管理層
資源管理層最核心的功能就是將整個異構硬件(CPU/DSP/GPU)作為整體的計算資源池進行統一的管理,實現監控、分配、調度。
c) 并行處理框架層
并行處理框架層對業務系統中的任務進行靈活的分發和調度,實現多個服務器、服務器內多個CPU、GPU、DSP處理器、處理器內多核之間三個層次的并行處理資源調度、任務調度、負載均衡、容錯處理等事務,自動實現任務之間的數據流動,形成任務流,處理復雜的業務邏輯。
d) 并行算法層
并行算法層提供常用算法、算法管理、自定義算法框架。針對異構硬件,實現具體硬件的優化算法代碼,提供統一的API接口供上層應用程序調用。可以提供的并行算法有:
1)數字信號處理算法支持FFT、濾波等數字信號處理并行算法。
2)矩陣運算支持矩陣的加、減、乘、轉置、求逆、求模等運算。
3)數據挖掘算法提供分類(SVM、LR、NBC)、聚類(K-means、Canopy、FCM)、關聯(FP-G)、推薦(UserCF、ItemCF)、降維(PCA)共10個常用數據挖掘算法的分布式并行算法。
e) 管理客戶端
管理客戶端通過API接口和可視化界面提供平臺資源管理、資源狀態(CPU/DSP/GPU)監控、任務管理、任務狀態監控等功能。
f) 應用程序
應用程序在并行處理框架動態庫基礎上開發,實現具體的業務算法和業務邏輯。應用程序分為業務主流程和并行算法兩部分,業務主流程在CPU上執行,并行處理框架自動將并行算法打包上傳到各計算節點,由并行處理框架在各計算資源(CPU、GPU、DSP)上調用。
4.2. 特點
a)可裝備:移動性、小型化、高效能滿足體積小、功耗低,高性能的移動平臺(硬件是混合異構)。MDPP采用軟件異構架構,比較適合智能化裝備對高性能異構處理的要求,還采用失效探測來保障計算的可靠性。
b)彈性:按需分配、即插即用、動態擴展支持計算力資源統一分配和調度,保證優先級高的業務。也可根據業務的實際需要來動態擴展。
c)協同:互聯互通,提供計算力、任務的集群協同可融入到現有大數據平臺中,可以與智能終端交互,達到更智能化和集群化。
d)靈活:任務、資源調度靈活任務調度也是統一進行,但是也可以根據實際情況傳入一些參數進行靈活的任務調度和計算資源調度策略,支持任務流的自由流向。
e)便捷:易編程、易移植、簡化部署,縮短研發周期。計算平臺支持自定義算法框架和支持MapReduce編程模型,大大縮短研發周期。
f)通用性:通用架構設計,可重構和擴展性。屏蔽了硬件底層的差異性,提供通用性計算力支持。
5. 咨詢
-
? 聯系人:劉先生
? 聯系電話:13708190139
? 聯系郵箱: liuli@cdhaiqing.com