AI微模块数据中心

时间:2020-11-26    来源:《中国优秀数据中心》

一、简介

上海交通大学(以下简称“交大”)超算AI微模块整体项目旨在打造业界一流超算系统支撑平台。

交大HPC平台(π2.0集群)的双精度理论峰值性能为2.1 PFLOPS,是国内高校和上海地区最快的超算之一。π2.0集群是国内最早使用Intel Cascade Lake CPU 构建的超算,拥有656台计算节点,共计26000个CPU核。为了更好的支持IO密集型应用,π2.0集群还在国内首次采用了基于Intel 全闪存NVMe 固态硬盘搭建的Lustre存储系统,并行存储的聚合存储能力为10PB。

交大AI计算平台的计算能力为目前国内高校最强。深度学习张量计算能力可以达到16PFLOPS;通过搭载NVIDIA NVSwitch创新技术,GPU间带宽高达 2.4 TB/s;AI计算平台采用可扩展架构,使得模型的复杂性和规模不受传统架构局限性的限制,从而可以应对众多复杂的人工智能挑战。

交大π2.0计算平台和人工智能计算平台不仅是一个面向全校的计算服务平台,更是一个学科交叉以及科研创新平台,可以在此基础上深入开展典型高性能计算应用、人工智能、大数据等应用科研创新工作。

浪潮AI微模块数据中心采用新型外观及系统设计基于AI Power、AI Cooling、AI Manager、AI Rack、AI Env等系统,通过深度神经网络算法,实现数据中心的智能运营和整体管控。

浪潮AI微模块数据中心通过对海量数据进行深度分析,智能拓扑,使数据中心更智能、更高效、更均衡、更精准。数据中心和AI两者相辅相成,互为促进与发展。

                                               image.png

image.png

二、     产品价值

AI Power可提升数据中心可用性,借助智能化硬件,实现智能故障定位、故障隔离与预警管理,引入大数据技术,智能分析每日海量的运行数据,使数据中心Power系统得到合理调度,系统高效安全运行。

AI Cooling能效优化解决方案,针对制冷效率提升瓶颈,通过机器深度学习,对大量的历史数据进行业务分析,获取PUE的预测模型,进行业务训练,输出预测模型,利用寻优算法,获取调优参数组。

AI Rack 通过供电、散热、空间、承重、网络带宽及用户习惯等维度构建模型,数据全面,推理更精确;通过安全使用机架效率,通过AI引擎自学习,避免系统风险,容量风险管理智能分析,一键解锁/锁定机位空间。

AI Env基于AI使能复杂Env,采用形体+人脸+红外+移动+场景识别等安全感知方式,赋能数据中心堡垒级安全、海量实时处理CPU/GPU温度/算力等,构建服务器级温度场,计算场与纵横切片,预测趋势,使之更为早期预警、云模型和RBF神经网络结合,通过高维云变换确定隐含层神经元,表达因子的不确定性,优化神经网络结构。

AI Manager解决动环监控和DCIM的长期痛点,依托强大的算力和算法,通过对海量数据唤醒,实现数据价值,依托浪潮AIStation,可提供从数据准备到分析训练结果的完整深度学习业务流程,支持多种计算框架和模型。

 

image.png

整体布局

 

三、产品特色

1.业界最薄32寸触控大屏

包含32寸嵌入式一体机大屏,内置多媒体、双声道、立体声环绕功效,前面板为直角钢化玻璃,侧边框为铝型材;屏幕与主板等配件分离,独立电源,与微模块融为一体。

 

2.裸眼3D全息立体投影

裸眼3D投影技术采用了声、光、电、裸眼3D等高科技技术与灯光、音响等相结合,诠释出令人叹为观止的视觉盛宴,多变的光影效果,营造了完美的视觉效果,使人在欣赏的过程中产生视觉错换。视频中的影像,仿佛脱离了本体,悬浮在空中一般,带给观赏者震撼的视觉享受。

 

3.测温型热成像双光谱网络球型摄像机

数据中心当前的视频安防系统,主要会用于事后的问题分析和追踪。在庞大的视频数据中,在整个视频监控系统中,可以通过热成像技术和智能化分析技术来判定视频中出现人物及行为的合法性。

深度学习烟火识别,多级烟火检测,高效检测、减少误报,可见光联动变倍,查看周边情况,深度学习行为分析,支持区域入侵、越界、进入/离开区域侦测。

 

4.基于玻璃门的3D全息背投

全息成像,让玻璃成像成为可能,高性价比,长期耐用,背投成像,利用全息透明背投膜贴在玻璃上投射成像,采用背投的方式投影仪内置微模块固定天窗,让参观群体看到宣传视频,吸引眼球。投影系统应具备雾化与透明两种状态,在透明状态时方便客户从外侧直观地看到通道内情况,及时发现通道内隐患。投影膜超薄,仅有100微米。


5.机柜U位自动资产管理

U位自动资产管理系统主要是为数据中心资产管理提供数据自动录入和资产变更实时跟踪解决文案,即可以解决传统资产管理系统,对于人工输入和定期巡检而造成的巨大工作量、录入信息错误和无法及时更新资产库的问题。

功能包括:

(1)在架资产管理

建立资产的数据信息,管理资产状态变化,为管理及监控资产信息提供有效的基础数据。包含资产新增、上下架、处置、回库等内容。

(2)资产维保管理

对资产设备维保合同进行等级管理操作及对资产设备和维保合同进行关联,以高效盘点功能及预警提供功能,确保资产的安全运行。

(3)资产盘点管理

对整个数据中心库存、在架等所有状态资产设备进行集中盘点,异常状态资产及时通知用户,盘点完自动生成盘点报表。

(4)业务流程管理

对资产新增、采购、出入库、上下架、变更、处置、盘点等一系列操作流程化管理。

(5)资产可视化

3D可视化平台,可对接数据中心各类监控管理系统形成可视化管理解决方案,直观展示设备信息,快速检索、定位、提升日常运维工作效率。

 

6.业界领先的AI微模块管控平台

        系统整体架构设计如下:

image.png

image.png

通过对数据中心运维海量数据的分析,利用大数据建模,自动化地、智能化地挖掘出更多高价值的、运维人员认知范围外的故障模式与系统优化模式,可以进一步提升系统运维的效率;通过大数据机器学习,对大规模运维场景下的性能与故障规律分析、趋势预测及故障根因识别定位,可以提升机器自动化运。维的能力,可以大大减少数据中心的人力投入,以实现无人、少人值守状态。