
整个架构一共可以看作是四层
第一层是一些基础设施,比如模块化的数据中心,方便快速组装。还有像液冷,我们通常机房当中用的都是风冷。在HPC场景下由于服务器的功耗很大,产热也多,通过液冷来散热可以降低功耗,降低了功耗就降低了费用,从而降低了运营成本。
第二层是HPC实现的基础:计算、存储、网络。后面我们的解决方案也是围绕这三点展开。比如计算有哪些节点,存储有哪些类型,网络需要有哪些网络平面、它们之间如何互相组网。
第三层在底层基础设备、系统搭好的基础上,涉及到集群管理、作业调度。在操作系统之上,需要有消息传递的通信,各种运算的库,还有编译器等等。
第四层是偏向于行业的各种业务所需要使用的应用,这就我们前面有提到的能源勘探、CAD仿真,基因测序、气象预测等等。
总结:那我们主要关注的是在L2层,计算网络存储怎么去设计。
HPC解决方案
首先看底层平台
计算这一块,像ARM处理器也就是鲲鹏920,单个处理器可以提供8通道的内存,所以它的优势相比于x86在于大内存,以及缓存一致性互联技术。
存储这块,它支持Burst Buffer这种向量NAS文件系统。
(解释一下Burst Buffer,例如HDD存储容量大,但是性能差。SSD性能高,但是全用SSD部署成本很高。Burst Buffer,在计算过程当中我们使用性能较高的硬盘(SSD)组成一个缓冲层,那么计算都在都在这种高性能缓冲层当中进行。当计算得到最终结果,再将数据落盘到性能较差、容量较大的硬盘当中(HDD)。)
网络这块,需要低时延就会用到像RoCE、IB(无限带宽技术)等这些技术
(RoCE—允许通过以太网使用远程直接内存访问(RDMA)的网络协议)
同时也支持公有云、私有云、混合云的部署方案
然后第二层中间件
在这一层,华为有自己的MPI和作业调度器。在Taishan服务器上也支持其他一些开源的通用的工具,还有编译器、数学库这些。
第三层就是一些业务应用,涉及到气象预测、工业制造、生命科学这些。
总结:华为HPC的解决能力主要体现在L1和L2当中,L3层是和商业合作伙伴相关的。
比如在计算这边,就可以售卖华为泰山X6000这些高密服务器或者是RH系列的服务器。
目前HPC解决方案大部分是基于x86架构的,那么华为的泰山服务器是支持和x86混合部署的,业务一样可以正常运行、互相兼容。
存储这边,华为有自己的Oceanstore系列企业级的存储。
网络这块,华为也有自己的交换机,例如CE系列交换机、S系列交换机。
如图所示
主要也是从三个方面去看
计算、存储、网络
计算当中主要包括以下节点:
计算节点(瘦节点:负责一般计算)
胖节点(具有很高的CPU和内存,例如华为的X6000高密服务器)
加速节点(例如对图像处理的场景下,可以在服务器上插GPU卡来进行应用加速。)
辅助节点(如工作站)
登录节点(如客户端)
管理节点(集群之间需要进行管理)
网络部分,主要分为三个网络平面
高速计算网络:计算平面,用于各个计算节点之间相互通信(就像一个小组内的人员要互相沟通,任务完成的进度之类的。)
存储网络:存储平面,HPC有专门的存储系统,那么集群当中的节点都需要与存储设备进行相互通信,因此需要搭建一个存储网络。
管理网络:管理平面,整个集群之间资源的调度,任务的安排部署都是由管理平面来做的。
管理平面实际上分为两个:
一个是带内的(负责集群间任务协调、分配、管理的平面)
另外一个是带外的(可以通过iBMC进行带外管理,比如上下电等操作)
这样将管理平面分为带内和带外的,管理网络系统和业务系统不共用同一个平面。当业务系统出现故障,管理人员还可以通过带外的管理网络—也就是iBMC登录去登录iBMC的控制台来管理服务器(不然就去需要跑去机房找相应的服务器进行操作了)。(冗余保护的作用)
存储系统
支持NAS、华为Oceanstore9000以及开源的Lustre(行分布式文件系统,通常用于大型计算机集群和超级电脑,目前大部分HPC采用的文件系统都是Lustre文件系统)
总结:以上就是计算、网络、存储,三层的应用架构。
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
版权声明:本文为CSDN博主「TKE_chenf」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/f791473571/article/details/105001552