PRODUCT
多云管理平台(D-Cloud)1、背景
随着云计算技术的发展普及,充分竞争格局下涌现了众多大型基础云厂商。企业客户的上云诉求面临多种选择,但出于经济性、适应性、安全性、便利性等多维因素的考虑,越来越多企业选择自建私有云的解决方案。云基础设施解决方案以降本增效、化繁为简为建设目标,由数字原生引擎与众多云产品组成,对数据中心物理资源进行整合,提供计算、存储、网络、安全和PaaS等丰富的云服务,对云基础设施进行全生命周期管理,成为企业数字化转型的强力引擎,助力企业持续业务创新。
实现数字化转型,正在成为企业提升核心竞争力的“刚需”,天源迪科多云管理平台(英文简称D-Cloud)的适时推出,正是为了服务于千行百业的数字化转型诉求,是助力企业快速建立稳定可管理私有云的全栈云平台。
2、产品概述
天源迪科多云管理平台,是下一代云计算IaaS(基础架构即服务)软件。它主要面向未来的智能数据中心,管理包括计算、存储和网络在内的数据中心资源。用户可以利用D-Cloud快速构建自己的智能云数据中心,也可以在稳定的D-Cloud之上搭建灵活的云应用场景,例如VDI(虚拟桌面基础架构)、PaaS(平台即服务)、SaaS(软件即服务)等。
第四代英特尔® 至强® 可扩展处理器采用全新架构,单核性能比上一代产品更高,每路配备多达 60 个内核。每个系统支持单路、双路、四路或八路配置。为了与内核数增加相匹配,该平台在内存和输入/输出 (I/O) 子系统方面也做了相应改进。DDR5 内存提供的带宽和速度与 DDR4 相比提高多达 1.5 倍,速率达到 4,800 MT/s。此外,该平台还具有每路 80 条 PCIe Gen5 通道的特点,与之前的平台相比,I/O 得到显著提升。本代处理器还可提供 CXL 1.1 连接,支持高网络带宽并使附加加速器能够高效运行。第四代英特尔® 至强® 可扩展处理器支持的技术可以根据工作负载要求的变化灵活扩展和调整。
平台主要能力包含存储、网络、虚拟机、裸金属、容器等资源的虚拟化和管理、调度,提供统一资源分配。
产品架构:
主要功能包括:
l 资源管理:实现对计算、存储、网络资源的虚拟化能力,同时对物理资源、容器资源、各类云资源的抽象,形成统一的控面。
l 裸金属管理:提供具有BMC功能的服务器资源统一管理,可实现同一云中心多套虚拟化集群隔离需求。可提供有高性能要求的数据库中间件的资源调度能力;
l PaaS管理:提供对PaaS化组件的生命周期管理、运维监控等能力,通过统一控制面实现对PaaS组件、应用的编排。
l 可定制化外延能力:D-Cloud提供了流程定义引擎,可定义复杂的业务和审批流程,适应企业快速适应市场的组织机构变迁的刚需。还提供了界面定制、与已有流程对接等的能力。外延能力包括对接第三方云平台、对接第三方SSO认证、对接第三方运维平台等能力。
关键技术
n 全异步架构
异步消息、异步方法、异步HTTP调用。
l D-Cloud使用消息总线进行各服务的通信连接,在调用服务时,源服务发消息给目的服务,并注册一个回调函数,然后立即返回;一旦目的服务完成任务,就会触发回调函数回复任务结果。异步消息可以并行处理。
l D-Cloud服务之间采用异步消息进行通信,对于服务内部,一系列相关组件或插件,也是通过异步方法来调用,调用方法与异步消息一致。
l D-Cloud采用的插件机制,给每个插件设置相应的代理程序。DCloud为每个请求设置了回调URL在HTTP的包头,任务结束后,代理程序会发送应答给调用者的URL。
l 基于异步消息、异步方法、异步HTTP调用这三种方式,DCloud构建了一个分层架构,保证了所有组件均能实现异步操作。
基于全异步架构机制,单管理节点的DCloud每秒可并发处理上万条API请求,还可同时管理上万台服务器和数十万台云主机。
l D-Cloud的计算节点代理、存储代理、网络服务、控制台代理服务、配置服务等,均不依赖其他请求,一次请求可包含所有信息,相关节点无须维护存储任何信息。
l D-Cloud使用一致性哈希环对管理节点、计算节点或者其他资源以UUID为唯一ID进行认证的哈希环处理,消息发送者无需知道待处理消息的服务实例,服务也无须维护、交换相关的资源信息,服务只需单纯的处理消息即可。
l D-Cloud管理节点间共享的信息非常少,两个管理节点即可满足高可用性和可扩展性需求。
l 无状态服务机制让系统更为健壮,重启服务器不会丢失任何状态信息,数据中心的弹性扩展和伸缩性维护更为简单。
l 一致性哈希算法保证了同一资源的所有消息均被同一个服务实例来处理。这种聚合消息到特定节点的方法,降低了同步与并行的复杂度。
l D-Cloud使用工作队列来避免竞争锁的问题,串行任务以工作队列的方式保存在内存中,工作队列可对任意资源的任意操作进行并行处理来提高系统并行度。
l D-Cloud基于队列的无锁架构,使得任务可以简单地控制并行度,从而提升系统性能。
l D-Cloud使用中任何新加入的插件对目前其他的插件没有任何影响, 均是独立自主提供服务。
l D-Cloud支持策略模式和观察者模式进行插件设计。策略插件会继承父类的接口然后执行具体实现;观察者插件,会注册listener进行监控内部的业务逻辑的事件变化,当应用内部发现事件时,插件会对此事件做出自响应,在插件自身的代码里执行相应的业务流。
l DCloud支持插件的横向扩展,云平台可以快速更迭,而整体系统架构依然健壮。
n BPMN2.0规范
l 系统遵循bpmn2.0规范及自定义实现,支持BPM流程定义、服务编排。
l D-Cloud工作流基于XML对每个工作流程进行清晰定义,在任何步骤出现错误均可按照原本执行路径进行回滚,清理掉执行过程的垃圾资源。
l 每个工作流还可以包含子工作流用于扩展业务逻辑。
3、产品特性
n 超融合资源整合
(1) 通过对虚拟机、容器、裸金属等资源的整合,实现云上各类资源的统一控制面,满足用户上云过程中新老技术体系过渡期对不同类型的资源需求。
(2) 通过整合现有云存量资源、物理资源、新技术体系的容器资源,实现存量资源的再利用,有效提高资源利用率及节约云资源投入成本。
(3) 通过虚拟机、容器、裸金属等资源的统一控制面,解决openstack调度和k8s调度,两套两班人马,减少虚拟化人力和资源的重叠和浪费。
n 集中有效的全局监管
充分运用云计算、大数据等先进理念和技术,提供资源监管、安全监管及运营管理等功能,从而实现跨多资源池的集中有效监管职能
n 全面运维保障
以“数据可靠、系统可靠、应用可靠”的安全运维特性为抓手,与各云平台共同打造完整的安全防护标准体系,全面保障各类云业务安全。
n 精细化资源和任务调度、差异化SLO
英特尔®CRI-RM组件和Intel Resource Director Technology (RDT)、Speed Select Technology(SST)技术,可以通过更精细的控制CPU提供更高的性能和更低的成本,例如对高优先级负载定义高等级SLO,可保证给该负载分配高主频资源并独占使用,永远不会被强制回收;另一方面,增加低优先级负载密度,可使系统承载更多的业务,这样既保证了处理业务的容量,又保证了高优先级业务的SLO,既满足了业务需求,同时提高了资源利用率,降低了成本。
CRI-RM(CRI Resource Manager)组件是k8s云原生生态中的可插拔的插件,CRI-RM 位于kubelet 和CRI之间,作为一个非透明代理拦截kubelet的CRI protocol请求。CRI-RM主要目的是为系统中运行的容器应用hardware-aware资源分配策略,底层通过SST和RDT实现。
Speed Select Technology(SST)是一组功能,可以根据不同业务类型对CPU的需求制定不同的CPU分配策略,例如电商应用分配低主频,AI应用分配高主频。
Resource Director Technology (RDT)能实时监控共享资源如末级缓存、内存带宽的使用状态并调整共享资源的分配,关键应用分配独占CPU资源池,普通应用分享剩余资源池等。
4、性能基准测试
在Intel第四代至强CPU开启CRI-RM模式测试环境下测试基准性能,单节点配置:Intel(R) Xeon(R) Platinum 8480+ 56核, 内存容量 256G。
测试目标:
1. 使用迪科云平台运行计费DCF流式计算框架进行流计算,测试使用英特尔®CRI-RM组件和Intel Resource Director Technology (RDT)、Speed Select Technology(SST)技术前后,单节点执行批价计费全流程的耗时对比
测试结果:
使用CRI-RM+SST+RDT技术,给关键业务配置如下高级资源:
1) 使用CRI-CM配置专用的CPU池供核心应用使用,SST自动激活较高主频处理业务;
2) 使用RDT配置高优先级的L3Cache占比;
3) 使用RDT配置高带宽的内存通道;
4) 利用hardware-aware配置数据和消费在同一个NUMA中。
采用这些配置前后单业务耗时分布对比:
使用前后的平均耗时时间分别为:958us和811us。
可以看出,单业务耗时由大部分分布的940~1080区间,降低到了740~1000区间,整体处理效率有较大提升,平均耗时由958us降低到了811us,提升幅度达到15%。
业务收益:
通常的资源分配方式,可能导致非核心应用全部完成很久后,核心应用还没完成三分之一,形成明显的长尾效应。采用英特尔®CRI-RM组件和Intel Resource Director Technology (RDT)、Speed Select Technology(SST)技术后,可以为核心流程应用提供足够资源使之保证规定时间完成,更有效的使用了宝贵的资源,可解决一直困扰用户的生产业务处理无法精准控制时间的问题,能大大提高出账效率,提升客户的使用体验。
2. http基准测试工具测试
测试使用Nginx模拟应用,使用stress 命令模拟系统的Noisy Neighbor负载,http基准测试工具wk2模拟用户访问。在开启和没开启RDT两种情形下的应用效率。测试并发量为开启16线程每线程开启2000连接持续60秒。
测试结果:
开启RDT后平均时延(越小越好)和平均每秒请求(越大越好)都有提升。
3. redis基准测试工具测试
测试使用memtier_benchmark性能测试工具测试在redis亲和和反亲和两种情形下的性能差异。亲和就是memtier_benchmark和redis部署在同一个NUMA下,反亲和就是memtier_benchmark和redis部署在不同NUMA下。
测试结果:
开启RDT后,每秒操作数(越大越好)和平均时延(越小越好)都有提升。
5、应用场景
迪科多云管理平台面向私有云为主的客户,提供云管理能力软件,并集成定制化需求,满足企业大规模的云资源管控要求,主要使用于下面场景:
存量虚拟云平台纳管
迪科多云管理平台可纳管各种存量虚拟云平台,如OpenStack虚拟化平台、VMWare虚拟化平台等,收回资源权限,重新管控资源配额和生命周期管理。
新建自主可控数据中心
迪科多云管理平台可从零快速部署一个新建的数据中心,从裸金属纳管到虚拟平台搭建,到高层级容器平台搭建,企业级PaaS和SaaS平台运维等提供一站式解决方案。
企业级应用发布和共享平台
迪科多云管理平台内置的应用和服务管理功能,可以定制发布企业应用及应用的拓扑管理,平台内置可视化编排工具,可以在虚拟机、容器中发布不同运行态的应用,虚拟机、运行环境未就绪时,能自动创建虚拟机,自动安装软件运行环境,然后安装运行最终应用。编排过的应用可以保存为模板,并可全局共享,为大规模部署类似架构的应用节省大量宝贵人力资源。
企业级全流程运维
迪科多云管理平台内置企业级运维平台,可以接管企业内部IT资源的运维,自动配置计划任务,实现监控排障,例行巡检等需求。