Guo Yiqun: Reflections and Practices of Alibaba cloud Liquid Cooling Data Center

4月21日上午,由中国通信工业协会数据中心委员会指导,中国IDC圈与世纪互联等共同主办,以“同频共振”为主题的“2021年中国IDC行业Discovery大会”在北京盛大开幕。现场汇集了数百名来自数据中心上下游产业的专家、学者以及从业人士,共同探讨、分享数据中心的发展及未来。大会同期在线上多个渠道开通了现场直播,共有数十万观众观看了本次大会。


会上,阿里云智能基础设施资深专家郭懿群向与会者分享了《阿里云液冷数据中心的思考与实践》。


郭懿群_副本.jpg


郭懿群:尊敬的吴部长,尊敬的黄总,陈总大家好,我来自于阿里云技术设施,今天带来阿里云在液冷数据中心领域的思考以及实践。


今天的分享分为以下五个方面,第一关于节能减排,能耗方面的国家政策解读;第二关于未来算力增长趋势的介绍;第三政策技术发展阿里是如何应对这些挑战的;第四采用液冷的解决方案带来的实际技术或者社会效应的价值;第五是关于针对液冷数据中心方面的未来展望。


政策解读方面,2020年的时候,习主席提出中国在二氧化碳排放,力争在2030年达到峰值,在2060年达到碳中和的目标。在2021年2月份,国务院也颁发了相关的指导意见,加快信息服务业绿色转型,做好大型数据中心绿色建设和改造。


随着我国2035年规划发布和2030年碳达峰和2060年碳中和宏伟目标的设定,在这样一个指引下,实际上我们目前对于数据中心来讲提出了更高的挑战,在国家的政策有力的引导之下,在地方政府陆陆续续这几年推出了数据中心领域的政策,引导数据中心的有序发展。


上海于2019年1月份明确提出来新建的数据中心PUE需要小于1.3,深圳也在2019年4月份提出采用绿色先进数据中心的能效,北京2021年也提出了新建、改建数据中心PUE要小于1.3的目标。


我们可以看到ODCC中国数据中心大平台最新发布的全国在用的数据中心,大型、超大型数据中心实测热力图。全国在不同区域,不同自然条件下,对应整个PUE的分布不太均衡,差异比较巨大。我们一直在想,有没有可能我们寻找到一种技术,可以具有一定的普适性,不同的地域、气象条件下实现比较极致的PUE,这是我们想达成目标。


上述介绍了一下政策方面的趋势,后面再介绍一下关于技术方面的趋势。分为两个方面,众所周知,在摩尔定律不断放缓之际,我们对高算力的追求还是不断呈现的,达成高算力的目标,一个是整个方向数据中心的能力还有芯片的能力,这就牵扯到机柜密度的增加。在通用计算领域,近几年从200多瓦CPU功耗,未来可能飙升到400多瓦,在GPU通用计算领域,可能会从当前400多瓦飙升到800多瓦,芯片能力功耗在不断增加,服务器功耗和机柜功耗,未来可能会飙升到40千瓦或者更高的密度。


我们可以看到阿里云针对不同的数据中心散热解决方案,进行了非常深入的研究,针对不同的功率密度我们一有不同的解决方案去应对不同的场景。针对上述的一些挑战,技术和政策上的挑战,阿里云经过若干年的探索之后,也是找到了目前看起来比较能够解决当前问题的一个解决方案,就是单相浸没式液冷的解决方案。风冷传统的解决方案对比液冷的主要差异,实际上风冷会有冷塔和冷机、循环系统,末端空调对IT设备的散热,但是如果单相浸没式液冷,我们可以保留冷塔,但是在数据中心可以去除冷机,相应的整体系统架构会更简约,整体的运营效率也会更高,这是在IDC这一块的变化。交换机这块的变化,可能会去除掉风扇这样的设备,整体上设计集成度会更加高。


阿里云在浸没液冷数据中心会分计算子系统、网络子系统、存储子系统,还有IDC的散热子系统,监控子系统,这是整体模块的组成。


阿里在数据中心的发展可以分为四个大的阶段,我们从2015年开始就投入相关的研究在液冷数据中心的基础研究,2016年首次发布了液冷的浸没液冷系统,2017年也是完成了集装箱式浸没液冷系统的发布,2018年液冷发展进入了比较快速的发展阶段,从原来的情况进入到整体规模化实际部署落地的阶段。


两个主要的案例,2018年的时候,在张北,阿里自建数据中心完成了第一个液冷数据中心的建设,它的规模可以达到两千多个服务器,支持电商和大数据实际的生产服务,支撑后续“双十一”的业务发展。


第二个重要的里程碑是我们去年在浙江仁和自建数据中心,完成第一栋全液冷楼的建造,当年整个液冷数据中心也是获得了ODCC绿色网格共同认证的5A级的认证。


讲到液冷技术带来的一些价值,可以说是分技术价值和社会价值两部分。技术价值这一块,我们看到最大的价值打破了风冷对于机柜密度的上限,液冷可以非常轻松的做到100千瓦单机柜。另外系统故障率的下降是非常明显的,我们经过张北的数据中心长期的监控、对比,同期部署风冷数据中心,可以发现在IT部件的故障率上有50%以上的显著故障率下降。


另外在整个极致的PUE,大家可能都听说过,液冷PUE可以做到1.1或者1.1以下的极致实现。另外因为液冷对外界的自然条件的依赖相对比较少,所以它可以非常轻松的是现在全球任何气象区域的灵活部署,同时获得非常极致的PUE的部署。


这边在用的大型数据中心PUE要达到1.55左右,值还是比较高的,整体能耗也是相对比较高的,如果我们未来找到比较好的普适性的解决方案,对于整个社会在数据中心能耗上的节能减排实际上是非常有重要意义的。


再回到液冷数据中心我们看到的场景,在传统互联网行业,在高性能计算、人工智能、大数据这几个领域是比较适合我们未来浸没液冷解决方案的。


展望未来,我们也相信阿里云单相浸没液冷解决方案可以支撑我们经济体本身发展的一个比较好的解决方案之一,我们也希望更多的合作伙伴能够和我们一起并肩前行,共建整个液冷生态,践行绿色数据中心发展之路。


我们基于这样一个理念,在2020年1月6日我们联合ODCC进行了阿里云浸没液冷数据中心规范的开源。


未来大家可以看到,创新一直是阿里巴巴与生俱来的基因,我们在数据中心领域也在不断的探索一些新的技术,浸没液冷实际上在这个领域是一个代表,我们还有很多其他的领域。我们希望代表未来先进生产力的解决方案,通过去年开源的方式与全球共享,也在积极考虑未来我们整体和外部客户的合作,把这样的技术更好的赋能给外部客户,希望我们共建生态,很好的促进绿色数据中心的壮大发展,我的演讲到这里,谢谢各位。


返回
The World’s Most Influential Cyberspace Infrastructure Service Provider