从ChatGPT火爆出圈到AI发展迎来关键时刻,新型算力基础设施已成为智能时代的核心竞争力。为加速推进以城市算力网建设作为切入点,努力推动数字城市算力基础设施的改造升级,打造数字城市“新市政”,助力通用人工智能时代全国算力“一张网”的建设,由中关村超互联新基建产业创新联盟与粤港澳大湾区大数据研究院联合主办、世纪互联与互联科技承办的“首届超互联新算力产业暨第三届中国IDC行业Discovery大会”于4月21日在北京举行。
人工智能算力基础设施的设计、评测与优化
}AI算力是算力基础设施的重要组成部分,是新基建和国家“东数西算”工程的关键任务抓手。预计到2025年,我国AI算力总量将超过1800EFlops,AI算力占总算力比重超过85%。这意味着,算力将迎来高速扩张时代。~
4月21日,由中关村超互联新基建产业创新联盟与粤港澳大湾区大数据研究院联合主办、世纪互联与互联科技承办的“首届超互联新算力产业暨第三届中国IDC行业DISCOVERY大会”在北京举办。中国工程院郑纬民院士发表了主旨演讲,以下为演讲实录:
尊敬的各位来宾、各位朋友,非常高兴来参加这个会议。今天会议的主题提到城市就是一台计算机,整个中国就是一台计算机。那么,一个城市怎么变成一台计算机?一个国家怎么变成一台计算机?我觉得有两个事情比较重要,一个是算力、一个是超互联。我们在无锡有一台超算计算机,叫太湖之光,是我们在清华大学的一个组管理,在内蒙也有一台计算机由我们管理。现在我们怎么用计算机的呢?比如,你用无锡这台计算机首先要把软件和数据想办法传输到无锡,无需要人去现场,就可以正常运行。现在面临的问题是什么?比如,软件加数据4T的数据量需要传输,使用最好的网络传,且在网络不出错的情况下传输过去,需要多少呢?可能要4~5天才能传到无锡。如果这个4T数据传输到内蒙这台计算机,基本上也需要4~5天。你可能觉得非常惊讶,怎么这么慢?假如我们不用网络,直接刻成盘,顺丰快递,第二天下午也肯定能到。不是我一个人这样用,全国做计算机应用、机器在外地的人,可能都这么用。会前和几位同志聊天,我前两天去贵阳,贵阳也是“东数西算”的一个节点,当地同志介绍贵阳有几个特点:首先,贵阳没有地震;其次,当地温度比较低;再次,贵阳电费也比较便宜。三个事情一说,机器放在这个地方比较好,没错。我跟他说,这三点,甘肃可以这么说,宁夏的中卫也这么说,内蒙也这么说,我只说一件事情,如果从北京传输1T数据到贵阳只需要两个小时,且费用比顺丰快递贵不了太多,能够做到这一条,机器的利用量马上增加到70%。怎么办呢?我今天听了超互联以后很高兴,四4T数据传输到无锡需要4~5天,快递需要1~2天,那么,超互联有没有可能做到1~3个小时到且价钱比顺丰快递贵不了太多?
昨天我在发改委开会听到他们说没问题,我说你专门给我一根线,且满足两个条件:4T数据传输控制在2~3个小时,且价钱和顺丰快递差不多,才能真正做到“东数西算”、城市就是一台计算机、全中国就是一台机器,这个事情还没这么简单,时间原因我在这里不再过多阐述。
接下来,我主要讲讲人工智能算力,AI算力是算力基础设施的重要组成部分,是新基建和国家“东数西算”工程的关键任务抓手。人工智能计算机是最近30年才有的,30年前没人说有人工智能计算机,人工智能计算在海量数据、实时响应、极端条件等场景下相较通用计算优势愈发明显。预计到2025年,我国人工智能算力总量将超过1800EFlops,AI算力占整个算力的比重超过85%。以后的计算机中AI计算机和处理人工智能的计算机将占很大比例。我们说算力迎来了高速扩张时代,现在算力不够,特别是随着ChatGPT的发展,算力需求大幅提升。我今天讲三个事情:
首先,AI计算机与HPC计算机有什么不同?HPC历史悠久,AI是最近的事,HPC计算机应用在天气预报、核聚变模拟、飞行器设计;人工智能做分类、回归、自然语言处理,应用场合不一样,运算精度不一样,HPC是64位浮点运算,甚至128位。人工智能计算机两个八位数加减乘除做的快,这两个机器不一样。现在要做人工智能计算机,应该长成什么样子?我觉得要考虑几件事情:第一是半精度平衡性,主要算8位、16位、32位,实际上这次我们注意到不但要考虑这个,特别是语言模型的训练以来,精度浮点运算也要考虑,因此我们有个说法,双精度与半精度运算性能之比为1:100较好,什么意思?64位、124位处理能力和8位、32位处理能力1:100比较好,既可以做普通的东西,也可以做语言训练。因此,我们提出半精度平衡性的思想;第二是网络平衡设计;第三是IO子系统平衡设计。
我们提出这三个平衡设计,值得高兴的是,现在有些厂家在考虑我们这三个平衡设计,现在国内有差不多30个城市都在建,或者已经建好了人工智能超算系统,包括鹏城云脑二期等等。
我们预测HPC+AI+大数据中心在未来不超过五年的时间内将会融合在一台计算机中,既可以做HPC,又做AI,也能处理大数据。
其次,为什么需要一个人工智能算力基准测试程序?过去HPC计算机,这台计算机处理高性能计算软件好不好,分数高意味着处理高性能好,那么,这个软件能用到AI机器上吗?显然不够,因为HPC机器主要是64位加减乘除要做的快,现在我们更重要的是8位、16位、32位做的快,这两个不太一样。原来的软件用到这里是有问题的,怎么办?需要重新做一个东西,比如DeepBench,针对单个芯片;Mobile AI Bench针对移动端硬件;MLPerf扩展性不好。所以AIPerf的设计要考虑四件事情:一是一个统一分数,二是可变的问题规模。人工智能计算集群往往有着不同的系统规模,差异性体现在结点数量,加速器数量,加速器类型,内存大小等指标。三是具有实际的人工智能意义。具有人工智能意义的计算,例如神经网络运算和自然语言处理,是人工智能基准测试程序相较于传统高性能计算机基准测试程序的重要区别,是能够检测集群人工智能算力的核心所在。四是评测程序包含必要的多机通信。
要达到这四个目标,据此购买一台计算机处理人工智能问题,究竟买华为还是买5G,抑或是买联想?,我建议用这个评测,分数高的一般处理能力就强,我不敢说百分之百,分数越高越好,对用户来说有个评判标准。因此,我们做了一个国际人工智能算力排行榜,每年11月15号在中国超级算力大会ChinaSC发布排行榜,我们希望用这个软件评测,分数越高排名越高,用Top500榜来评一评500台人工智能计算机,这个榜单评选已经三年了,疫情原因,我们现在评的大多数是国内计算机,国外参加的少,今年我们争取将国外的厂商也纳入这是AIPerf测评。
最后,百万亿参数超大预训练模型的训练加速方法。ChatGPT出来以后,大家对大模型训练都比较关心。美国SAT考试题目,模型参数达到千亿,正确率已经达到60%左右。更大参数模型的效果具有重要科学意义,一般说来,参数越多、训练的数据越多、计算机越多、效果就越好,越接近于人的脑子,大概是正相关关系。所以,探索更大参数量模型的效果具有重要科学意义。
预训练模型的计算结构,核心是transformer模型,模型的计算出主要集中在嵌入层、注意力层、前馈网络,计算核心均为矩阵。
我们看并行训练技术,现在训练都不是在一台单机上训练,不是串行的,因为串行进去,模型梯度新模型要重复多次,这样,一台计算机的速度就会不够快、存储不够大,因此现在基本上都是并行训练。并行训练有两种:一种是数据并行、一个是模型并行。
数据并行什么意思?举一个例子,这是两台计算机做并行训练,每台机器都装上模型,把数据的一半拿去分别训练,计算机做了整个模型,这个训练出来以后不是最终结果,最后结果既互相交叉又互相通信,中间结果要互相通信,这个通信量还不小,是要交换数据的,这是一种情况。
一种是模型并行,什么意思呢?把整个模型切一半,其中一半做机器0,其中一半做机器1,让它去训练,中间也有交换数据,这个交换数据相对来说没有数据并行交换次数多,一般情况下,数据并行交换数据挺多、通信量大,模型并行相对少一点,大概是这个情况。
于是,现在并行训练成为大模型训练的标配,ChatGPT,1万块卡并行,国内几家发布的都是几千块卡,肯定是并行的。
我为什么讲这件事情呢?我经常跟学生说,10年前,你是北大大气物理系天气预报专业毕业的,毕业以后,比如说分到国家气象局,你懂计算机语言,懂一般的数据结构,这种情况下,这个老师编一个天气预报软件出来,编的挺好,运行情况挺好,这是十年、十五年以前情况。现在情况不一样了,这个人只懂天气预报专业,只会计算机语言,不知道机器的结构,要么你这个软件转不起来,要么转起来了效果不太好,现在这个条件比原来要困难多了,这就叫软硬件协同。
我讲一个例子看看并行训练模型。这是青岛一台很大的计算机, 64核,再加大一点的核,这里一共有65个核,这叫组,中间有六个这个东西,每一个是65个核,乘6,有390个核,中间这些东西叫一个CPU,封装在一块。256个CPU叫超节点,一个超节点里面有256个CPU,每个CPU有390个核,这个超节点内部我们做到每个GPU跟CPU之间有直接的通路,通信很快。256个CPU组成一个超节点,每个超节点之间有直接通路,超节点内部通信很快。超节点内部256个CPU通信很快,两个超节点之间通信就要慢一点。因此,我们看模型做好了并行模型,究竟是数据并行还是模型并行?数据并行通信量会很大,我们希望这个计算机通信要快,于是我们说,如果超节点内部是数据并行,没问题,计算量很快。如果是两个节点之间,最好采用模型并行,你需要有这个基本知识:数据并行在一个超节点内部中,两个超节点之间最好模型并行,这样才能保证通信都比较好。比如256个内部通信很快,两个之间通信比较慢,那我就要考虑256个超节点内部最好是数据并行,两个超节点之间最好是模型并行。如果你不知道这个结构的话,就有可能并行的效果不好。因此,选取高效并行策略、如何进行高效数据存储、如何选取合适数据精度、如何实现动态负载均衡,这四件事情都跟计算机系统结构有关,也就是说,你一定要知道系统结构才能把模型做的比较好。否则做不起来,或者做起来了性能就比较差,现在是这么一个情况,实际上不只大模型,天气预报也有类似问题,不知道系统结构,软件是无法编好的。
高效数据存储也是如此,怎么保证海量数据存储速度比较快,也是这个问题。此外,,选取合适的数据精度,精度小算得快,精度越大算得越慢,但是,精度太差就无法算对。因此,解决了这四个问题,大模型算力就会比较好,否则,再好的运行结果也不会好到哪去。
我们做了一个模型,叫八卦炉,针对这四个问题,把这个大模型放到我们的机器上去,运行效果是挺好的。
最后我想说的一点是我们做了一个并行训练系统FastMOE,用于评估数据并行和模型并行怎么选,非常高兴腾讯、百度、阿里巴巴、华为都用了我们这个系统来解决问题,而且效果比较好。
综上,人工智能算力是当前人工智能领域发展的关键。ChatGPT用了1万块卡,后面的模型好像用了几万块卡,我们国内一个单位有1万块GPU卡的并不多,因为价钱贵,1万块A100的费用多少?大家都比较清楚,而且面临卡脖子的局面。因此,只有四块卡要做大模型基本是不行,我估计怎么也要1万块卡。无论怎么说,算力很重要,我们很希望有一个计算中心,比如世纪互联,想办法有1万块A100,这是发展的关键,现在很多人要做类似ChatGPT,这个算力怎么解决,当然国内做的也不错。我们团队最近几年对人工智能的三点贡献。
第一,实际上我在清华计算机系所在组是高性能计算研究所,我过去做高性能计算、存储、分布处理,基本不会人工智能,但是人工智能又这么重要,于是最近几年我们也在参与人工智能,人工智能计算机长成什么样子?提出了一种AI算力基础设施的架构和平衡设计原则,考虑不同精度算力怎么做平衡,要考虑互联应该怎么联法,要考虑IO怎么样,这是第一件事。
第二,研制了大规模人工智能算力基准评测程序AIPerf。提供计算机运行评测数据,成为用户采购的考量。第三,设计和实现了百万亿参数超大预训练模型的并行加速方法。训练大模型做好了,怎么装到计算机上去,我们有一套办法解决三个关键技术,把你装到这台机器上的模型效果是最好的。
谢谢大家,讲的不对的地方请大家批评指正!
2140:一个只需要计算的世界
}算力是一种低熵体,是粒子的有序排列,是一种规范量子场。从算力的发展阶段来看,2140年将是算力的极限之年。~
大家好,我是量子学派CEO。今天我讲的内容是纯粹原生态的内容,我也没讲过这个内容,请大家原谅一下。今天我演讲的主题是《2140:一个只需要计算的世界》。
是不是真的存在这个世界呢?这个世界的语言、文化、文字都可以通过计算呈现,也就是说,它不需要语言、不需要文化,也不需要艺术,这个世界很残酷。同时,这个世界也不需要律师、不需要诗人、不需要哲学家,这个世界只需要一种职业,这种职业就叫做运算师,或者是计算师。如果说这个世界存在的话,你只要给这个计算师一个算盘,给他足够的时间,就可以计算一切的一切。如果能够再进一步的话,如果他拥有了量子计算机,如果他可以把黑洞作为他的一个计算机,如果你把宇宙大爆炸之后的信息给他,他可以帮你演算出138亿年的宇宙,这就是可计算的世界。
这个世界可不可以真正实现呢?其实在莱布尼茨的世界被精准化的时候,冯·诺依曼将图灵思考的时候,这种技术就可以实现了。当然,也有人会说还有量子效应呢,还有混沌理论呢,甚至我们连三体运动都没办法计算,如果不能计算的话,我们怎么说可以计算整个世界。但是我们有没有想过,我们谈到的量子效应,它只是更深层次理论和计算里面表层的一个干扰,或者是一个不符合规则的一种表现,量子效应最下面的底层计算,我们可以找到一种微观的计算方法。
这个世界到底有没有可能存在?有些人不愿意谈这个问题,我们的股市指数可以计算吗?我们权力的傲慢可不可以计算?我们的愚蠢偏执可不可以计算?我觉得这一切现在来看都是可以计算的。这个话题二十年前我和我的朋友讨论过,当时我的意见是否定的,但现在看来可能是肯定的。
再举一个例子,今天我们的会议目标是什么呢?这是我自己揣测的,我觉得我们今天会议的目标,假设我们要一起共同创造一台人人可分布式的宇宙计算机,我们把这个目标放到我们的计算模型里面,放在大模型结构里面进行计算,最后输出一个结果,这个结果可能就是我就是这个人人可分布式计算机的一个分布式节点,这可能是我的朋友陈升先生所需要的一个结果。
这个结果还不够,这个结果还可以用下去,下次会议的时候把这个结果作为起始点,我们再调整前面的参数,把函数重新调整,我们生成下一次会议的目标值,我们下一次会议可能就没有这么复杂了,可以更简单,不需要人到场。但这个会议希望我们到场,一起开开心心的交往。我们不争论,很多人可能觉得不是这样的,我们不争论,我们慢慢坐下来就行了。
我们再回到最原始的状态,最开始的数学表达是从万物皆数开始,但其实它表达的只是一个结果,但是万物皆数之前还有万物皆算的过程,万物皆算是一条线,万物皆数是一个点。万物接算是过程,万物皆数是一个输出的结果。我们回过头来看,万物皆算已经包括了万物皆数,计算即一切,一切皆计算,我们人存在的本源可能就是一种计算。
怎么理解万物皆算呢?包括数理、物理、编程、计算逻辑本身就是计算的过程,我们举个特别极端的例子,文化艺术,我们原来以为文化艺术是机器不可超越的,我们认为这是来自上帝给予我们的创造力。但是,今天我们回过头来看,我们今天所有的产品,我们看到的ChatGPT,我们谈到的AGI、Midjourney所创造的图片,你看到太空歌剧院之后会明白什么是灵魂画手,它比人画的东西更有灵魂、更深邃、更有意境。ChatGPT就不用说了,我们和它聊天,如果再迭代下去,我觉得它唯一的缺点就是太像人类了,它跟你聊天的时候,因为它太完美你不喜欢它,我很喜欢它的胡说八道,现在胡说八道是好事,怕的是太严谨太完美了。AGI,我们原来以为内容创造是最不可能被替代的,没想到最可能被取代的反而是内容的创造,到了AGI还有什么不可以被计算?
万物皆算有个很简单的公式,要有一个演算者、被演算的对象,中间是数据和算力,这是一个基本的公式,大家都在用。
我们再从万物皆数往前延展,它为什么可以计算,现在只要是计算机行业的朋友大概是明白的,从代数计算到逻辑运算,归根结底到莱布尼茨世界,提出了二进制和数理逻辑的计算,不仅能够计算代数,还能够计算逻辑,它就是与、或、非的计算,这里面本质上有三种对立,十进制和二进制的对立,牛顿和莱布尼茨的对立,代数计算和逻辑计算的对立。牛顿和莱布尼茨之间发生了一场战争,这一场战争,一个代表了传统的世界,一个代表了四百年后的世界,莱布尼茨提出二进制之后三四百年才有了现在的计算机世界,当年牛顿和莱布尼茨PK当然是莱布尼茨输掉了,因为当时的生产力没有办法支撑他的理论。当然这个故事是我编的。当年牛顿和莱布尼茨主要战争是在微积分,但这个故事是有可能发生的。
莱布尼茨把数理逻辑说的非常清楚,其实在东方计算的源头,关于周易、易经,其实它的原理跟莱布尼茨二进制是非常相似的,周易的数学表达是什么?它是一根横线,两根短线,它用一根长线和两根短线来演绎整个世界,其实周易是非常完整的科学化的计算架构,但是我们没有按照周易本身的原理架构来演绎我们的科学,最后我们把科学演绎成了玄学,我们把计算演绎成了筹算,其实我们可以做的更好。所以真正理解周易的反而是西方的大哲莱布尼茨,他看到当时康熙的老师给他一个先天八卦炉的时候,原来东方的数学跟我的二进制是非常相关的,这个时候他肯定会得到一种安慰,这个故事不是编的,是真的,白晋作为康熙的老师,莱布尼茨给康熙做了一个加法器,这都是真实的故事。
我们继续往前走,我们来到今天,今天大家都在谈论深度学习神经网络,当计算加上深度学习神经网络的时候,其实它是一个简单的线性变化,加上一个非线性的激活,挤压性的激活函数,就这么简单。
下面这个图是深度学习神经网络的基础模型,无数神经元的迭代,才有了transformer的涌现效应。我们现在所有的一切都是在寻找一种算法,我们深度学习神经网络总结起来有很多数学方式和人脸算法,但本质上只寻找一种算法,这种算法就是找我们人本身的算法,也就是上帝算法,我们自己的算法是什么,我们大脑神经网络的算法是什么,为什么要寻找这个算法?再举一个例子,假设我今天在路上看到一个美女,看到美女之后我会扫描过去,把三围数据扫描之后传输到大脑中枢,匹配上亿年人类基因,在基因进行匹配之后我们会选择我是跟她做朋友还是跟她做敌人,我跟她将来会生猴子吗,它会有非常多的策略选择,这所有的一切只发生在0.01秒的电光火石之间之内,人类的大脑算法有多优先,但人类大脑算法是没有办法找到它的,这是我们人类本身边界的问题,因为这个算法不是我们自己创造的,可能有更高,或者来自另外一个世界创造的,这种算法是没有办法找到的,就像我们没有办法找到第一批动物之前是什么样子,这个东西没有办法完整的推演出来。所以我们只能去模拟、模拟、再模拟,现在整个深度学习神经网络本质上就是想找到这样一个函数和算法,这就是我们现在在做的事情。但是我们是有边界的,并不证明我们找到的算法就一定比它弱,很难讲。但是我们现在知道的深度学习神经网络本身就是模拟我们的大脑。
说到2140,我们刚才讲到的全是现实世界发生的,用科学演绎,现实世界有很多限制我们,没有办法和所有的科学逻辑进行匹配,但是我们可以建立一个可计算的平行世界,在这个世界里面一切都是可以计算的。2140是什么呢?它是比特币被挖完那一年,但这是理论上的,可能被超挖了,它是69299号区块,到这个区块开始的时候,比特币总数是209999999769,没有2140这个数据,2140是区块链非常重要的纪元,也是算力巅峰之年。为什么?因为那一年可能是算力的最高峰,人类算力最高峰的时候会发生什么呢?我们并不知道算力到底是什么,我们说算力可能是软件和硬件之间的连接,可能是最后激活函数的输出,但算力到底是什么?我们一会儿再讨论,算力的本质到底是什么。
如果人类算力达到颠覆之年,它会有星际穿越吗?这个东西很难讲,这是我们构建2140的世界,2140我们已经做成一个社区了,算是一个跟现实世界对比的平行世界,我们已经做了四五年这个项目。这里面我们只谈到和计算相关的事情,三个规则:一是算力与文明正比例关系;二是里面设计很简单的二叉树算法,对宇宙内所有文明进行监控;三是宇宙里面存在算力的过滤器,当你的算力超越某个峰值的时候可能会对你进行限制,文明为什么没有办法往更高层次走,可能跟你的算力相关。但我们做这件事情不仅仅是科学科幻,我们想介于科学和科幻之间,或者介于现实和超现实之间,我们希望现实世界能够影响2140世界,2140反过来影响现实世界,相互互动,我们做了很多事情。
包括这栋楼,我们用三维建模已经做出来了,这是138亿年里面的一栋楼,这个就不细讲了。这是科学方面的设定,这个做的很细腻,图灵测试,整个设计非常硬核。这里讲到了一些点,和今天的会议非常接近,这个故事其实我们早就已经有了,今天我看到说城市就是一台计算机,我们讲的也是一样的,人类就是一台计算机。这里我们谈到几个点:
第一点,2023年,今天是算力的中心化,而且没有办法改变它。当算力如此中心化的时候,当算力未来成为电力一样东西的时候,当算力被某些人完整控制的时候,我们该怎么办?我们在2050年左右,我们要创造另外一个系统,我们每个人都可以投资,每个人都可以获得其中算力的一部分,人人分布式的一个算力中心。这有点像献血,我们现在都去献血,哪一天我需要血的时候它可以给我,但所有的架构都是分布式的架构,自己通过自己的数据,写到智能合约里面。所以我们从算力的中心化到算力去中心化,无论是中心化还是去中心化,最终导致极大化,有更多更多的算力,算力极大化会带来什么。
我们再讲讲算力是什么,我们刚才从微观层面谈算力,微观层面的算力我们该怎么说呢,从宏观世界、从宇宙世界看算力是什么,算力可能是一种低熵体,是粒子的有序排列,是一种规范量子场。低熵体什么意思?我们在拥有算力的时候是一定要付出代价的,这种代价是什么呢?当我们的算力越来越集中,代价是什么,获得更多算力的时候,如果是低熵体的话,必然高熵、熵增,如果全宇宙都是低熵体,产生的负面效果可能就是宇宙大膨胀,还可能是暗物质的生成,这是更宏观的对算力的看法,这个东西挺辩证的。
我们在设计里面会把这个事情说清楚,这是算力的辩证法,不可能让算力无限扩张,一定是有利有弊,这里说说和现实世界相关的东西。
算力不可能三角,我们之所以走到今天的原因,算力不可能三角,它不能突破,但可以放大,所以才有了transformer,才有了GPT。算力的中心化不可能改变,但我们可以用区块链去中心化进行约束,算力生产力的增长、算力生产关系的简化,算力的扩张、WB3.0的收敛,香港、北京和深圳能不能构成另外一个三角,这是现实世界算力运作起来的方式。
我说一下结论。人的存在即是计算,如果长江黄河的流动是计算,如果粒子的衰变是计算,如果人类的生与死也是计算,人的生死可不可以看成0和1呢,我们把计算机0和1做一个开关和计算,有没有另外一种生命把我们的生和死当成他们的开关,我们的生和死只是他们的计算方式而已,如果是这样的话,那计算的意义又是什么呢?
这里说一下我个人的感受,如果这个世界是完全可以计算的世界,那这个世界到底怎么样,很多人觉得这个事情太残酷了,太无聊了,太可怕了,只需要计算,什么都不要,诗歌、艺术、文化都不要,这样的世界是好的吗?有的人就是喜欢这样的世界。
我们谈下元宇宙,这里有几个关键词。很多人不喜欢元宇宙,但元宇宙这个概念出来的时候我很喜欢,为什么?因为我觉得元宇宙的核心是我们重新去创造另外一个宇宙,重新创造另外一个世界,而这个世界我们可以看到它是怎么演绎、怎么进化的。我们现实世界呢?我们看这个世界演化的时候才可以反观我们现在的世界,我们才可能知道现实世界是怎么演绎的,反观我们的现实世界,这是我对元宇宙的基本看法。我们把人计算过去,我们人就是计算的一部分,把人融合进来,我们所有的行为只不过是计算的一部分。还有一个东西,很多时候我们没有办法理解,我们理解这个世界是有边界的,这个边界我们是没办法突破的,不光是我们这个世界,AI也是一样的,我们创造了AI,AI很强大,但是AI能够理解人类吗?也许AI永远没有办法理解人类。它只不过是从另外一个角度来理解这个世界而已,人和AI是永远没有办法理解的,就像人和我们的创始者一样,我们是永远没有办法理解的,怎么办呢?有一种可能性,就是算法,计算。AI只不过是在模仿人脑的算法而已,我们的人未来寻找一种新的算法而已,这种算法如果能够进行统一的话,去引领整个世界,就是大统一算法与美丽新世界。
分布式商业与大模型
}超互联新算力,共建共享共治,是促进服务器和硬件设备等的联合投资。谁投资谁受益,可以自由交易,为网络基础设施建设发展出新的金融机制,把网络基础设施未来收入通过金融工具的方法进行组合分拆流转,可以提前把收入进行变现,这也是国家目前在算力市场发展中正在提倡的金融工具。~
尊敬的陈总,各位来宾,非常感谢世纪互联今天的邀请。分布式商业与大模型是陈总命题的,我今天讲的内容除了来自我本职工作研究以外,也非常受和陈总的一系列讨论,以及超互联方面实践的启发。
首先,大模型需要大算力,前面几位专家都非常深入和专业的讨论了这个问题,我这页引用的是一个半导体研究机构,今年2月份的一篇分析报告,它讲到如果当前Google做的所有翻译任务通过ChatGPT来做的话,大概需要410万张A100GPU,这些相关服务器和网络相关的成本资本支出有1000亿美元,这还不包括运行起来对电费的消耗。从这里面可以看到大模型背后底层是大算力,从经济角度来看,它是非常巨大的成本问题。
现在我们就面临这么一些问题,从一个商业,或者政府做规划的角度来看,有几个矛盾要解决:
第一个矛盾,算力投资对固定资产投资成本要求非常高,单个企业的实力肯定是有限的,所以这个网络应该是一种有分布式的味道,需要大家共建、共享、共治的网络。
第二个矛盾,我们可以设想,如果中国政府投入诸多成本制造这个网络,理论上不是不可以,但不会发挥有效市场的作用。如果要发挥市场作用,这个网络有很多企业投资,但又有非常强的公共利益,为社会服务的,这个时候怎么平衡企业的利益和公众的利益,这是第二个矛盾。
第三个矛盾,投入是当前发生的,但是收益是未来很长一段时间慢慢兑现的,我们怎么平衡当前资本支出和未来收益的问题,这是金融要解决的核心问题。
第四个矛盾,算力需求是高波动性的,不仅在时点上,有的时候对算力需求大,有的时候没那么大,有的时候高峰的,有的时候低谷的。从企业之间来看,每个企业提供的算力和用户对算力需求之间也是不匹配的,我们怎么在算力需求的波动和供给没有弹性的情况下进行平衡,这是第四个矛盾。
第五个矛盾,金融发展的问题,我们要发展大的算力,不管是“东数西算”背景下还是AI发展的背景下,这是我们国家高质量发展实体经济有很深的需求,但是背后有巨大资本投入,怎么发挥资本力量,资本有很强的金融属性,凡是有资本的地方,不可避免的有投机因素在里面。新能源汽车,特斯拉股价里面没有投机的色彩吗,但怎么把投机的力量引导到对实体经济有利的地方,这是第五个矛盾。
我们从分布式商业的方向,刚才我在外面展馆上看到世纪互联做的分布式数字经济的方案,我感到很受启发。我们提出分布式商业解决方案,本质上是大机器间大规模协作网络,最底层可以穿透到GPU层面。这么一个分布式不仅是算力网络,里面还有各种各样的计算任务进行分包,很大的计算量,怎么进行分解,刚才郑教授也讲了这个问题。实际上算力的网络和国家正在建设的数据要素市场,这两个市场是不可分的,只不过算力的网络更标准化,更有大宗商品的属性,数据要素市场数据是非标准化的,数据价值也是千差万别的,这两个之间有紧密联系,发展的时候需要统筹。
核心的两个工具,第一个是国家正在发行的数字人民币,这是我们国家人民币的数字形态,在座很多嘉宾在手机上应该试用这个工具,后面会讲它怎么使用。第二个是网络结算单位,英文缩写是NSU,我们试图让它捕获分布式网络价值,激励内生增长。为什么会有这个东西?互联网,海底的光缆,互联网里面各种硬件设备,这是由公司提供的,不管是浏览器、电商、搜索引擎也好,都有它的一套商业模式。我们试图在AI网络里面让它变得不太一样。
首先第一点,这不完全是算力网络,我让它成为经济活动的网络,让机器本身成为一个能考核的经济单位。我们要考核一个机器做了什么事情,并且给它相应的奖励,想做这个事情需要基础,要准确度量机器的贡献,有这么几件事情:
一是让每个机器拥有唯一的身份标识,不能被伪造或修改。
二是机器的行为过程具备可追溯性,不可抵赖,机器做的任何事情都有一套记录在里面。
三是机器身份和行为的真实性,可以通过算法自我证明,我不需要通过人工和机构来参与验证,我本身就是我的证明。AI算力网络分布非常广阔,如果通过人来进行审计的话成本是非常高的。
所以解决方案我们在GPU层面可以加上DPU芯片,含区块链原生功能,最简单的密钥算法,密码学公钥就会成为机器唯一ID,不可篡改。我要做分包,要做计量,必须对机器有一套新的寻址机制,可以用机器公钥的哈希作为寻址要素,代替IP地址。有了这个基础以后,我们现在就可以看到机器网络变成经济网络,怎么讲呢?信息在计算机在互联网传输的时候,你并没有给每个猫进行奖励,但机器网络任何活动行为都将带有该机器身份的签名,通过公私钥和加密机制,实现机器身份和行为的自我证明。机器网络不再是以无特征的信息包作为主体,任何行为都是交易和参与经济活动的一部分,通过区块链实现交易记账,为后续交叉验证、行为追溯和贡献统计提供基础,我把它概括为交互即记账。
公钥对应经济学就是钱包的概念,你可以设想,每个机器都有钱包,人民银行在数字世界人民币,除了大的银行,还把中国移动、中国电信等运营商吸引进来,怎么通过数字人民币在机器之间付款。举一个例子,现在每个车上都装了ETC,通过收费站自动划费,将来的场景完全可以直接通过数字人民币做,在没有网络的情况下,NFC的方式碰一碰就可以付款过去。当然,我们在AI设备之间不存在碰一碰的问题,之所以说这点是强调它的安全性非常好,可以适应在物的层面进行支付这么一个环节。
当然,数字人民币如果用在机器网络更重要的是智能合约功能,每个机器做了什么工作,直接在钱包之间进行人民币付款。
第二个是AICU钱包,这是我接下来重点提的概念,TCTIP网络没有股权的概念,只有公司才有股权,但是网络产生网络价值,我通过什么方式进行度量和捕获,这是AICU做的事情。不管怎么样,这并不是乌托邦机制,奖励机制背后这个机器谁控制的,谁买过来的,最后的人可以很多样。人计算的基础设施,也可以是IDC,也可以是公司,甚至是个人参与这个市场。
计算任务的发包、计算任务的分包,计算任务与算力的匹配,目标是动态调剂算力供需,提高算力利用效率。尽可能减少闲置。我们希望所有的计算任务都获得相应的报酬,所有的计算任务都按照市场经济规则来做,数字钱包的方式机器之间支付。更重要的是智能合约,算一下你到底做了多少贡献,我应该给你多少钱。这个网络有公共产品的味道,网络里面需要有人维护,激励网络内生增长,怎么办?引用税收机制,分布式网络里面每发生一笔数字人民币流动,我自动提取一笔流到公共钱包里面,这笔钱用来做基础的系统建设。同时,也构成了NSU的价值基础。NSU本身是机器网络里面的token,它是一个有现金流支撑的token,总量是固定的,定期发放,每个周期里面它的发放量指数衰减,总量是收敛的,我们设想每个周期开始的时候,系统决定这个周期发放多少NSU,已有算力贡献了多少计算量,等比例发给他们。
经济网络活动,税金平均分配给NSU,如果你有一个NSU,不断有未来现金流的收入,因为它是分布式网络,有治理问题,这里就可以引进DAO机制,不管是云计算设施、数据中心,公司和个人通过投票参与公共事务。
NSU能产生现金流收入,并携带治理权,相当于分布式计算网络的“准股权”。我们通过一套设计方式让它具备“准股权”的地位。一个节点,不管是IDC还是设备,持有NSU越多的话,在算力匹配里面优先级越高。比如打车,你的评分级和司机评分级越高,你们就会被优先匹配。NSU作为网络价值的计量单位,将随着分布式计算网络的发展而增值,再加上前面通缩的机制,越早联网的算力和计算量,同样的算力和计算量,获得更多的NSU,激励大家越早加入越好。
比如讨论在中国范围内这个东西的可行性,其实不存在任何问题,它确实借鉴了目前区块链DePin领域做的事情,分布式公共基础设施,这里最典型的项目是Helium,发展通讯网络,之前很多人做过探索都没有成功,但是它通过这么一种方式,很快把节点在全世界范围内铺开了,这体现了经济的作用和资本在里面,完全符合中国对货币的监管,也符合人民银行现在发展数字人民币的方向。NSU并不是说一个空的token,有坚实的现金流基础,它有价值基础支撑。至于将来有没有一天NSU放在主流股票交易所去做,这取决于后面的发展和监管政策,当下是完全没必要的。在条件不成熟时,可以定期在区块链上开展针对NSU的公开透明的拍卖,以在网络节点之间调配NSU。NSU在分布式计算网络中的地位,类似未上市公司授予员工的“影子股权”。它就能实现当前资本投入和未来收入之间怎么平衡,通过资本把资金收进来。
为分布式计算网络的建设者、运营者和维护者提供公平、可持续的激励机制,通过政府来做成本太大了,收益不见得高。公司压力也很大,超互联新算力的方式来做,共建共享共治,促进服务器和硬件设备等的联合投资,谁投资谁受益,可以自由交易,为网络基础设施建设发展出新的金融机制,把网络基础设施未来收入通过金融工具的方法把它进行组合分拆流转,可以提前把收入进行变现,这也是国家目前在算力市场发展中正在提倡的金融工具,我们这个和它有点像。但不一样的是,REITS没有网络效应,两个REITS持有者之间没有任何关系。但是持有NSU有巨大的网络效应,这也反映了现在大家讨论web3.0的事情,美国讨论web3.0主要是各种应用,我们更多偏向基建方面。
建设大模型与元宇宙的多元算力网络
}“大模型+元宇宙”双重风口的叠加,加速了算力爆炸式增长。~
尊敬的郑院士、窦教授,各位来宾,大家上午好!
我是摩尔线程的张建中。刚才大家谈了很多基础算力跟算力网络,郑教授花了很多时间跟大家分享新的大模型训练跟推理对于算力的需求。其实我把它总结在去年跟今年这两年当中发生的事情,大模型跟元宇宙其实它们更加催生了全社会,或者是新的计算世界对算力的大量需求。
刚才分析报告讲,按照这样估算,大家都要购买A100的话,这100billion的投资是不是必须的,如果我们讲价钱是不是必须的,答案是不一定的。但算力是不是必须的,我相信答案是yes,而且很多都证明,我们今天在座的每一位可能都在经历一个巨大的变化,如何让我们的一个传统经济转向数字经济,传统经济转向数字经济的过程当中,无论你是用GPT的方法去打造和增强你的数字经济的发展,或者是你可能有更加超现实的想法去把元宇宙的建设去改造我们传统的数字经济的话,这两个风口其实都在加大我们对所有算力的焦虑。
人工智能正在高速发展,它的下一步是每年的迭代还是每几个月的迭代,如果我们要去看它的算力需求,其实跟我们产生数据的量是有关系的。我们都知道每天智能汽车采集的数据不是以T为单位,现在是以Z为单位。我们的手机,我们每天的聊天记录,我们每天的微信交流的记录,图片也好,视频也好,文字也好,它的交互方式,它的多元化数据来源,都会增加我们对新型算法和新型算力的强大需求。这些模型我相信立刻使用让我们每一个人都会碰到两个不可跨越的我把它叫鸿沟。
第一个是算力鸿沟,无论你算力有多快,马上就会用光。无论你的存储有多大,很快会用掉。有的时候就像我们自己的办公室家居环境一样,无论给你多大空间你都会很快把它占满。
怎么样跨越这些鸿沟呢?在很多的算法、速度、数据跟我们的知识积累当中,人类最好的经验就是吸取和学习别人已经获取的知识。所以说,大模型训练不一定每个人都要去做一遍,为什么不从别人那去学习呢?为什么我们不能够在全世界通用呢?如果我们大家都能够把资源更好的节约起来,把算力更好的互通起来,把城市变成一台计算机,把一个国家变成计算机,把全球全人类变成一个大的计算网络的话,这样会给我们节约大大的资源。
所以在技术演变当中,如果说怎么样去搭建和组成一个全人类都能够共享的计算网络,就成了我们一个新的研究方向。摩尔线程虽然成立不久,但是我们致力于在算力网络当中提供一个多元化的算力平台,我们都知道每个人的数据不能千篇一律,即便是我们在今天可能很流行transformer的时候大家去使用,可是它的下一步呢?我们想一想,在transformer之前那些算法呢,之后的算法呢,数据的多样性,多模态的转变,每个人,每个算法学家,每个科学家,他们源源不断的创意会给我们带来很多大量的复杂的或者是非常多元化的数据格式。
所以一个算力网络它必须要支撑多元化的数据格式,如果我们把它去看我们的大模型训练也好,推理也好,计算也好,你的输入跟输出结果都不会是文字到文字,可能以前从一对一或者一对多,未来一定是N to N,输入有完全的输入,输出也会是无穷的输出,你的计算单元一定能兼顾到方方面面的格式。我把简单的计算方式统称为元计算。因为元道特别强调一生二、二生三、三生万物,我把它选元计算也是因为我相信一切,讲元宇宙计算和元计算,其实它的输入和输出哲学上讲会比较玄,但从我们所有计算格式上去看,它能够包括的数据量就是千千万万我们人类创造的各种各样的数据。它的文本生成也好,图像生成也好,二维的视频,甚至于三维的模型生成,都可能加深数据算力需求量。
如果我们把这些计算要求在一个大的数据中心当中完整的处理好,我们想象一下,这样的处理器可能处理我们的科学计算,我们的视频处理,我们的3D计算,或者是我们的双精度、高精度的科学计算,或者是一些物理仿真计算,都有可能在其中把它集成起来。理想的状态是需要一个全功能的GPU,我把它叫全功能GPU是希望它的覆盖面可能会在今后的应用当中不停的增加,却能够满足不同用户的需要。我们看这个结构和架构,我们希望GPU(英文)能够处理各种不同的数据单元,刚才郑老师讲,我们希望它有FP32,有FP16,有IN8,除此之外,郑老师希望至少有一个1:100的64,我们要满足,不光是矩阵的计算。除此之外,我们不光需要2D计算,还需要3D的计算。当然,基本上这些算力以后一定会在数据中心,而这些数据中心一定会不知道在哪里。如果我们今天世纪互联能给我们大家形成一个超互联的网络,其实这个放在内蒙古的乌兰察布,或者放在贵州,对我们来讲这个没有问题的时候,解决了郑老师的快递顺丰成本的时候,一切就不是问题。
但是在计算环节当中,这个处理器作为基础设施,把它建在城市大脑当中,我们就不能把它建错,所以在建设基础设施的时候,算力的综合性、多功能性、多元化性,可能就成为我们人类搭建数字经济基础设施的时候一定要考虑的一点。
我们把这个叫全功能GPU的时候,希望大家利用GPT和元宇宙两个风口同时发展的过程当中,无论是国家的基础设施建设,还是我们每一个民营企业、国营企业在建设大模型、大数据的智算中心的时候能考虑到更加全面一点。这样的产品我们希望能够把这些元计算的能力通用的计算加速的能力源源不断的在我们数据中心当中搭建起来,当然要搭建这样一个通用性,你就要有一个完整的支持全功能GPU的基础架构,我把这个架构叫MUSA。MUSA就是元计算统一系统架构,利用这样的架构搭建一个芯片,其实我们在考虑搭建整个城市大脑的时候,它就像一个小的芯片是一样的。我刚才和元道讨论也是一样,我们搭建城市的时候,考虑的计算机体系结构是一样的。所以我们等于从一个macro architecture变成是一个micro architecture。无论你是计算、存储、网络通讯,这是一样的道理,在大的计算机里面是一样。小到一个超算也是一样,再小到那个节点里面也是一样,刚才郑老师讲的超节点也一样,到了节点里面的处理器还是一样,它永远都是在最大化的利用你的算力,去搭建适合你的算力的网络。
我们把全功能GPU运用在各个行业的时候你会发现,今天很多应用都可以满足我们实际应用当中图形处理、科学计算、仿真计算、数据分析、AI计算、推理等等。在很多应用过程当中,我们搭建强大的基础网络的时候,其实作为一家芯片公司你很难只是做芯片,芯片只是提供这个算力当中的一个部件。作为一家GPU公司我们能做的一定要在芯片的基础之上,为大家能够搭建一个完整的算力网络,这个算力网络可能包括你的云端的管理平台,从怎么去部署单颗芯片,到端的节点,节点里面可能放几百个GPU,超节点有几千个GPU,组成大的计算网络,甚至在跨城市之间远距离的大型计算网络就会成为GPU公司研发的重点方向。
如何让GPU跟CPU、跟DPU,或者是其他的一些存算多功能异构计算的各种不同处理器能够综合在一起使用的话,这个管理平台就会非常重要。所以我们专门搭建了一个MCCPlatform元算力管理调度平台目的是跨平台、跨月去管理和支持各种不同的算力,去建构一个算力网络。在这样的算力网络之上能够提供更多的工具,让开发者和用户更好的使用这样的计算网络,他能够自动化调度,按需分配算力,按照各种不同的任务去节约大量的成本。像这种大型的网络基础设施作为一个企业单独去购买、单独使用成本是很高的,就像我们全社会不可能人人都建一个飞机场,也没必要每个人建一个高铁站。但是这样的基础设施大型网络设备应该是作为一个公共的基础设施去把它设计好,让各个企业、个人和单位都能够充分的享受这些数字经济给我们带来的改变。
我相信,这样的一些基础设施可以帮助整个科技行业从研发到生产,到最后部署运营,都能够有一套完整的解决方案,让每一家企业都能顺利转型到数字经济当中去。我们都知道,由于GPT大力出奇迹以后,很多行业都希望用GPT的方式方法去改造他们行业的GPT。对于训练一个行业的GPT,你从数据收集开始,怎么有一整套工具在网络当中收集好、存储好,运用好这些预训练好的模型,别人已经预训练好的模型没必要再做一次,搭建你自己的网络。如果我们有些行业知识,可能你认为是你的核心竞争力的时候,这些行业知识你可能不愿意分享给public,这些data可以在自己行业当中专有的支持和搭建你自己的专业网络,这些专业网络可以帮助我们很多专业公司提升他们自己的整体核心竞争力。
部署很简单,统一的网络,全国全社会你可以很容易的把你的知识服务到各行各业。所以利用GPT和元宇宙的全功能大型的基础集成网络可以帮助很多行业能够用低成本就可以服务到各行各业的全社会。我们希望利用摩尔线程全功能GPU能够和像世纪互联基础网络设施合作伙伴搭建基础网络服务,能够让社会大家都能够共享这些科技带来的发展机会。
当然,还有很多这上面的基础研究也是我们公司在这方面做的一些成果,我们在利用GPU的图形渲染、人工智能的计算以及在云端的分布式管理和虚拟化技术,可以让这些产品去服务数字人服务人工智能的推理,去支撑各行各业的应用,都可以得益于基础网络的建设。我们也希望能够和我们的很多合作伙伴在国内建立一套更加国产化的服务本地的很多用户的需要,满足我们在基础设施当中这些算力提供的服务。因为在国内我们有很多本地的合作伙伴,他们生产的CPU操作系统等等,这些产品都可以跟我们的GPU组合在一起,能够提供和服务各行各业的用户,这样的生态系统也可以在国内培养出一批大量基于新型的人工智能和元宇宙计算的各方面的合作伙伴。在国内很多的开发者以前可能都在利用国外成熟的API开发自己的软件,比如说ChatGPT之后我相信有很多人去想试图利用ChatGPT API,打造能够服务各行各业用户的软件。但不幸的是这些软件可能在国内用不了,怎么办?要搭建自己的基础设施。所以作为基础设施的供应商和开发平台,咱们国内有很多很多研发机会,去建立一个更加适合本地的生态系统。
我们也希望能够利用这些机会跟国内更多的合作伙伴一道去打造基础服务网络,这些不光是芯片,不光是硬件,也不光是网络设施,同时还包括服务更多开发者的软件的基础设施,只有这样才能让我们的经济转型走的更顺,走的更远。
谢谢大家!
AI时代的云计算
}在确定性消失的时代,思想上的最大问题是以为按照确定性的方法可以解决不确定性的问题。~
各位领导,各位来宾,大家下午好!
我们现在所处的这种状态是不是因为过去认知水准上做出的决定造成?无论是先进的还是落后的,不管是受制的还是不受制的,我今天20分钟就想讲一个话题:我们相不相信依据过去的想法和思路能够让我们解脱今天的困境,或者说是先进性。如果这个思维方式不改的话,我们有极大概率会在一年之后、十年之后、五十年之后还在谈同样的话题,因为我们的思维方式还是在用老的思想方式去看新的现象。
但是,这里有一个很麻烦的情况,人类的大脑、我们的思维本身以及我们的物理空间、时空空间,理论上根本不知道下一秒钟会发生什么的,当我们对下一个动作预测的时候依据的是过去的经验,过去的经验适用于现在和未来的概率是多少?肯定不是百分之百,而且大概率事件,我们今天所处的这种情况就是因为我们用了旧的想法才让我们变成今天这样子。大家问自己一个问题,我们是否接受现在的状况?如果接受,说明我们过去的逻辑和决策是对的;如果不接受,我们想再去拿现在的逻辑套明天,或者回到本源,去仔细考虑一下我们的逻辑是否符合时代的需求。
所以刚刚接到这个任务说今天和大家交流,20分钟很难讲很多细节内容,我想咱们就套题目,三生万物,行则至。
请问,一生二、二生三、三生万物,一之前是什么?是零,如果我们不从零上重新想问题的话,大概率事件我们还是从过去形成的逻辑走到今天,今天走到明天。谈到这个有些人还不是很接受,我问大家三个问题:
第一,大家都坐过高铁。第二,大家是不是都坐过汽车。第三,第一次坐高铁的时候,没有安全带,会不会安全?高铁的安全性和汽车比,一个系安全带,一个不系安全带,谁高谁低,它是范式的改变,用过去的想法套今天是无法理解的,但人的大脑又没法思考到你的认知圈之外的东西,你不可以想象你不知道的东西。请问大家,我们说即将进入一个智能时代,即将进入一个元宇宙,即将进入Web3.0,我们真的知道我们将进入一个什么时代了吗?因为人的大脑是一定要用旧有范式,否则没法接受。人是不主动活在未知的未来,当你迈出左脚往前走的时候,我们很难接受我根本不知道这个脚放下去是一个坑,你要想象它不是一个坑,哪怕是一个坑,然后往前走。
像我们最近看的所有文章、所有报告、所有预估,都一定是拿过去的一个筐装今天的瓜,筐和瓜有没有关系我们不管了,但是必须暗示自己有一个因果性,哪怕它只是相关性。所有学概率学统计的都知道,第一门课讲的就是相关性不是因果性。那么,现在看的所有东西是不是只是相关性,因果性是什么?所以今天的题目特别好,我今天想交流的是,真的是相信三生万物,行则至。那个三就必然问二是什么,二就必然问一是什么,一就必然问零是什么,这样咱们才能够把我们从现在这种不管是好的局面还是不好的局面,抽出来,上一个台阶,否则的话咱们还在这里面打转,一会儿我会讲过去发生的一些事情。
我们要相信,我们既不是前无古人,也不是后无来者,我们只是技术发展中一个非常小的蚂蚁,我们赶上好时代了,这个很危险,因为我们不知道它是什么,能不能接受我们不知道,把过去的包袱放掉,干什么?随时按照当前信号给你的分析,而且你要知道信号信道比怎么样,机器可以产生很多数据信息,请问大家,我们每天看朋友圈里这些信息,你觉得它是谁写的,你觉得它是把你往一个坑里带还是往一个山坡上带,我们想过吗?因为我们大脑还是用海德堡印刷机时代,我们坚信只要是写出来的,只要是放在我面前的,原先说耳听为虚、眼见为实,如果现在跟大家讲眼见也是虚的,只有行则至,我们愿不愿意这么想问题、这么去做事,还是说不,这个大咖说了怎么样我就这么做了,有可能对,有可能不对,但是在剧变的时代这样非常危险。如果OpenAI那些人信了大咖说的话,今天就不会有ChatGPT。如果不是他们两三年前开始换思维范式,觉得当时未被证明的ChatGPT方式比双向bard好一点,我相信我们今天不会谈这个话题的,包括世纪互联,如果当初陈总创业时相信了专家跟他讲的话,我相信不会有这家公司的,也不会有微软。
我们为什么相信我们听到的所谓专家的意见,不是说专家的不是,而是现在技术发展把每个点给连在一起了,连在一起的好处是网络效应,但有一个后果,什么后果?人的脑子已经想不明白了。这是网络,比如村里有10户人家,传统的网络效应,就算双向,不除2,90个,如果10个节点实时连接,实时产生0和1的互动,我同意或者我不同意,是10的27次方指数关系,请问,有哪个脑袋能够把这个问题想明白?所以我们要靠机器去算,帮我们计算这些各种可能性以及之后产生的答案,给我们做参考。AI时代,一方面云计算会有足够的算力来算这些事情,但是很重要的,算的这些东西也能够反哺云计算,让云计算更高效,它的虚机、容器分布,误差信息的及时检测,各种自动化,现在云计算如果还在靠脚本去管的话,不是不可以管,这是两难问题。它意味着两点:第一,你确实用脚本管,还管成了;第二,你刚好有资本去管云计算,还没有到用算法管云计算。当你不用算法管云计算还管的很好的时候意味着什么?意味着你的连接才是90的连接,而不是10的27次方的连接,这种信号会误导你,觉得我是行的,所以本质上出问题了。
这是我非常喜欢的一个英国作家,他写的这部戏,200年前维多利亚时代和当下新的思维方式做同一件事,万一你认为的基础都错了再往上搭楼就没法搭了。微软里面我观察到的现象,诚恳地讲,我根本不知道现在发生什么事了,因为每个人每天都在刷新昨天的认知,我在这个行业中看到,如果有资格说我昨天错了,恰恰不意味着你不行。如果每个人说,老板抱歉,我昨天想错了、昨天说错了。这个人一定要嘉奖,一定要鼓励,为什么?因为他昨天真错了。如果有人跟你说老板,去年定的方案我想的特别对。要小心,这种有可能是幸存者偏差,小概率现象极大表现。
在这种情况下,大卫斯诺登(音)是IBM的科学家,他在本世纪初就跟情报系统做应对复杂性挑战的事情,这里有个框架,他去年写了一个论文,作为纲领,他跟大家讲这年头方向对了就行了,不要那么较真你要去哪。东北的朋友知道,每年春节要去海南过冬,那个就是终点。其实东北朋友们的春节没必要去海南过冬,你只需要去一个温暖的地方就可以了。你的温暖的定义和别人是不一样的,如果你走到福建觉得够温暖了你就走到福建,如果预先说别人说了海南过冬,造成交通拥堵,你说是海南错了还是你的方向本来是找移居温暖的地方,结果被框在里面了,目的变成方向了。如果我今天知道了否定昨天,跟老板说明天要把今天否定掉,这对老板的挑战就来了,你说这人该不该用?
所以敢于承认不知道,但还是行则至的人才和想法、公司才有未来。
我既不知道它是什么,我也不确定它不是什么,但大致知道是什么和可能不是什么。古人讲做个明智的人,这个智我加了个知人者智,自知者明。光知道人不够,还要知道机器,在这种情况下,我把微软Microsoft 365里面每一个词掰开了揉碎了讲一下,再次强调,不是答案,只是观察,可能就把它破掉了,但是不破不立,这种物种的生存能力可能就好过我想知道,因为知道在哲学领域称之为全是主观的,知识本来就是主观的,你认为怎么样就怎么样,我们都是盲人,今天可能我摸的是大象的屁股,AI时代云计算像一堵墙,小马过河下水了,摸象的鼻子说像根绳子,咱俩谁对谁错?没有谁对谁错,行则至,贝叶斯大脑,它的最大特点是你随时用新知识新信息纠正原来的PA,然后变成PAB。
40分钟产品发布,我问了很多人,大部分人看了后面的演示,很炫,但演示基本上做的那一刻就过时了,今天和你讲的技术明天就过时了,这是剧变的时代,你一定要知道当时那个想法怎么出来的,圣人畏因,凡人畏果。你追因有可能把土地弄好了长出参天大树出来,等别人桔子树长出来了你说我也种一个桔子树,万一你的土地在淮北,你就不应该种桔子树,种苹果就完了,要有一棵能够在这片土地上长出来可以吃的水果,把苹果做的最好是可以和桔子交流互换的,因为淮南长不出这么好的苹果树。
推荐大家看这篇文章,1945年写的,提到了memex信息设备,世界上所有名字选的都是随机的,代表想法,但是更多是愿意让你听的,是名字后面的逻辑,我把它抽象成selection by association,生成往下下一个词怎么出来?一个布什,一个恩格尔巴特,搭建了特别好的数字化转型范式,你学那个范式比谁都强,未来也是跟他学的,咱们一直想解决的就是大脑的问题。
未来十年内,如果每个人手边都有一个小D,你问他这个人是什么人,它站在我们所有人肩膀上,以一个个体在众智的基础上大家互相PK,那个时候现在很多范式就完全解开了,教育的方法、选人的方法。如果招程序员的话,一个会刷题的,跟一个老板你能不能给我联网,我直接在大预训练模型上算法,把活给干了,我想你当然是想要把活干了的程序员。可是我们的考试和选人机制没办法那么快把活干出来,新的大预训练模型都是概率模型,有时候是会发疯的,不放在0,放在1度,有时候胡说八道,不能不懂,又不能全记下来,还要做活快。所以我们现在需要的是完全不同物种的程序员、管理人员、公司形态、社会形态,如果我们还拿过去去套web3.0、人工智能、元宇宙、区块链,元宇宙已经三十年的词了还当真,信息时代知识经济,别追那些新词,会误导我们的,我们就是让机器用知识帮人类做决策,让机器干活。
正是因为这样,机器很容易成为神,人的大脑思维很容易产生共情,一旦产生共情,当机器的行为方式跟人有一定匹配度的时候,我们没法想,机器怎么做的,拿一个人类的词给它,机器会思考,机器会判断,机器会把人杀掉?NO,机器是用它的方式,如果思考的话请给它加一个金字旁,机器的判断和人是不一样的,我们如果产生共情的话很容易错误判断机器的能力,真以为它知道什么叫排序了,它不知道。它的每一个token都是概率算出来的,这时候人就知道怎么做了,做机器的主人。
这是大都会,一个默片,讲的是思考的决策大脑和行动手之间需要有一个中间调解人,这个调解人必须是人心,这是将近一百年前说的。
我们现在做数字化转型,管理云计算中心。在它没有被自动化之前,每一个节奏都是很浪费精力的,但你想象一下,这里的每一个动作都是事件Base的,每一个动作都是没有记忆力的,就是有一个动作。公司里面无论是财务、人事、运营,还是销售、生产,把所有流程都变成一个Action,然后给它一个信息,如果公司全都这样的话,马上就能做数字化转型,马上就能让机器帮你把这里面的每一个trigger,根据某种commission移步往前走。这个我认为就是AI要搭架子的基座、脚手架。所有公司所有流程如果没有这个脚手架的话,你再请AI、再好的工程师、再好的算法都没有意义,因为你没有一个可被trigger的,每个actor与actor之间彼此要互相调用,而且是没有记忆力的,有记忆力就乱了,记忆力要在外面记,里面只管做事。这是机器的做法,每一个都是trigger。
我们的云计算流程,我们的公司,有没有形成这个毫无用处的机器,如果没有形成的话,我们谈人工智能就稍有点距离。这里有trigger、有定时器,用机器算法做的定时器,不同的(同上),让这个事情有并行、有串行,有延时,慢慢往前走,这就是数字化标准的模型。
哥德两百年前写的小说《魔法师的学徒》,这东西你会开就要会关,不会关就出问题了,还要像宝瓶中的精灵一样,能收回去,最后的备份方案永远是人,这个公司又能够最高效,同时又不会被机器搞死。这就是它的逻辑,其实就是两件事,人是有弱点的,咱们有一堆毛病,机器能帮我们解决这些毛病,它也脑补了,我们不得不脑补,否则就活不到今天,现在机器冲着人的思想去的,我们不能老自己脑补,比如你看这人,一定是你有一个固化思维它就怎么样,不是这样的,但是人要智慧机器。
所以第二个问题,Copilot,智能副驾优先过自动驾驶,为什么?通常我们认为先有智能副驾,再有全自动驾驶,不是的。微软是说Autopilot是Copilot之前的事,以后我们要的是智能副驾,谁为主体谁为客体不要小看这个,这时候脑补一下,十年以后路德主义风行。对技术能力的信仰,促成了对技术能力的实现。对人类价值观的信仰,才能守住人类的主体性。总说机器代替人,这样很容易产生误导,而且让这个社会甚至走向一个本来不应该走的方向,其实Copilot就是以人为本,Autopilot以机器为本。
左边是大语言模型,右边是应用,中间是知识图谱,一个数据库,这个我觉得是核心,如果所有公司都在用大语言模型的话你是everyone,因为每个人都有。如果存成知识图谱,被大语言模型语义匹配,那么你们公司说的促销跟可口可乐说的促销,语义上是不一样的,这时候你们公司才能真正拥抱机器的能力,否则的话是没有核心竞争力的。你的第一步是拥抱大语言模型,才更需要踏踏实实做数字化转型,其实就是信息化,信息化远没有完呢。
谈到AI,也别只是一个OpenAI,是整个系统工程,复杂的巨系统工程,是一个短板效应加长板效应的结合,一个机器连一个螺丝钉,如果不结实的话这个机器就跑不了,哪一个能不做呢?哪一个都得做。
最后,其实还是知识,还是数字化转型,还是流程再造,还是全员赋能,还是AIX,是所有的东西。这么谈AI就容易了,AIOps就是把客户需求、服务内容和工程全部自动化,然后一步一步的,从以人为本的技术,到模型安全合规,到可解释的AI模型,小步快跑式的AI功能落地。用几个模型演示一下,你能干这活是微软做的事,在座各位千万别做这种事,因为你是拿来赚钱的,微软是卖这个能力的,给您演示的是结果,从您来讲您是一下达不到这个结果的,需要一步一步从一楼走到十楼,这个逻辑千万别忘记。
初看都是技术,全都是人的问题,人的问题全是思想的问题,思想的问题最大的问题就是死不悔改,我比你有经验,我比你牛,我比你官位高,我比你知识多,所以才听我。这个时代怎么可能呢,是谁站在时代最前沿听谁的。从个体到集体,得有领域模型,没有领域模型你跟其他公司是一样的,你的每个流程,每个动作,全都有个副驾,人在中间来做决策,最后从整体来讲我认为咱们面临的挑战远比AI大得多,是文明之争,文明生存与发展之争。这个以后有兴趣可以深谈,当我们说人工智能、工业革命,我倾向于它说小了,它就是一次文艺复兴,人类知识再造,还是要解放思想,不要把机器当神,谢谢大家!
超互联新算力的创新发展
}今天不再是一切皆信息,现在变成一切皆计算。算粒(Computinglet)+超级互联将带来新算力的三大突破:突破计算节点算力供给极限难题、突破高速总线网络广域部署难题、突破算力网络协同建设机制难题。~
尊敬的郑院士,尊敬的各位好朋友,非常高兴有机会和大家在这里做一个小小的分享和汇报。我是一名在民营企业做数字基础设施的老兵了,见证了一路上的发展,很激动人心看到现在最新的通用人工智能的发展,可以想象对未来基础设施的变化,在这里和大家做一些对未来思考的分享。
有以下七点:
第一个,两个战场,多大的战场?前面几位嘉宾都谈到了,三四个月翻一翻的算力,从华为角度看,如果综合下来,到2030年是500倍的通用人工智能训练所带来的算力增长,有不同的角度。刚才微软中国CTO韦青说的非常好,每天刷新自己,我们不做任何判断,我们把不同的数据摆在自己面前,我们用自己的眼睛去观察,看看最后哪个判断是对的,从我个人来看,我更愿意相信,确实,如果是每三到四个月以100天的速度翻一番的话,确实是面临百万倍指数级增长。
针对中国这样的国家,这件事情一定不是纯市场化的。今天我们的优势,我们的体制,一定是跟举国体制相关,去看待算力。如果是传统的举国体制,百分之百依赖传统举国体制,还是今天数字文明的时候我们可以同时此消彼长,既有主战场也有第二战场,国家所提出来的新型举国创新体制。本质上讲,继承举国体制创新的基础上,我们要看商品不能只看产品,我们看效益不仅仅实现目标,像这些理念如果搬到这个行业来,搬到算力领域来,这两个战场看得很清楚。一边是大的美,统一的美,自上而下的美。另一边是自下而上的美,是多姿多彩的美,是个性化的美,是来自群众智慧的美,如果这两种力量都能够汇聚在一起,共同为今天我们举国体制的优势在新的数字文明时代发挥好,两条腿走路。
这是第一个和大家分享的观点。
所以我们今天的行业不仅仅是举国体制的超算,还包括非超算,非超算一样可以超互联,一样可以打造新的算力产业。
对于第一个战场,今天是思想的盛宴,大咖云集,群星闪耀,聊的非常多,我不展开谈了。有很多数字,从半导体工业来的数字,如果今天Google上所有的搜索全部转成通用人工智能体系的话,需要400万张以上的A100卡,像这样一个自上而下的美,这样一个强大的美,我们看到了它的美,很多时候是仰望星空,可望而不可及,我们不能完全依靠一条腿走路。
如果我们谈说除了这些平台的强大自上而下的推动之外。第二个方向,我们说的很容易,多中心化,多姿多彩,在工程上,在科学基础上,它的支点是什么呢?为什么可以做到呢?我们怎么样把乌托邦变成今天是我们工程师可以相信的一步一个脚印往前走的东西呢?第二个主题词是Computinglet,这个词怎么来的呢?不是我们联盟在谈,不是中国人在谈,是全球很多今天对去中心化超大规模100万倍指数级增长基础设施有想法的科学家、工程师、芯片设计者都开始意识到一个问题,我们要在过去,如果说最底层是芯片设备,再往上走是基础设施,当我们去谈一个100万倍基础设施的时候,过去基础设施从来没有这么增长,如果算力基础设施按照100万倍增长的时候,我们今天可以借鉴的工业路线图应该去芯片里去找,芯片过去发生过的故事是“芯粒”。
这么一个芯粒的故事,从不同的角度来解读,一个7纳米制成的芯片,如果说在一些非关键性的一些模块上,能不能和22纳米器件这成的,能够组合在一起,互相间连接在一起,不要百分之百依赖7纳米器件,这些在半导体工业发生过的精彩故事能不能吸纳到基础工业领域,这是“算粒”Computinglet。
从芯粒到算粒不是简单一个字的改变,一个新算力,我们的一个愿景,一个百万倍未来十年增长的愿景,我们去找到工程师的切入点,我们想到了算力,这种算力,如果它每一个最小颗粒,我们去借鉴一个7纳米和22纳米制成的一个新模块,能够无缝衔接在一起,构成一个不依赖于7纳米,但同样能达到很好效果的一个芯片力量。同样,今天非超算的最小计算单元和超算的计算单元,国家发改委在提到“东数西算”的时候用了三异,异构、异数、异地。这三异的运算能不能高效互联、能不能高效协同、能不能组成合力、能不能东西南北全调度。在这种情况下,我相信从这套政策思考是可以在半导体工业界的工程师的方案里面去找到很多答案的,我们一批的工程师,一批没有分国界的,对开源软件信仰,对密码学信仰的一批人,我们在做这件事情。
我们希望把这些东西能够做成对下一个从互联网有http,今天不是一切皆信息,现在变成一切皆计算的时候,我们能不能有一批工程师一块儿来做出一个能够超越不是为点到点的信息交换而做的一个网络,我们今天是为一个异地、异构、异数,一个高速交换的超算和“非超算”高速互联的一个新型的计算总线而做的开发协议,这套东西叫超互联,它是hyper connected computing architecture下的思考。在这里面要形成突破,算力有各种各样的形态,规模上不限制,既可以有太湖之光这种超大规模的超算基地,也可以有家里放的一个小小的算力节点,这些不同大小的异地、异构、异数的节点,如果能够真正形成超级互联,它就可以实现把我们今天原来谈“东数西算”,强调东和西的均衡配置,提“东数西算”的时候还没有这么大规模的通用人工智能的爆发,但今天已经不是东西配置了,是东也不够、西也不够,两边都不够,面临的是每三到四个月100天的速度在翻一番的速度训练,这种情况下,我们原来所谈的算力规模的瓶颈,广域连接网络的瓶颈,清华大学高性能计算小组,到内蒙古,到太湖之光,像这样的广域网络的瓶颈以及协同的瓶颈,这三大瓶颈我们能不能在一个新的结构里面,今天我们走出原来的一个在大楼里面的高性能计算,一个在数据中心里面的计算,我们把这两种在高性能科学计算,这一群机器里面所发生过的网络芯片、连接、平衡、测量等等,把这些技术提炼出来。我们也把云计算里面过去所发生的超大规模云计算,满足双11亿万次并发冲击的很多最佳实践,我们把它提炼出来,打造一个开放式的,能够超越过去互联网的新的Cyber Space。
这和过去的有什么区别呢?过去的网络没有股权,过去的公司是有股权的,中国电信上市,中国移动上市,各个电信公司因为享受了互联网宽带的增长,业绩持续增长,像世纪互联,像万国,像其他友商秦淮等等,我们都分享了互联网基础设施巨大发展而形成的股权。那么,每一个用户家里,每一个个人只是作为用户,就像我们坐滴滴,每一个滴滴用户是滴滴经济体的重要成员,完全被动式的作为滴滴经济的成员。在我们谈算力的时候,能不能引入此算力再加上彼算力,这两个事情组合,如果每一个算力单元它都是有独立的身份,它是一个可以计量的经济活动,它是一个可以进行点到点交易的主体。在这种情况下,是不是我们今天建设百万倍指数级增长的时候不仅仅依靠国家开发性金融,我们依靠REITs,依靠更多点到点的,中国过去在各地建立起来的数据交易所,我们看到的这些数据交易,这些完全数字文明,完全数字化世界里面的金融产物,把这里面所发生的一些行为范式能够用到我们的算力世界里面去。
除了经济规模之外,还有一件事情大家可能也都注意到了,大概两周左右的时间,中央网信办提出对生成式人工智能监管的临时规范,这套规范出来意味着什么呢?今天任何一家大模型公司满足监管和合规的成本非常巨大,我们今天在短视频时代,像抖音、快手,为了保证中心化平台视频合规需要付出巨大代价,这只是短视频,如果变成人类文明里面知识系统,全部以这种方式打造一个新型的硅基和碳基融合的世界,靠这套方法还行吗?我们觉得在这个时候,当我们在谈算力的时候,它不仅仅是工程师的问题了,它涉及到很多治理,涉及到一个国家对数智体系再往下走的时候法律监管的体制。这个体制里面不应该只是一个传统平台,一个传统服务商的监管逻辑,应该是把人请进来,把家庭请进来,应该human in the loop,城市之所以称为城市,不仅仅是冷冰冰的建筑,它有家庭,有很多最小单元,有民宿,应该把这些力量成为新的生成式人工智能时代,硅基碳基,这是一个探索性的事业,应该让所有的参与者,所有的用户,用自己自律的力量,成为监管的组成,成为大平台公司监管上的成本和代价以及风险。
从这个意义上讲,要支持刚才所讲的这套力量,同样需要一套能够超越现在TCPIP的底层协议,能够超越现在互联网计算结构的一个新型网络基础设施结构。这里我和大家分享一本书《大教堂与集市》,大家有空可以看一看。这背后所谈的自律,今天群体的力量怎么能够比一个单一的力量更加强大。
刚才我谈到了很多城市,今天的主题之一,城市就是一台计算机,这台计算机是什么计算机呢?它不是传统的这一台计算机的概念,它已经是一种新型的,我们叫citylet,就像刚才韦青所谈的,我们上高铁不需要戴安全带,这和我们传统的认知已经完全不一样了。这台计算机的工程雏形,在高性能计算里我们已经看到了,在数据中心内部是高速的、立体的、无缝衔接的二层网络。这套结构我们在数据中心内部,不管是支持是HPC的还是支持super cloud,走出机房,走到城市每一个角落,走到每一个家庭的桌面,走到办公室里面去,这个结构是我们所谈的city as a computer的节点,也是一个城市算粒(粒子的粒)的起点。
今天是一个思想的盛宴,我们和一般的谈AGI的会议不同,我们既有郑院士,我们有通用人工智能最领先的微软公司,有摩尔线程这样的芯片公司,当我们谈基础设施的时候,基础设施不仅仅是工程师逻辑,它有哲理,有哲学,一个工程师背后已经是城市文明的标识,基础设施既有硬核可以向大家服务,同时作为文明符号,它有很多哲学的含义,文明的含义。另外,它也代表了当一个城市进步,如果说一个城市有24小时热水可以提供,有很好的甚至你可以家里不安装空调,因为有非常好的共享式的能源系统,这样的城市,这样新型的基础设施,它就代表文明演进的前进方向。同样,当我们今天看到在信息基础设施上,各个城市要双千兆入户,不管是千兆还是双千兆,它都是针对信息交换。
今天当我们谈价值交换世界的时候,当我们今天连接的不仅仅是信息,我们是一切皆计算的世界,我们连接的每一个节点可以是一台带电设备,可以是机床,万物连接无所不计算的世界的时候,我相信不管是千兆还是双千兆,都不能满足需要了。在这种情况下我们所谈的基础设施,今天我们所邀请的,为什么用联盟的方式来推动,要做产业算芯,要一块儿跨界的融合,来共同打造这个新物种。从产业上我们看到在一个城市里面,如果从主线索上,市政过去从来不管数智经济,数字经济过去底座只有三大运营商,除了三大运营商的力量,我们能不能把中国最有活力的基层的行政单元的力量,把这些县长、区长、区委书记,把他们对数字基建的力量,把他们对算力的理解,放到基础设施里面来。构成用新市政、新算力以及新的虚拟电厂,一个城市的百分百的绿电已经完全不能依靠简单的电网了,它一定是源网荷储,有新能源的源头,有电网,有高质量的,像数据中心这样高载能负荷平衡,然后引发大规模储能。源网荷储联动,所以我们今天谈超互联新算力产业的时候,不仅仅是左边的云计算IDC,全光的城市网络产业,今天是一体两翼的右翼,是数据的持有权、经营权、受益权,中国创造性的把数据作为生产要素市场化改革,以发改委来推动,很快就会迎接来国家数据局的成立,对数据二十条的推动,我相信这些事情精彩还没开始,但我们看到了通用人工智能,看到了ChatGPT的演进,看到了千亿个参数模型已经给我们带来的震撼,再到郑院士谈的百万级参数方向演进的时候,大家真的会觉得精彩还没有开始。
我们不断提到参数,亿,百亿,千亿,到百万亿级,参数非常重要,我们在谈过去云计算的时候,当我们作为双11用户的时候,阿里云CTO谈阿里云能够承载双11巨大冲剂的四大法宝之一,是马云率先大规模超大规模部署RDMA,我们刚才所提的第五个关键词,从双战场到芯粒,到家庭芯粒,到城市芯粒,第五个关键词是RDPA,我们把MA的M,一个内存访问改成了参数访问,今天在通用人工智能时代,一切的一切,都是以参数作为对象,参数是关键。过去我们谈RDMA的时候是说一台机器内存和另外一台机器的内存我们不需要动用各自的操作系统的情况下,能够直接访问,能够(英文)到原来的操作系统,这套逻辑能够大大提升效率,能够大大减少时延。这套逻辑如果用在我们的算力体系里面,用在我们所谈的超互联里面,那么这套协议我相信和刚才宣传片所看到的,在引入一个底层是一个原汁原味的密码学基础设施,公钥就是地址,我们不需要从一个机构那去拿,不需要从美国申请V4、V6,我们今天能够在用户侧用数学产生全球具有唯一性的一个公钥地址。像这样的东西,RDPA,一个密码学,分布式计算,这个结合构建起来一个新型的超越过去TCPIP作为信息交换全球共识网络的底座,互联网依然伟大,互联网会继续伟大,但是互联网会就到上面去,在互联网下面可能会被一个超互联所代替。就像今天我们想象互联网的时候,我们的通信、我们的电话依然伟大,只不过今天你不再用电话机了,今天你用微信APP把过去所有电话做的事情代替了。
当我们刚开始用互联网的时候,电话网在上面,互联网在下面,可是今天倒过来了,互联网在下面,我们今天的微信代替了电话网,电话跑上面,那么同样,我们在今天这个时代,在谈互联网的时候,我们一样的,我们在谈如果说互联网的下面,一个二层网络,一个传统的二层全程关键化的网络,能不能被RDPA,能够被HCCB,被这套密码学和借鉴超大规模云计算和超大规模科学超算里面的网络经验吸纳出来,我们再把芯片工业界里面发生过的chiplet这套工程拿出来,这可能就是我们要做的事情。
最后还有两个关键词,一个伟大时代到来,我们畅想各种各样应用场景的时候其实都离不开一个应用场景,都应该和它的基础用户,基础用户都应该连着基础应用。所以像我这样做基础设施的,我们天天谈基础协议,谈基础设施,谈基础资源,像域名,像IP地址,这些属于基础资源,我们谈的是三基,基础协议、基础资源和基础设施。可是这三个东西你真正想要拿到它还有两个更重要的,一个是基础用户;一个是基础应用。我们今天谈“东数西算”,我们今天谈通用人工智能,如果对这套体系最了解的用户他们一定是新一代原住民,他们不满足于我的数据停留在别人的平台上,除了平台之外,根据中国的《个人信息保护法》,每个人都拥有你自己数据的持有权,可以和平台共同共同发展,这套东西我相信我相信世纪互联从超大规模数据中心开始,除了服务超大规模用户,我们服务实体经济中型用户,我们未来还会服务千家万户个人数据中心。
最后,当我们谈到computinglet,除了最小单元的,从家庭到城市,合起来的这些单元,同时我们也要谈到,就像今天罗金海老师从科幻小说这个领域里面来去看待2140,我们今天所谈的计算,军事上有空天地,未来学上有星际以及宇宙计算,这套东西从今天来讲,我们看当ChatGPT出来的时候,这一切都不是故事,行则至。人去驾驭机器核心要有想象力,想象力就要先看见再相信,而不是先相信再看见,这是想象力的基础。
最后简单介绍一下中关村超互联新基建产业创新联盟,我们是一家按照海星文化、部落文化创建的联盟组织,我们是非常正规的社会组织,我们希望有更多的工程师文化、更多的代码文化,有更多互联网IET的精神,所以我把它总结为海星+数字部落。
最后是超互联新算力愿景展望,前面我们所放的介绍片,我担心会有误导,很多时候出现去中心化这个词,其实任何世界都是平衡,都是中心化的力量,多中心化的力量和去中心化的力量,一个友好共存的世界。如果说一个算力单元能够在超互联计算结构里面跑起来,它一定会推动我们今天的金融机构都是中心化的,一定有牌照,也能强监管。但是这些机构也会被数字化变革,他们开始用一个集中式的分栈系统和今天区块链世界里面一个分布式的记账系统,甚至一个完全去中心化的计算系统,完全可以找到大家的见面点,是可以友好并存。
我展示这张图,这个结构里面,我们今天合规的数据交易所,我们今天新一代数字银行,我们今天从北京到深圳、到香港,今天大家在web3上京港合作,可以各自走出自己的精彩,香港可以去迎接全球的金融创新,北京可以成为新算力的一个新基建,中国作为基建狂魔国家不负称号下的创新发源地。
我是一个数据中心的老兵,原来做的是黑盒子,冰冷水泥般的东西,天天做,做了二十几年,也没有做腻,只是今天守正才能创新,把数据中心业务做好,把数据中心客户服务好,我们站在非常中立的角度,我们今天为芯片公司,为做云计算的公司,为做大模型的公司,我们来提供赋能,我们做好伴奏,我们做好共振,我们去迎接一个上善若水的,一个像右边这样,一个芯粒无所不在无处计算的新世界。我就说这些,谢谢。
科技赋能 全域服务
}随着Web3.0技术的快速发展和大模型爆发式应用场景驱动,基础设施将迎来新的一轮重构,未来的云计算将是去中心化、面向算力调度和共建共创的基础设施。~
大家下午好!非常高兴在这样一个下午跟大家分享我的主题。今天除了非常多的合作伙伴和我们一起分享,同时我们也邀请了互联在过去二十多年一起陪伴的客户和重要伙伴。
我今天分享的主题叫《科技赋能,全域服务》,相信很多人听了上午的演讲,确实心潮澎湃,有很多思想的碰撞,有很多大咖分享了非常精彩的观点,以及对未来的一些看法,甚至是上升到了哲学、社会学层面的很多议题,我觉得都是非常好的思想激荡。下午的主题,我们更多会聚焦在这么一个科技浪潮蓬勃发展的时刻,怎么把这些好的想法、好的技术落地下来,所以我今天的主题叫《科技赋能,全域服务》。
在过去二十多年里面,其实我也是一个在IT行业、在云计算、在网络领域的老兵,二十多年中我们的技术不断发展,其实是一个非常跌宕起伏的过程,从传统IT到私有云、公有云,上完云了以后有些人考虑要下来,兜兜转转,其实谁也没有完全战胜谁,到最后的状态你会发现非常多的客户变成了混合IT的状态。我就在想,这么多技术、这么多产品在变化,到底有哪些东西是不变的,其实是面向企业级的一站式IT服务,企业希望获得一站式IT服务这件事情在过去二十年从来没有变过。
互联是一个做IDC和网络起步的厂商,在过去二十多年里,我们服务了大概6000多家大大小小的互联网企业,有非常多大家耳熟能详的企业都是从我们的数据中心里面成长出来的。这个过程当中非常有意思的是,在过去差不多十年时间中,我们也做了非常多的托管云项目,为什么会做这些托管云呢?有几个特征:首先,有广泛的IDC节点;其次,有专业第三方运维服务;再次,能够充分保障客户的数据主权,甚至是整个IT安全。它能够很好地解决公有云和私有云存在的一些问题,和公有云、私有云是相互互补的关系。互联科技走到今天这样一个时间,再往下一步应该怎么发展?这是我深刻思考的一个问题。我经常在内部讲,其实互联不需要太大步地往前走,只要往前跨半步就可以了,这半步是什么呢?就是我们二十多年一直没有变的全域一站式服务和托管云服务,把它们结合在一起就是全域托管云,全域托管云希望定位在我们面向客户侧的新基建提供全域一站式IT服务,成为企业数字化转型的合伙人。
为什么叫全域呢?这个图是我们现在定义1.0版本的全域托管云,至少四个域:一是自有IT域;二是托管IT域,把自己的IT托管到第三方机房里面,比如托管在互联的机房或者其他服务商的机房,托管IT域;三是弹性IT域,同一个机房有没有弹性IT给客户提供服务;四是公有IT域。在四个IT域环境里面我们有没有平台或者工具能够给他们提供一站式的运维服务、一站式容灾服务、一站式算力服务,甚至可能还有一站式的安全服务、一站式的数据仓库服务,我相信都是存在这样的可能性的。
那么,这四个核心平台是什么呢?下面我们分享的主题也会围绕这四个平台来展开,这个地方我需要和大家说明的是四个平台第一期版本中只有两个平台是互联自己完全开发的,另外两个平台是互联和合作伙伴一起共研、共创、共赢的平台,稍后我会邀请我们核心的合作伙伴一起分享这些平台的核心能力。
我们通过四个平台服务到四个域,通过自动化、在线化、智能化的能力帮助客户实现全域托管的服务。
首先,第一个平台是互联科技自研的LCloud托管云平台。互联不会定位为云公司,但我们为什么做云平台呢?道理很简单,就是客户需求。这样的云平台和过去传统意义上的云平台不同,需要四个统一:统一服务目录、统一业务入口、统一的运营计量、统一运维监控,我们可以用不同组件部署到相应的域中,形成产品和方案。
在运营管理层,可以纳管到私有云,甚至多个公有云,这是互联科技全域托管云要做的事情。值得一提的是,我们会站在用户角度帮助他思考需要什么。做了这么长时间的IT服务、做了这么长时间的云,你会发现客户非常需要站在自己的角度定义那朵云到底长什么样,因为它已经不仅仅用一朵云或者一个IT现状,混合IT就是目前的现状,越是发展良好的用户越会用混合IT支撑业务发展。所以,面向客户多云的管理平台,过去我们叫CMP,包括它的运维标准是不是可以由客户自己来定义或者由客户视角来定义,这个是我们非常关心的问题。所以,从这个角度来讲,我们希望至少把管理层面的产品完全开放给我们的客户,后面也会有一个阐述。
我们一期实现了非常简单的功能,但也非常实用,过去互联有大量的DC客户,但是很多DC客户的机柜分布在不同的数据中心,通过这个平台可以非常简单地把分布在各地数据中心的资源,用一个LCloud平台插件管理起来,不仅仅管理到数据中心的机柜,还可以管理到机柜里面各类IT产品、服务器等等。通过这样一个非常简单的创新,让我们客户能够对机柜的网络服务一目了然,对机柜里面的IT环境也能够进行实时的监控管理。
同时,LCloud里面有非常简单的插件,通过这个插件把整个公有云的一些平台能力进行实现,它可以实现产品集成、账号管理,包括折扣管理、资源运营、服务支撑等,都在这个平台上用一个小的插件完成,方便我们的用户快速获得公有云资源,提供整体方案的交付,并且实现一站式的服务。目前我们已经开通了和阿里云、华为云的平台,其他云厂商也在积极的对接过程当中。
今天上午我们聊了非常多“城市就是一台计算机”超互联新算力这样一个核心主题。我们要做一个面向客户的全域托管云非常重要的一件事情就是连接,互联是做连接起家的一家企业,我们会为了全域托管云打造一个全新的NEOLINK CC(Cross Connect)平台,网络连接平台。因为我们认识到,只有把我们的数据中心和各家公有云、私有云通过高速网络打通,才可以帮助用户提供大量的混合组网、数据流通、跨域的多云调度。所以,这样的CC平台是非常重要的一部分。我们现在已经在北上广深,和微软、阿里云、华为云、百度云这些云厂商开通了非常好的CC网络连接服务。
今天上午这张图分享过,这是我们对未来“城市即计算机”的一个认知,或者是愿景,让我们传统IDC里面部署的过去DC级网络怎么样能够推到城市边缘,服务于我们的企业客户,甚至服务于个人家庭用户,用我们自研的HCCB(Hyper Connected Computing Bus)协议延展到城市每一个角落,帮助城市做成一个新的地铁系统、城市新市政系统。这有别于过去一个完全不可靠或者带宽不足够宽的公交系统,我们已经看到了这张网的巨大需求,就像郑院士讲到的,我们讲这么多大模型、这么多超级计算中心,有个最简单的需求,我到底能不能先把我的数据搬过去,现在都是用非常原始的办法,把盘刻好,通过一个快递给寄过去。其实不是一句玩笑话,我们在讲“东数西算”的时候,在讲跨广域数据调度的时候,我们的基础设施还没有完全达到这样的能力。过去一年多时间里面,我们频繁和国家发改委、工信部沟通,大家都有一个共识,就是我们的目标是完全正确的,但是我们的基础设施还是要一步步走。在城市范围内去实现超互联新算力,在我们看来,目前还是一个更加容易实现的目标,但这里面的难题也非常多,我会把它抛出来,今天没办法一一展开。
比如说城市大二层的网络,立体矩阵fullmesh架构,为了计算而生的网络不可能像互联网访问一样是多跳的环境,它必须是点到点,所有的节点都是一跳达成的网络,通证化调度,“数据二十条”发展的背景下,算力和数据的确权、认证、计费这样一个过程都需要基于一个有3A能力的基础设施之上。所以它需要一个通证化调度的能力,还需要超高带宽,我们现在非常高兴地看到我们的客户在他的数据中心里面,或在他的托管云里面已经大量使用200G、400G,甚至800G的带宽,这在过去是不可想象的,现在往往一个U都可以提供32位、64位的400G接口,这是一个非常夸张的网络演进。就是因为算力网络,其实是算力大量爆发,导致我们的网络带宽快速增加,同时还有超低时延,以前我们的印象里面,网络传输毫秒级网络就已经非常不错了,但是在算力网络里面是微秒级,1点几微秒的算力时延都会觉得太长了,因为时延再大一些,或者再抖动的话,如果单任务的整个计算过程都有可能失败。我们在过去和国内几个大模型头部玩家交流的时候,他们提到当真正把几千张卡放到一个模型里的时候,最大的问题是机器启动的成功率非常低,单任务,如果说是一个分布式任务,在一个非常大的集群里面,小小的网络时延和网络抖动都会造成计算过程的失败。上次苏州一个会议上,一位合作伙伴说算力到底能不能调度?我觉得大家如果参加了今天上午的会应该会有答案。算力在目前这样的阶段最多是撮合、最多是数据传送,还到不了调度。当然,长远的目标我相信是没有问题的,从物理学的第一性原理,它终将实现,需要我们要一步一步脚踏实地把这件事实现了。
近期非常火的技术,比如RDMA、RoCE、infiniband、Nvlink、CXL,现在有这么多协议,因为传统互联网已经和算力网进行交融,或者大家已经有点模糊了边界,我相信在未来相当长一段时间里面这个领域会有非常大的技术突破,才能支撑算力网络的演进。这个是我们对整个超互联,包括超互联在城市范围内落地的理解,也是我们这次整个活动的一个主题。
所以,互联科技是一家中立的第三方运营商,是一个以服务为核心的公司,我们可以用到这个世界上最好的产品和技术,理解客户的需求,做出支撑AGI和元宇宙的客户侧新基建,这个就是我们一个远大的理想。
未来我们会陆陆续续推出很多一站式服务,面向四个域和全栈,业务应用运维、云平台运维、IT基础架构运维、IDC基础设施运维,我们会和合作伙伴一起打造全栈全域托管云的能力。今天的主题一直在讲AGI,大模型对IT运维服务领域到底可以带来哪些提升和服务,它给的这几个答案和我们的想象非常匹配。比如故障自动诊断,预测性维护,安全监控,自动化运维等等。
上周,我在上海见一位非常重要的客户,这个客户现场给我们提了一个问题,他们过去在使用IT基础设施和IDC时候,有一个困扰问题,整个设施运维和IT运维过程中有90%的误报率,机器有很多时候错误误报,导致他经常半夜三更接到报警电话,但其实是错误的,问我们有没有办法解决这个问题。我和ChatGPT做了一次沟通,ChatGPT说有几个办法,优化监控指标,包括调整阀值,做新的监控滤波,优化监控系统、告警维护等等。
基于此,我又告诉他,如果有异常毛刺出现,可以考虑哪些算法进行优化。它告诉我均值滤波、中值滤波、自适应等等,我问它能不能写一个算法出来,它写了一个非常简单的中值滤波算法,同时我们把一段数据导入进去,直接给我输出了一个滤波数据,全部非常平稳的数据流了。这应该是一个非常简单的客户需求,在运维领域,在前面几个平台之上,我们都在尝试用这样的方法来优化AI和运维相结合的基础能力。所以这个我相信是值得期待的。
一站式算力服务,我们今天讲了很多一站式算力服务,要把这个算力做好其实是不容易的,尤其像现在大模型的出现,动辄上万张卡,尤其对于中小创业者来讲,挑战非常大。我们的做法是除了帮助客户提供托管云服务之外,在一些重要的数据中心为他提供弹性算力的补充,也就是说,当他自有算力不够用的时候,能够非常快速地调用弹性算力。由于我们CC网络的存在,他也可以调用到目前非常主流的大玩家的算力资源和一些闲置的资源,我想这都是可以去做的一些工作。同时还有一站式容灾服务,这是很小的功能。但非常有意思的是我们在多云多域的IT环境,一键恢复的云容灾解决方案,是一个效能非常高的备份容灾解决方案,我相信绝大多数客户可以通过这样的解决方案达成容灾需求。
最后,我们在开源和开放上的策略。中心侧接口开放,包括测试版下载的开放,在开源这部分,我们在有些管理的组件上希望和合作伙伴把客户侧那一部分都开源,因为客户需要有自己定义的全域托管云平台,定向开源,包括纳管接入的开源。今天是典型的共创模式,大家一起应用共创。我们讲的主题是一站式全域托管云服务,非常重要的两点,就是技术和服务,技术讲究先进性,服务讲的是温度,我们到底能不能给客户带来有温度的服务。AGI给我们带来非常多的憧憬,也有很多大家对它的担忧,担心它会不会成为人的敌人,但我依然相信它会成为我们的朋友、我们的工具、我们的伙伴。我们应该更多把技术留给AGI,把温度留给我们的工程师,让我们成为一个技术领先又有温度服务的一家企业。
我希望能够和合作伙伴一起提供一个有温度、有技术的全域托管一站式服务,谢谢。