《开源中国:开源x AI的狂飙》
大家好,我的名字特别吉利,叫马越,意味着大家见到我,马上就会越来越好。因缘际会,对的人,对的事情只有在对的时间才能对上。我是做软件的,也是人生中第一次被邀请参加算力大会。任何一个演讲者,最难销售的就是听众,算力硬件上对大家没有帮助,怎么能够让大家有效地通过他山之石可以攻玉,通过我们这一路的思考和实践,这些软件从业者、互联网平台的从业者,对这个时代采取了什么样的思考?希望给大家一些我们自己的心得体会,有助于硬件越做越软,软件越做越硬。
开源中国不是一个初生的公司,也是经过了十六个年头,到今天迭代了四个版本出来:2008年,我们刚成立的时候做的就是开源内容的普及,直到今天有人还在问我们,你们跟CSDN有什么区别?2008年,我们刚做的时候其实是CSDN的分支,为天下开发者提供了所有的技术内容,而开源中国只提供了开源的相关内容。
由于开源精神上的利他主义、技术上的彻底分享,人人为我,我为人人的社会化协作方法论,导致今天伟大的技术好像无一不是开源。
我们IT从业者多会造名词?互联网是我们造出来的名词,移动互联网是我们造出来的名词,云计算是我们造出来的,大数据是我们造出来的,区块链是我们造出来的,物联网是我们造出来的,后来又有了机器学习,之后又有了AIGC,到今天AGI,明年大概率还会造出来一个词。在这些眼花缭乱、一年一更新的时髦名词背后,开源一直发挥着巨大的创新价值。
移动互联网时代,操作系统是Unix和Windows的天下,于是有了Linux的技术,现在服务器90%安装的都是基于Linux的开源系统,而这是开源的。移动互联网有IOS苹果操作系统,但也有Android和开放鸿蒙。之后又到了云计算时代,有了OpenStack开源软件,大数据得益于Hadoop,而机器学习也是如此,比如Tensorflow。
今天大家可能会想,为什么OpenAI不开源了?开源在人工智能扮演什么角色?技术决定领先,不开源收钱的更快,商业的反射弧更短,但因为垄断在一个大行业是不可能的,因此开源也形成了有效的制衡、商业垄断的过程。今天以LLaMA为代表的,包括国内的智谱、通义都选择了开源,包括百川等等,这些是开源的力量。
相信过去无论是互联网时代、移动互联网时代、云计算、大数据时代还是未来的人工时代,开源依然以勃勃生机激发更大的创造力。
作为通过开源内容起家的公司,2013年,我们和CSDN就不一样了,看到国外有一个伟大的开源平台叫做GitHub,于是2013年,我们迎来了公司第一次转型,从一个内容社区升级为工具平台。今天我们的数据也弥足安慰,今年是我们Gitee平台的第十一个年头,已经成为我们软件工程生产资料库。现在我们代码仓有2800万个,二进制的组件超过3.5亿,实际上是软件工程生产资料库,必然会吸引生产者,所以我们平台已经超过1200万软件工程师,这些是数字化转型和创新最有力量的一组人群。
到今天十一年,我们也服务了超过30万家企业。雪球已经滚起来了,大家可以想像过去十年,软件工程、软件创新以什么样的加速度成长,因为到今天每天我们会新增5000个个人注册用户,2万多个代码仓,可以想像每天有2万个新的软件应用被做出来。
GitHub是全球的,Gitee长在中国,过去十年完成的使命,通过开源的力量让中国的软件工程在过去的十年与时俱进,让中国1200万开发者软件开发能力跟美国人是并驾齐驱的。我们完全没有落后,甚至我们的场景比美国做得更优秀,这是过去我们已经在践行的时代使命。
目前我们在流量只有GitHub压我们一头,我们是他们的75%左右,但我们这样一个小公司,技术能力其实阿里、腾讯都可以提供,但流量在国内是碾压式的,所以友商在国内的流量加在一起可能不到10%。
软件工程只有代码管理是远远不够的,因为一个软件工程的生命周期是产品经理驱动、项目经理执行,有需求分析师,有架构师,才有了编程人员,之后还有配置管理员,运维工程师、测试工程师等等。我们3.0的升级版是从代码托管平台升级为软件工程一体化的国产替代解决方案,软件工程的所有角色都可以在平台上提高效率,所有软件工程数字化转型相关的管理者都通过我们的平台可以更有效地去做软件工程的管理,这又是我们对软件工程新的贡献。
说到人工智能,去年开始,我们就在想怎样破局?大家都焦虑,觉得这个太牛了,改朝换代了,但我们每一个人怎么基于过去的福报,过去已经有的积累,Knowhow也好、资源也好,怎么躬身入局切入进来?我们还是用过去的思路。今天很多名词我们都在践行,创新的确定性和创新的不确定性,这些是我刚刚的思考。创新是不确定的,要是确定的创新就不是创新了,但创新的过程和使用工具的范式某种意义上是高度收敛的,也是确定性的。在软件时代,软件工程是确定的,软件应用是不确定的,无论是淘宝还是微信都是创新性的平台,但背后的软件人员、流程、角色,每天干的活是确定性的。
过去十几年,我们已经打造了中国开源的基础设施,是中国开源的淘宝,未来有没有可能再打造一个中国的HugginngFace?我们用了十年让我们成为中国的GitHub,现在全世界遥遥领先的模型聚合平台就是HuggingFace。
HuggingFace很红,但意识形态不同,我们需要中国的HuggingFace,我们要做一些HuggingFace还没有做的事情,因为在这个时代,我们的算力是被卡脖子的,我们得支持异构算力,所以过去只是开源软件的大市场,算力跟我们没关系,所以过去我也不会参加算力的会议,但在今天和以后,算力跟我们休戚相关。除了NVIDIA之外,我们必须支持国产的异构算力,支持曙光,支持华为,支持寒武纪,支持摩尔线程,打造平台的最底层逻辑是异构算力市场。谁有算力?裸金属也好、包了一层的算力平台也好,通过我们的纳管就可以上架为这个平台的可调度或者可售卖算力,所以底层搭建算力市场。
算力不是目的,目的是支持我们训练、微调和运行模型。在算力之上,我们又搭建起开源模型和开源数据集市场,让我们的AI工程师极大地降低自己入局的成本和门槛。模型和数据集依然不是目的,最终算力支持人工智能工程师、模型和数据集,只有人工智能工程师做出千千万万个应用,就像全员上了移动互联网一样,最终卷的还是应用。
三层结构,今天准备得不太充足,其实我已经快讲完了,但给大家准备了一个产品的DEMO。因为我们软件行业一般不讲PPT,直接给大家运行产品,PPT太抽象,看到产品大家就都懂了。你们没见过淘宝之前想像不出来淘宝是什么样,但跑起来淘宝,马上就知道什么是淘宝了。很遗憾,今天的条件不允许我给大家展示具体产品,我会把产品的链接告诉大家,欢迎大家来玩,上面有模型、数据集、异构算力和应用。
我们要让你在线上完成所有的部署、调优和推理的过程,怎么计费呢?世纪互联批发来的算力,可以按小时零售给你,运行一个应用,每小时收你多少钱,而且可以选择GPU和CPU,要NVIDIA的卡还是要国产卡,这是一种计费方式。按照推理次数收钱,200万Token的文生图像,两种计费方式完成继承了云计算时代的弹性计算。通过这种方式,我们某种意义上也是把人工智能工程的门槛给千千万万的从业者和未来全社会的使用者降到极致。
有幸站在开源伟大事业的肩膀上,过去十年我们已经成为实至名归的中国GitHub,用过去十几年的时间盖了一栋90层的高楼,其实地基已经住了1200万个开发者、30多万家企业,有着基础运行能力、运营能力、运维能力,而且看不见的地基也极其深厚。因为在中国还有一个合规的监管,这是大家看不到的,所以今天我们的思路是别人要盖一座100层的人工智能大楼,先得挖地基,然后先盖90层再盖10层,也得吸引这些用户,来了以后还得把物业管好、把运维管好、把卫生管好、把消防管好,我们这些全有了,只是在过去90层的基础上再盖10层就好了。
最后的10层楼,相信是开源中国十六年如一日金字塔的塔尖,毕竟人工智能来得太快,而我们的思考又是站在开源普惠利他的核心价值观,通过技术的降门槛,让全员AI化,让我们的国家、我们的开发者、我们千行百业的用户不要错过人工智能的潮流,早点躬身入局,变成在人工智能这一片蓝海的探索者。
打个广告,欢迎来到ai.gitee.com。这是一个算力的市场、模型和应用级的市场,更是人工智能应用的市场。
过去十年,开源中国的Gitee成为了中国的GitHub,让中国的软件工程师与时俱进,跟美国并驾齐驱。未来十年,我们要把自己从软件工程的一体化平台升级为人工智能工程的一体化平台,已有的1200万软件工程师,他们应该是最快最容易变成人工智能工程师的,依然可以在技术上与时俱进,做出有中国特色、充满奇思妙想、Fulfill中国场景的大量应用,也能够让中国人工智能工程水平继续跟美国并驾齐驱,这也是未来的政治和经济环境下开源中国责无旁贷,要为我国做出的贡献。
为什么我们躬身入局、参与算力?因为Native。当年有个Cloud Native云原生,现在大家都在谈AI Native人工智能原生。云原生和AI原生最大的区别是什么?我的体会就是在AI时代,AI Native比Cloud Native更加Native。在开源时代,大家可以把一个开源软件下载到自己的笔记本上,都可以有自己的机房,一个X86服务器能值几个钱?但在云计算时代,且不说GPU昂贵,但还是卡脖子,所以大量用户真的使用人工智能会是在云平台上面。当年我们做开源淘宝的时候可没想到今天我们做开源人工智能可以卖算力,欢迎在座的算力合作伙伴跟我们联系,我们就是提供庞大的流量入口,从您那里批发的算力可以零售出去,这些就是AI Native时代更加顺水推舟的结果。我们也会大量推出一体机的合作,如果大家有国有的GPU芯片,部署开源的模型就可以支持企业的私有化部署。
开源×AI狂飙。毛主席老人家有一首词“狂飙为我从天落”,我特别感慨,当年他老人家写这首词的时候说的“我”,不是指他个人,而是指红军和所有坚信共产主义信仰的革命家。今天这个“我”也不是开源中国,也可能不是世纪互联,是像我们这些开始信仰人工智能的这群人,又落到一个关键词叫做原住民。我相信,我们都会早日成为原住民,只要我们都成为人工智能的原住民,“狂飙”就是为我们从天而落的。
咱们Gitee上再见,谢谢大家!祝大家晚饭有个好胃口!