跨越鸿沟！全球最大AI巨量模型正式开源

发布人：中国科学报时间：2021-10-31 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

发布文章

作者｜张双虎

“贫穷限制了我们的想象力。”刘军风趣地说，“以前我们没有相应资源、也不具备相关技术，不知道有更大的算力、更大的数据、更大的模型后能干什么。但今天我们有条件这么做，我认为这就是科技发展的趋势，它能让我们更快、更强。”

大模型的“浪潮”正奔涌向前。

10月26日，在“2021人工智能计算大会（AICC 2021）”上，浪潮人工智能研究院宣布：正式开放源1.0的API（应用程序编程接口），开放高质量中文数据集，开源该大模型的训练、推理及应用代码，并和合作伙伴一起，推动面向多元AI芯片的模型移植开发。

距发布全球最大人工智能巨量模型——源1.0不到1个月时间，浪潮人工智能研究院就迈出了开源开放的步伐。如此紧锣密鼓的行动，浪潮将推动大模型向何处去？

智慧之

“智慧时代即将到来。”在2021人工智能计算大会上，中国工程院院士王恩东说，“算力已经成为智慧时代的决定性力量，面对指数级增长的战略需求，计算产业正面临多元化、巨量化、生态离散化交织的趋势与挑战。”

王恩东认为，当前多样化的智能场景需要多元化的算力，巨量化的模型、数据和应用规模需要巨量的算力，算力已经成为人工智能继续发展的重中之重；另一方面，从芯片到算力的转化依然存在巨大鸿沟，多元算力价值并未得到充分释放。

目前，AI芯片架构五花八门，指令集不同，无法兼容，而面向芯片的编程库又跟芯片绑定，灵活性差。小公司只能做其中的一个环节，这造成生态的纵向不通；大公司希望构建封闭的系统，这造成了生态的横向不通。

“大模型已经成为全球人工智能竞争的战略制高点，成为应对新挑战的必然选择。”浪潮信息副总裁刘军说，“但大模型对于算力、算法和数据的要求，对协同创新能力的要求非常高，从浪潮自身产业发展策略、竞争优势及能力储备来说，我们很适合做这个（大模型）。”

浪潮人工智能研究院首席研究员吴韶华介绍说，源1.0有2457亿的参数，训练部署一个完整的模型副本需要304块GPU。为保证精度、加速训练性能，研究团队在模型算法上开展了一系列创新，解决了大模型开发不稳定这一业界难题，最后在2128块GPU集群上取得了优异的性能。

对比GPT-3完成训练需要1万块GPU、1750亿参数量和570GB训练数据集，源1.0参数规模领先40%，训练数据集规模领先近10倍。

为训练源1.0，研究团队清洗了近860TB的互联网数据，开发出5TB的业界最大规模高质量中文数据集。

精度方面，源1.0在中文权威的自然语言处理任务CLUE零样本学习和小样本学习榜单上均排名第一。同时，它也在中文问答任务，如WebQA上有大幅度的精度提升，成为当前领先的中文自然语言处理模型。

刘军介绍说，开发AI服务器的系统需要处理超过1万个零部件，其中有50多类专用芯片，包含30多个技术方向，有100多种传输协议需要优化，同时涉及热、电、材料、化学、流体力学等学科和一系列复杂的问题，其“技术难度和复杂程度已经达到当前AI系统的巅峰”。而开发大模型的难度也很大，不但要在巨量数据、超大规模分布式训练及巨量模型算法框架等方面保证可靠性，还要解决大模型计算和算力调度等多方面的难题。

“进入大模型时代，我们很多用户和合作伙伴已无法自己去完成这样一个大模型的研发、训练和交互工作了。”刘军说，“从算力行业发展来说，我们一定要帮助用户和合作伙伴，推动人工智能向生态化、产业化发展。”

汇涓成“流

在人工智能领域，免费、共享、开放和开源是几个不同的概念。即使同为开源，开到什么程度，到代码、数据集、API还是指令集的区别也很大。

研发源1.0之前，吴韶华团队曾测试过包括GPT-3之类的开源模型。结果发现，使用这些模型会受到各种限制，有些进入门槛很高，有些所谓的开源实际上很难真正使用。

“浪潮‘源1.0’这次的开源非常彻底，从数据集、源代码到API等，此外，浪潮人工智能研究院也会与伙伴一起，基于‘源1.0’的模型共同开展针对多元AI芯片的模型移植工作。”刘军说，“我们不希望这种巨量模型成为人工智能研究的藩篱。”

目前，浪潮主要针对三类对象开放合作：一是大学或科研机构的人工智能研究团队，二是元脑生态合作伙伴，三是智能计算中心。这种开放在用户层面是产学研用全覆盖，在内容上是从底层开始彻底的开源开放。浪潮希望源1.0 能成为具有通用性和普惠性的“算法基础设施”，从而赋能千行百业，让企业、科研机构或个人能真正使用这一模型。

“源1.0已经做出来了，将来还会推出源2.0、3.0……”吴韶华说，“我们将其开源，下一步我们会向多模态方向发展，进一步优化算法、提高算力、提升参数数量。希望源2.0将来是和合作伙伴一起推出的，这样可以更贴近应用场景、更快速实现落地，同时兼顾对前沿技术的探索。”

目前，大模型落地仍有诸多困难。一方面要考虑技术如何走出实验室，另一方面真正有数据、有需求的行业可能又不具备算力、数据的承载能力。此外，应用场景的能源、人才是否适配都是难题，需要从国家、产业、企业和科研机构多机构、多角度协同推进。

去年12月，浪潮和国家信息中心联合发布的《智能计算中心规划建设指南》指出，要采用领先的人工智能计算架构和最新的人工智能的理论，实现智能计算中心这个平台的算力的生产、聚合、调度和示范，从而推动AI产业化、产业AI化和政府治理的智能化。

为更好服务新型基础设施建设，提供智慧城市解决方案与产品服务，浪潮首先提出自己的智能化，从智能工厂、智能客服体系来提升服务水平。

与此同时，通过开源开放计划，浪潮和合作伙伴一起研发，碰撞出火花，把一项实验室技术打造成能普惠产业的算法算力平台，促进人工智能生态化、产业化发展。

“就像你要在山顶建一座高塔，你不必从山脚爬到山顶，现在你已经站在山顶了，只需要在山顶建塔即可。”刘军说，“这对整个产业的快速推进非常有利。实际上，浪潮已经开发好平台。一些非计算机类院校毕业生，只要会用模型的API，能去生成新任务就可以了。这也缓解了人工智能产业发展的人才需求缺口。同时，从用户需求推动，也会促进大模型的发展。”

奔涌“浪潮

新旧技术的更迭远超人们的想像。IBM的缔造者托马斯•沃森曾说，“全世界只需要5台电脑就足够了”。微软联合创始人比尔•盖茨在一次演讲中宣称，“个人计算机的内存640K足矣”。然而，现在一部手机的性能就能“秒杀”20年前最快的“超级计算机”。

“如果我们放宽视野，从更长的时间维度看，现在的大模型也许10年后就不值一提了。”刘军说，“未来大模型的发展，要从应用场景和用户需求出发，进一步优化算法、提高算力、增加数据量。”

吴韶华同样认为，任何一项技术的发展，都要经历从兴起、成熟再到落地的过程。“从发展规律来看，大模型现在刚刚兴起，大家正在围绕模型体量及模型体量带来的推动效应开展探索。当大模型探索走向成熟之后，才会涉及应用的具体问题，比如小型化运营、高性能、可部署等方面”。

“贫穷限制了我们的想象力。”刘军风趣地说，“以前我们没有相应资源、也不具备相关技术，不知道有更大的算力、更大的数据、更大的模型能干什么后能干什么。但今天我们有条件这么做，我认为这就是科技发展的趋势，它能让我们更快、更强。”

浪潮研发源1.0的初衷有两个：一是探索人工智能的前沿方向，推动智能算法创新；二是建设算力基础设施，并落地应用、推动产业落地。由此可见，这个开放共享的“源”不仅是个大模型，也是创新之源、智慧之源。

“道旅辽远，山川悠长。”这是源1.0在人工智能计算大会上创作的一句意境悠远的诗，似乎也在勉励人们：从源出发，不捐细流、不畏险阻，终会形成澎湃“浪潮”，席卷人工智能的海滩。

编辑 | 赵路
排版 | 郭刚

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。

博客专栏

跨越鸿沟！全球最大AI巨量模型正式开源

相关推荐

技术专区