博客专栏

EEPW首页 > 博客 > 跨越鸿沟!全球最大AI巨量模型正式开源

跨越鸿沟!全球最大AI巨量模型正式开源

发布人:中国科学报 时间:2021-10-31 来源:工程师 发布文章
作者 | 张双虎


“贫穷限制了我们的想象力。”刘军风趣地说,“以前我们没有相应资源、也不具备相关技术,不知道有更大的算力、更大的数据、更大的模型后能干什么。但今天我们有条件这么做,我认为这就是科技发展的趋势,它能让我们更快、更强。”


大模型的“浪潮”正奔涌向前。


10月26日,在“2021人工智能计算大会(AICC 2021)”上,浪潮人工智能研究院宣布:正式开放源1.0的API(应用程序编程接口),开放高质量中文数据集,开源该大模型的训练、推理及应用代码,并和合作伙伴一起,推动面向多元AI芯片的模型移植开发。


距发布全球最大人工智能巨量模型——源1.0不到1个月时间,浪潮人工智能研究院就迈出了开源开放的步伐。如此紧锣密鼓的行动,浪潮将推动大模型向何处去?

 


智慧之



“智慧时代即将到来。”在2021人工智能计算大会上,中国工程院院士王恩东说,“算力已经成为智慧时代的决定性力量,面对指数级增长的战略需求,计算产业正面临多元化、巨量化、生态离散化交织的趋势与挑战。” 


王恩东认为,当前多样化的智能场景需要多元化的算力,巨量化的模型、数据和应用规模需要巨量的算力,算力已经成为人工智能继续发展的重中之重;另一方面,从芯片到算力的转化依然存在巨大鸿沟,多元算力价值并未得到充分释放。


目前,AI芯片架构五花八门,指令集不同,无法兼容,而面向芯片的编程库又跟芯片绑定,灵活性差。小公司只能做其中的一个环节,这造成生态的纵向不通;大公司希望构建封闭的系统,这造成了生态的横向不通。


 “大模型已经成为全球人工智能竞争的战略制高点,成为应对新挑战的必然选择。”浪潮信息副总裁刘军说,“但大模型对于算力、算法和数据的要求,对协同创新能力的要求非常高,从浪潮自身产业发展策略、竞争优势及能力储备来说,我们很适合做这个(大模型)。”


浪潮人工智能研究院首席研究员吴韶华介绍说,源1.0有2457亿的参数,训练部署一个完整的模型副本需要304块GPU。为保证精度、加速训练性能,研究团队在模型算法上开展了一系列创新,解决了大模型开发不稳定这一业界难题,最后在2128块GPU集群上取得了优异的性能。


对比GPT-3完成训练需要1万块GPU、1750亿参数量和570GB训练数据集,源1.0参数规模领先40%,训练数据集规模领先近10倍。


为训练源1.0,研究团队清洗了近860TB的互联网数据,开发出5TB的业界最大规模高质量中文数据集。


精度方面,源1.0在中文权威的自然语言处理任务CLUE零样本学习和小样本学习榜单上均排名第一。同时,它也在中文问答任务,如WebQA上有大幅度的精度提升,成为当前领先的中文自然语言处理模型。


刘军介绍说,开发AI服务器的系统需要处理超过1万个零部件,其中有50多类专用芯片,包含30多个技术方向,有100多种传输协议需要优化,同时涉及热、电、材料、化学、流体力学等学科和一系列复杂的问题,其“技术难度和复杂程度已经达到当前AI系统的巅峰”。而开发大模型的难度也很大,不但要在巨量数据、超大规模分布式训练及巨量模型算法框架等方面保证可靠性,还要解决大模型计算和算力调度等多方面的难题。


“进入大模型时代,我们很多用户和合作伙伴已无法自己去完成这样一个大模型的研发、训练和交互工作了。”刘军说,“从算力行业发展来说,我们一定要帮助用户和合作伙伴,推动人工智能向生态化、产业化发展。”


汇涓成“流


在人工智能领域,免费、共享、开放和开源是几个不同的概念。即使同为开源,开到什么程度,到代码、数据集、API还是指令集的区别也很大。


研发源1.0之前,吴韶华团队曾测试过包括GPT-3之类的开源模型。结果发现,使用这些模型会受到各种限制,有些进入门槛很高,有些所谓的开源实际上很难真正使用。


“浪潮‘源1.0’这次的开源非常彻底,从数据集、源代码到API等,此外,浪潮人工智能研究院也会与伙伴一起,基于‘源1.0’的模型共同开展针对多元AI芯片的模型移植工作。”刘军说,“我们不希望这种巨量模型成为人工智能研究的藩篱。”


目前,浪潮主要针对三类对象开放合作:一是大学或科研机构的人工智能研究团队,二是元脑生态合作伙伴,三是智能计算中心。这种开放在用户层面是产学研用全覆盖,在内容上是从底层开始彻底的开源开放。浪潮希望源1.0 能成为具有通用性和普惠性的“算法基础设施”,从而赋能千行百业,让企业、科研机构或个人能真正使用这一模型。


“源1.0已经做出来了,将来还会推出源2.0、3.0……”吴韶华说,“我们将其开源,下一步我们会向多模态方向发展,进一步优化算法、提高算力、提升参数数量。希望源2.0将来是和合作伙伴一起推出的,这样可以更贴近应用场景、更快速实现落地,同时兼顾对前沿技术的探索。”


目前,大模型落地仍有诸多困难。一方面要考虑技术如何走出实验室,另一方面真正有数据、有需求的行业可能又不具备算力、数据的承载能力。此外,应用场景的能源、人才是否适配都是难题,需要从国家、产业、企业和科研机构多机构、多角度协同推进。


去年12月,浪潮和国家信息中心联合发布的《智能计算中心规划建设指南》指出,要采用领先的人工智能计算架构和最新的人工智能的理论,实现智能计算中心这个平台的算力的生产、聚合、调度和示范,从而推动AI产业化、产业AI化和政府治理的智能化。


为更好服务新型基础设施建设,提供智慧城市解决方案与产品服务,浪潮首先提出自己的智能化,从智能工厂、智能客服体系来提升服务水平。


与此同时,通过开源开放计划,浪潮和合作伙伴一起研发,碰撞出火花,把一项实验室技术打造成能普惠产业的算法算力平台,促进人工智能生态化、产业化发展。


“就像你要在山顶建一座高塔,你不必从山脚爬到山顶,现在你已经站在山顶了,只需要在山顶建塔即可。”刘军说,“这对整个产业的快速推进非常有利。实际上,浪潮已经开发好平台。一些非计算机类院校毕业生,只要会用模型的API,能去生成新任务就可以了。这也缓解了人工智能产业发展的人才需求缺口。同时,从用户需求推动,也会促进大模型的发展。”


奔涌“浪潮


新旧技术的更迭远超人们的想像。IBM的缔造者托马斯•沃森曾说,“全世界只需要5台电脑就足够了”。微软联合创始人比尔•盖茨在一次演讲中宣称,“个人计算机的内存640K足矣”。然而,现在一部手机的性能就能“秒杀”20年前最快的“超级计算机”。


“如果我们放宽视野,从更长的时间维度看,现在的大模型也许10年后就不值一提了。”刘军说,“未来大模型的发展,要从应用场景和用户需求出发,进一步优化算法、提高算力、增加数据量。” 


吴韶华同样认为,任何一项技术的发展,都要经历从兴起、成熟再到落地的过程。“从发展规律来看,大模型现在刚刚兴起,大家正在围绕模型体量及模型体量带来的推动效应开展探索。当大模型探索走向成熟之后,才会涉及应用的具体问题,比如小型化运营、高性能、可部署等方面”。


“贫穷限制了我们的想象力。”刘军风趣地说,“以前我们没有相应资源、也不具备相关技术,不知道有更大的算力、更大的数据、更大的模型能干什么后能干什么。但今天我们有条件这么做,我认为这就是科技发展的趋势,它能让我们更快、更强。”


浪潮研发源1.0的初衷有两个:一是探索人工智能的前沿方向,推动智能算法创新;二是建设算力基础设施,并落地应用、推动产业落地。由此可见,这个开放共享的“源”不仅是个大模型,也是创新之源、智慧之源。


“道旅辽远,山川悠长。”这是源1.0在人工智能计算大会上创作的一句意境悠远的诗,似乎也在勉励人们:从源出发,不捐细流、不畏险阻,终会形成澎湃“浪潮”,席卷人工智能的海滩。


编辑 | 赵路
排版 | 郭刚


*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。



关键词: AL

技术专区

关闭