知合计算黄怡皓:基于RISC-V架构的大模型技术创新与应用
7月18日,第五届RISC-V中国峰会在上海进入分论坛环节。作为未来电子产业最庞大的应用范畴之一,人工智能是不可回避的话题。人工智能的飞速发展,正以年均超过100%的算力需求增长驱动底层架构的革新,“开放、灵活、可定制”的RISC-V已成为构建自主AI算力基石的战略支点。人工智能分论坛邀请各方企业探讨RISC-V架构如何利用其开源、开放、可扩展的特性,实现AI计算架构的革新,以及RISC-V架构在AI软硬件的最新进展和应用落地情况。
知合计算解决方案总监黄怡皓分享了他们在基于RISC-V架构的大模型技术创新与应用进展。从2017年6月份开始,Transformer横空出世到2025年7月份总共已经经历了8年的时间。这个周期里面有几个标志性的事件:2022年11月份ChatGPT实现引领了一大波对于大模型的期待。然后到了今年1月份DeepSeek的出现,让大家又对现在国产化及开源大模型的认知到达了一个新的高度。可以看到模型在整个过程中经历了很多的变化,但是不管它的技术创新点如何调整、它的底层架构依然是Transformer。
现在虽然模型整体是“百花齐放”的,但是核心算子却一直在逐渐的趋同。这里是有三个模型简介:最早的GPT-2,之后千问及DeepSeek R1模型,它们的模型架构非常统一,前面部分就是Attertion。到了第二个阶段FFN,到最后提出一个新的FFN就是MOE架构、目的为了减少计算量。这几个模型的变化都集中在具体的架构内部里面,而没有改变整个Transformer的结构,他们的算子也基本上集中在“22个、21个”左右。这“22个、21个”算子其实大家都是比较一致的。 现在模型的算力不但算子集中,而且模型的子之间的算力也非常集中。在所有的算子中,我们排了一个用途最多的几个算子,DeepSeep7B模型中核心算子共11个,Matmul计算量占比约95%。
RISC-V本身作为一个开源的指令集,它的可扩展性非常强,在上面集成了AME指令,它现在完美适配了Matmul算子。11个算子中除了3个算子外,其他均可以采用AME去做优化。模型创新除了在架构层面微创新之外,还有一个点就是大家都在调整算子的数据格式,包括最早的FP32到现在DeepSeek的FP8等这些算子我们现在都支持了。现在AME算子指令能够做到矩阵大小16行,每一行大概可以做到512bit大小、一次可以做到相当于一个字节的矩阵大小。
黄怡皓分享的核心观点是AI在Transformer之后,将从原来单纯的识别功能走向现在认知的功能。下图最左侧是传统CNN网络做卷积,它能够实现最直接的效果就是识别,能够知道“行人、汽车、动物”,但是很难识别它们之间的关系。接入大模型之后,可以通过Transformer、统一大买性可以判断不同物体之间的动作及相互之间的关系。第一张图是“熊猫吃竹子”的动作,第二张图是“植物上的昆虫”、只会把停留在植物之上的昆虫识别出来。除了这两个场景之外,我们也跟客户合作做了一些家庭的场景,就是他们有一个需求:“搜索小孩子是在学习,以及小孩子是在玩手机。”我们做了一个比较典型的场景,就是传统的CNN放是可以实现这个功能、过程比较复杂,需要先识别人、再识别手机,然后识别人的手臂,再识别手臂跟手机的相互位置关系,才能判断小孩子到底是不是在玩手机。而通过我们的模型,直接搜索“儿童玩手机”,就可以区分的很清楚。
针对AI已经实现的场景及功能,知合计算提供了“通推一体”CPU产品A210,支持Transformer架构,,第二个芯片A600搜查的算子、架构、内都是统一的,包括所有对外的接口都是统一的,知合希望用户在对接这些接口都变得非常的流畅、非常的顺滑。基于A210平台做的AI智能体方案中,整个过程把前端的语音输入到中期数据处理,以及到后续的输出都做了一套完整的AI智能体。在我们的角度来看,现在想要做一个完全标准化的AI智能体其实难度是非常大的。端测芯片作为A210这样一个端侧芯片来说,它更适合做一些标准化的细分场景的AI智能体。我们用模型取代中间的一些模糊的过程,特别是第二段内容“既要删除掉原来的巨无霸汉堡,然后换了一个拼盘、加了一杯可乐。”这种场景原来处理非常大,但是我们把这些全都交给模型处理得到这样的结果。
在A210用于“模糊搜索”应用案例中涉及到三帧图象的识别,这三帧图象分别指针到“蜘蛛侠变身”三个最重要的位置。第二个场景是火灾,我们不需要针对特殊的场景去做针对性的训练,因为依托于大模型的泛化能力、它其实可以给用户非常简单的方式就可以去搜索一些其想要的内容,而不需要针对每个场景进行特定的数据材料收集及二次训练。这个图象可以看到它停留在火灾起火的那一秒、应该是在12秒的时间上,有一个明确的时间点告诉我们这个视频在12帧的时候起火了。通过这种“模糊搜索”在安防、电影搜索,其实是非常简便的方式。我们自己也测试过,基于这个模型可以去搜索“门打开的场景”,可以把门打开的一瞬间定位出来。
基于A21做的两个典型的场景演示表明,大模型的算子统一在一定程度上为RISC-V提供了一个生态红利。RISC-V在传统逻辑上来说跟ARM存在非常大的生态差距,因为算子的统一反而RISC-V在做矩阵、向量这些计算上面大家回到了同一个起跑线。因为RISC-V的开源、以及现在大模型的逐渐开源,可以让大家对这些算子的优化更加迅速、也更加的直接。知合认为AI能力已经开始慢慢从“识别”走向了“认知”,这个过程中如何将新的这些AI能力跟通用计算能力结合起来,是知合计算接下来要去主要推进的方向。
评论