新闻中心

EEPW首页 > 业界动态 > 寒武纪基础软件平台Cambricon NeuWare能否突出重围?

寒武纪基础软件平台Cambricon NeuWare能否突出重围?

作者: 时间:2025-11-04 来源:电子产品世界 收藏

经过多年投入与积累,基础已经日趋成熟,全面兼容社区最新PyTorch版本和Triton算子开发语言,支持用户模型和自定义算子快速迁移 —— 让用户与开发者能够跨越不同的硬件和应用场景,降低上手难度、提升开发效率。

640-5.jpeg

经过持续的全栈优化,基础在多项指标上都已达到业界领先水平,特别针对当前业界极具挑战的大规模集群运维实践,进一步丰富和完善了多项集群工具,为大规模训练推理业务在集群环境中的部署运维调试和调优提供了坚实的底座。

已完成大规模技术和产品验证

在大模型与搜广推的训练推理上,都已完成了大规模的技术和产品验证,验证结果表明:解决方案可支撑多场景下的流式训练任务,可持续超数月稳定运行,精度与稳定性均满足要求。

在大模型训练方向,寒武纪重点支持DeepSeek V3/V3.1、Qwen2.5/Qwen3/Qwen3-next等MoE类模型训练,同时扩展了GLM4.5、Flux、Wan2.1/2.2、Qwen3-VL、Hunyuan-Video等模型的训练支持。基于原生FP8的计算能力,新增Qwen/DeepSeek等系列网络FP8的训练支持,精度符合预期。

值得一提的是,通过深度的生态合作,针对DeepSeek V3.2-Exp模型,寒武纪实现发布即适配的支持,并与合作伙伴同步开源适配代码。寒武纪持续开展对DeepSeek、Qwen、Wan、Hunyuan等系列最新开源模型的极致性能优化,并专项攻坚长序列与超低解码延时等场景的性能优化,持续保持性能领先优势。

正是这种软硬一体、兼具性能领先与部署高效的核心竞争力,让寒武纪能够能够取得快速突破,完成大规模技术和产品验证。

640-6.jpeg

寒武纪基础(图中仅列举部分组件)

CNPerf-GUI适配Linux、macOS、Windows多平台,支持CNPerf、PyTorch Profiler、Tensorflow Profiler、CNTrainKit等日志格式,且支持超大日志文件(上亿函数记录)的快速加载及流畅操作。

新增程序正确性分析工具CNSantizer,使用运行时插桩技术自动完成多核间竞争访问检测、单核内多指令流竞争访问检测、Device侧内存越界访问检测、未定义程序行为检测、使用未初始化内存检测等。

新增程序性能分析和调优建议工具CNAdvisor,使用运行时插桩采集以及硬件性能计数器采集方式获取程序运行时状态,并根据性能调优经验库,自动分析程序性能问题并标记出对应源代码位置,进一步给出优化建议。

1. Cambricon HLO:机器学习模型高级操作集(HLO)的寒武纪后端; 

2. CNNL:Cambricon Network Library,寒武纪人工智能计算库; 

3. CNNL-Extra:Cambricon CNNL Extra,寒武纪人工智能计算库的扩展库; 

4. CNCV: Cambricon Computer Vision Library,寒武纪计算机视觉库; 

5. CNCL:Cambricon Communications Library,寒武纪高性能通信库; 

6. CNFFmpeg:Cambricon FFmpeg,基于开源FFmpeg开发的硬件加速库; 

7. CNCC:Cambricon Compiler Collection,寒武纪BANG C语言编译器; 

8. CNAS:Cambricon Assembler,寒武纪汇编器组件; 

9. CNGDB:Cambricon GNU Debugger,寒武纪BANG C语言调试工具; 

10. CNSanitizer:Cambricon Sanitizer,寒武纪代码检测工具; 

11. CNPAPI:Cambricon Profiling API,寒武纪性能分析接口库; 

12. CNPerf:Cambricon Performance,寒武纪性能分析工具; 

13. CNPerf-GUI:Cambricon Performance Graphical User Interface,寒武纪性能剖析图形化工具; 

14. CNMon:Cambricon Monitor,寒武纪设备监控与管理命令行工具; 

15. CNVS:Cambricon Validation Suite,寒武纪设备验证工具集; 

16. CNFieldiag:Cambricon Field Diagnostic,寒武纪现场诊断工具; 

17. CNAnalyzeInsight:寒武纪故障分析工具; 

18. CNCL-benchmark:Cambricon Communications Library Benchmark,寒武纪通信库性能基准测试工具; 

19 Cambricon Device Plugin:寒武纪设备插件; 

20. CCOMP:Cambricon Cluster Operation Management Platform,寒武纪智算运管平台。

积极拥抱开源

寒武纪计算库积极拥抱开源社区的技术演进,持续迭代打磨核心基础算子的功能、性能和稳定性,更快更好地支持在寒武纪智能芯片上高效、稳定地运行开源和私有模型。寒武纪快速跟进社区PyTorch的进展,支持PyTorch 2.1到PyTorch 2.8的全部社区版本。

寒武纪还提供GPU Migration一键迁移工具,帮助用户近乎零成本将模型从GPU迁移到MLU。同时配备TorchDump精度调试工具和Torch Profiler性能调试工具,助力用户高效定位和解决精度和性能问题。

适配了包括DDP、FSDP、FSDP2、HSDP、Tensor Parallelism、Context Parallel、Pipeline Parallelism、SDPA、Inductor、MLU Graph、AOTInductor以及Inductor cppwrapper等一系列关键功能。此外,寒武纪还支持PyTorch Lightning、TorchTitan、TorchRec等社区生态,并建立快速跟进社区版本的长效机制,可在社区版本发布后2周内实现MLU适配版本的发布。

凭借领先的芯片技术与完善的基础软件平台,寒武纪产品已经在大模型、搜广推、图片与视频生成和各类多模态的训练与推理场景中成功完成验证,赢得广泛认可。在此过程中,寒武纪产品不断接受更多大规模场景高强度检验,推动软件平台与芯片体系持续进化。


评论


技术专区

关闭