新闻中心

EEPW首页 > 智能计算 > 设计应用 > DeepSeek爆火的背后,大模型/生成式AI市场生态的潜在影响引人关注

DeepSeek爆火的背后,大模型/生成式AI市场生态的潜在影响引人关注

作者: 时间:2025-02-10 来源:EEPW 收藏

2025年1月以来,中国市场 AI 创企深度求索开发的 AI开源 的爆火引起广泛关注,深度求索共发布了三款,包括基座模型 V3、推理模型R1、多模态模型JanusPro, 创新的使用了一系列模型训练和推理的优化技术,这促使市场重新审视他们对性能如何最大化和促进产业链升级的假设。

本文引用地址:https://www.eepw.com.cn/article/202502/466800.htm

中国市场 DeepSeek AI 模型的推出在大模型/市场上引起了轰动,从大模型供应商到基础设施和平台供应商的整个AI产业生态都掀起了一波“新浪潮”。国际数据公司(IDC)于近日发布的最新报告《IDC Market Glance: 中国市场概览, 1Q25》(Doc#CHC52821325,2025年2月)中,所定义的AI产业链主要包括如下几个部分:基础设施层、模型层、平台层、应用层及服务层。

1739179748944588.jpg

DeekSeek爆火的背后,对于大模型/市场生态带来的潜在影响有哪些? 基于此,IDC进行了总结,旨在为技术供应商和行业用户提供参考:

模型层:基础大模型开启另一开发新范式——将以一系列降低成本/复杂性的创新优化技术/手段,降低门槛,未来差异化竞争的结果是NLP大模型的进一步更新升级。

降低成本/复杂性的创新优化技术/手段

DeepSeek引入了创新性的多令牌预测(MTP)技术,对注意力模块进行了拓展,从而在模型训练与推理过程中,于较低计算量条件下实现了性能的显著提升。团队也采用了FP8精度进行训练,并成功构建了混合专家模型,通过高效的“门控网络”实现令牌的路由,进一步削减了推理成本。此外,其多头潜在注意力机制(MLA)的创新,使得KV缓存需求大幅降低,极大程度上降低了硬件资源的消耗。DeepSeek在模型训练中广泛应用强化学习技术,通过试错机制和环境反馈优化模型的决策能力,特别是在推理和复杂问题解决方面。DeepSeek还通过开发内部工具生成训练数据,并使用“蒸馏”技术(去噪、降维、提炼等)进一步压缩计算资源。DeepSeek凭借极具成本优势的架构,正在重新定义 AI 模型的研发与定价机制。

降低门槛

DeepSeek选择将其技术开源,包括代码和模型权重。这种策略不仅降低了用户进入大模型领域的门槛,还吸引了全球开发者社区的广泛参与,通过开源,DeepSeek加速了技术的迭代和生态系统的建设。另外,这也意味着行业用户可能不需要在基础设施和硬件方面进行大量投资,从而降低大模型的引入门槛。

差异化竞争带来进一步更新升级

经过IDC分析师初步试验,DeepSeek R1 在数学、推理、代码任务上不乏优势,但其性能并非在所有任务及指标上均领先。从短期来看,未来无论是开源还是商业的基础大模型还会进行进一步的差异化竞争,国内外大模型的生成效果差距会趋于收敛。从长期来看,NLP大模型会朝着经济高效、上下文准确、高质量、安全可靠演进,技术供应商需要在成本、不同任务/应用领域的生成质量、用户体验及安全性等多方面寻找产品差异化优势。

平台层:多模型选择、高效且可靠地部署方式是实现大模型商业化的基石

从2024年以来,随着大模型基础能力的提升,以及应用形态的不断创新,连接大模型和应用侧的平台产品演变出现了多种形式,预计未来大模型平台会分化成底层平台以及智能体开发平台等产品。平台层产品往往跟模型层深度绑定,使得大模型更加易用、普惠。随着大模型的日益普及,平台中多种模型选择、如何将大模型高效且可靠地部署于生产环境,已成为当前备受瞩目的核心议题。当前,全球技术供应商如英伟达、微软、英特尔、AMD、AWS以及国内技术供应商如阿里云、百度智能云、华为云、腾讯云、火山引擎、京东云、天翼云、用友、360、云轴科技等已接入了DeepSeek模型。同时,大模型的部署过程需同时满足高并发与低延迟的严苛要求,并需全面考量数据安全、隐私保障、资源弹性扩展以及系统维护等多重因素,DeepSeek推出了多种部署模式许可也挑战了全球大模型技术提供商的主要商业化方法,目前推出的方式有云端部署、本地/内网部署、边缘部署、混合部署、容器化/微服务部署,以及联邦部署模式等。

基础设施层:软硬件协同创新

以往行业用户依赖高端 GPU芯片进行规模化训练和推理,导致计算资源紧缺、成本高企。随着DeepSeek的推出,一方面引发大家对于算力的重新思考,当然另一方面也可能会驱动更多企业部署AI进而带来算力市场增长,而此功能的商业化将促使整个生态系统向硬件与软件协同创新的模式转型。

应用层:广泛的应用场景,加速商业化落地

大模型的更新升级将有助于加速应用场景的创新及商业化落地,未来无论是像文案撰写和内容生成、在线会议总结、AI助手、搜索等面向个人生产效率提升的应用,还是面向客服、营销等水平业务职能的场景,亦或是行业特有场景的商业化落地都将会是今年市场关注的重点。

1739179765592520.jpg

程荫

IDC中国研究经理

IDC中国研究经理程荫表示,DeepSeek引领基础大模型开启另一开发新范式——以一系列降低成本/复杂性的创新优化技术/手段,降低门槛,未来差异化竞争的结果是NLP大模型的进一步更新升级,软件及硬件供应商应提供多模型选择、高效且可靠地部署方式的大模型开发平台或应用开发工具,并进行软硬件协同创新。2025年产业界也更加关注大模型和生成式AI的落地,整个生态系统应通力合作加速应用场景的创新及商业化。

如需进一步了解AI研究相关的信息,请与IDC中国研究经理程荫或IDC中国研究总监卢言霞联系。

免责声明

本文中的内容和数据均来源于IDC所发布的报告,所有内容及数据均为我公司所有。未经IDC书面许可,任何机构和个人不得以任何形式翻版、复制、刊登、发表或引用。



评论


相关推荐

技术专区

关闭