OpenAI迎战Deepseek
1月27日,DeepSeek应用登顶苹果美国地区应用商店免费APP下载排行榜,在美区下载榜上超越了ChatGPT;同日,苹果中国区应用商店免费榜显示,DeepSeek成为中国区第一。而1月11日,DeepSeek的App才刚刚上线iOS和安卓的应用市场。
本文引用地址:https://www.eepw.com.cn/article/202502/466922.htmDeepSeek横空出世
DeepSeek,成立于2023年7月17日,全称杭州深度求索人工智能基础技术研究有限公司,专注于开发先进的大语言模型(LLM)和相关技术。在团队配置上,相比OpenAI拥有1200名研究人员,DeepSeek团队只有139名研发人员,其中算子、推理框架、多模态等研发工程师以及深度学习方面的研究人员共有约70人。
2023年5月,DeepSeek创始人梁文锋开始进入通用人工智能(AGI)领域,从公开的工作经历和职业生涯来看,他的创业范畴横跨金融和人工智能领域,在量化投资和高性能计算领域具有深厚的背景和丰富的经验。2015年,30岁的梁文锋和朋友一起创办了杭州幻方科技有限公司,立志成为世界顶级的量化对冲基金;2016年10月,幻方量化(High-Flyer)推出第一个AI模型,第一份由深度学习生成的交易仓位上线执行;到2017年底,几乎所有的量化策略都采用AI模型计算;2019年,幻方量化成为国内首个募资超过1000亿元的的量化对冲基金。
在AI科技领域,美国长期以来都是创新的引领者,一直以来都被认为是追赶者的中国公司,第一次在AI行业中站上世界舞台的中心。而且,DeepSeek的核心研究员都是中国本土培养的博士,没有海外留学的背景,在一定程度上打破了技术创新只能在美国出现的刻板印象。
DeepSeek的全球热议还带来了美股的惊天震动,英伟达单日大跌近17%,市值蒸发近6000亿美元(相当于人民币4.3万亿),创美股单日跌幅最高纪录。原因不仅是因为DeepSeek训练成本下降,带来了芯片算力需求可能会下降的恐慌,也源自传统的美国科技资本逻辑受到的冲击。
出道即巅峰
DeepSeek可以说是“出道即巅峰”,2024年12月26日宣布旗下全新系列模型DeepSeek-V3首个版本上线并同步开源,总参数达6710亿,采用创新的MoE架构和FP8混合精度训练,并公布了长达53页的训练和技术细节。真正让DeepSeek火出圈的是 —— 其总训练成本只有557.6万美元,而GPT-4o的约为1亿美元,使用25000个GPU芯片。
在DeepSeek发表的原始报告中有详细解释这笔成本的计算:在预训练阶段,每兆个token上训练DeepSeek-V3仅需要180K H800 GPU小时,也就是说在拥有2048个H800 GPU的丛集上需要3.7天。因此,预训练阶段在不到两个月的时间内完成,耗费2664K GPU小时。加上上下文长度扩充所需的119K GPU小时和后制训练所需的5K GPU小时,DeepSeek-V3的完整训练仅需2.788M GPU小时。假设H800 GPU的租赁价格为每GPU小时2美元,总训练成本仅为557.6万美元。
DeepSeek-V3通过数据与算法层面的优化,大幅提升算力利用效率,实现了协同效应。这证明,模型效果不仅依赖于算力投入,即使在硬件资源有限的情况下,依托数据与算法层面的优化创新,仍然可以高效利用算力,实现较好的模型效果。
· DeepSeekMoE(Mixture of Experts,混合专家)
传统稠密模型,比如GPT-3.5,在训练和推理过程中激活全部参数。然而事实上,并非模型的每个部分都是当前任务所必需的。因此,MoE的理念是将模型区分为多个「专家」,推理时只激活对任务必要的专家。MoE模型的效率优势正源于其选择性激活机制,与传统模型(如Llama)需要激活全部网络权重不同,MoE通过对计算网络进行分类,显著降低计算成本。
MoE模型此前未被广泛应用的主要障碍是训练难度大,容易出现信息分类不当,DeepSeek V3通过创新性的算法和工程优化,成功突破这一限制。DeepSeek在V3模型论文中称,相较于传统MoE,DeepSeekMoE使用了“更细粒度”的专家,使专家更加专门化,单个专家仅数十亿参数,提升了任务适配性;同时,DeepSeekMoE将一些专家隔离为“共享专家”,用于减轻专家之间的知识冗余,从而使V3模型在激活相同数量专家和参数的情况下表现更好。
· MTP(Multi-Token Prediction,多tokens预测)
传统大模型回答用户需求时只预测下一个token,V3通过MTP技术同时预测下2个token。这里的关键是第二个预测token的准确性问题(即「接受率」,预测的token能被最终采用的比例)。DeepSeek评估称,在不同生成主题中,其模型所生成的第二个token的接受率达到了85%至90%。这种高接受率意味着V3能够以接近传统单token预测模式两倍的速度来生成文本。
· FP8:低精度训练
FP8的意思是8位浮点(floating-point),数字越高,意味着计算精度越高,但与此同时计算速度会降低。DeepSeek使用了FP8数据格式来训练V3,并在模型计算的不同环节实现了数据在FP8、BF16、FP32等不同精度下的灵活和交替使用,即一种混合精度框架。在参数通信的部分过程,DeepSeek也做到了FP8精度的传输。通过这一过程,DeepSeek实现了加速训练和减少GPU内存使用,并「首次在超大规模模型上验证了FP8混合精度训练框架的有效性」。
DeepSeek V3的大量创新都与为克服使用H800而不是H100所带来的内存带宽不足有关。为此,DeepSeek甚至绕过了英伟达的编程工具CUDA,对每块H800芯片上132个处理单元中的20个进行了重新编程,以专门用于管理跨芯片通信。DeepSeek以1/11的算力、仅2000个GPU芯片训练出性能超越GPT-4o的大模型,双方的成本至少是10倍的差距。「性价比」是商业社会中的制胜法宝之一,凭借其惊人的性能表现和低成本训练模式,DeepSeek迅速吸引了全球关注,且热度一直不减。
算力不再是“紧箍咒”?
DeepSeek的出现打破了英伟达等科技巨头的算力路径,走出了另一条路也就是说,提高AI模型能力不再需要那么高昂的门槛了,即不一定要提升很高的参数规模就能实现很高的性能,可能对算力需求至少降到10倍以上。在数据方面,与OpenAI“海量数据投喂”的方式不同,DeepSeek利用算法把数据进行总结和分类,经过选择性处理之后,输送给大模型,提高了训练效率也降低了的成本。
DeepSeek-V3极低的训练成本预示着AI大模型对算力投入的需求将大幅下降,但由经济学家威廉·斯坦利·杰文斯提出的杰文斯悖论:当某种资源的使用效率提高、获取变得更容易时,其总体使用量往往不减反增。DeepSeek的发展也呈现出类似的趋势:算力效率的提升并未减少对算力的需求,反而推动了更多高算力应用的落地,使得行业对算力的需求持续增长。不过短期内,向英伟达大手笔下单的技术公司会变得更谨慎。
与ChatGPT等其他聊天机器人的不同之处在于,DeepSeek的同名聊天机器人在回应用户提问时,会将思维链条(Chain of Thought,CoT)完全展示出来,其作为机器人认真揣摩用户需求、试图将用户所有说出口或隐晦表达的情绪都安慰到位的“内心活动”激发了大量用户的热情。商业的本质在于创造稀缺,无论在人类成员还是AI成员中,共情能力都是稀缺品。
2025年1月20日:发布新一代推理模型DeepSeek-R1,在各项性能与OpenAI的GPT-4o持平,并开源。V3模型和R1系列模型都是基于V3模型的更基础版本V3-Base开发的,相较于V3(类4o)模型,R1(类o1)系列模型进行了更多自我评估、自我奖励式的强化学习作为后训练。在R1之前,业界大模型普遍依赖于RLHF(基于人类反馈的强化学习),但R1系列模型放弃了RLHF中的HF(human feedback,人类反馈)部分,只留下纯粹的RL(强化学习)。
推理成本上,OpenAI o1每百万输入和百万输出token分别收取15美元和60美元,而DeepSeek R1同样输入与输出的价格分别只要0.55美元和2.19美元,差不多只是前者的3%。
国外独立评测机构Artificial Analysis测试了DeepSeek-V3后得出的结论:DeepSeek-V3超越了迄今为止所有开源模型。需要注意的是,对比Android与iOS的生态隔离,开源与闭源大模型均基于Transformer架构,差异是在数据、算法运用、工程等维度,并非是截然不同的技术路线。
由于DeepSeek这次的开源,让行业最领先的水平平权了,会加速推动AI进化的速度,进而推动必要条件的成熟,带来新的应用机会。我们在讨论DeepSeek开源的时候,都指的是LLM大语言模型,但是除了语言模型,AI还有非常重要并行的领域是多模态模型。DeepSeek在近期也发布了图像模型Janus pro,然而效果一般,在多模态的领域,开源还有更长的路要走。
DeepSeek的崛起标志着全球人工智能竞赛的“转折点”,证明中国可以利用更少的资源与大科技公司竞争。DeepSeek发布的较低成本的开源AI模型爆火,这也让OpenAI重新思考,需要“弄清楚另一种开源战略”。外媒表示,尽管不太可能很快看到OpenAI开源其任何模型,但DeepSeek的冲击肯定会让OpenAI有所改变。
OpenAI迎战Deepseek
目前,OpenAI的ChatGPT已坐拥超3亿月活跃用户和超1100万付费用户,收入主要来自ChatGPT付费订阅收入和API接口服务收入。其中,ChatGPT Plus每月收费20美元,ChatGPT Pro每月收费高达200美元,ChatGPT Plus和ChatGPT Pro主要面向个人用户,是OpenAI收入中最大的部分。2024年12月中,OpenAI首席财务官曾透露,OpenAI计划推出一款月订阅费高达2000美元的人工智能产品,称之为AI Agent(AI代理),并将2025年的营收目标从80亿美元上调到120亿美元。
OpenAI在市场上占得了先机,有着全球领先的AI大模型如GPT-4o、o1,可以借助自家闭源AI模型在技术上领先的优势继续发展更多的付费用户。而DeepSeek在AI领域突然半路杀出,可能就会对ChatGPT的付费商业模式带来强烈的冲击。
面对DeepSeek的强势挑战,OpenAI带来了全新产品 —— Deep Research,是一个使用推理来综合大量在线信息并为用户完成多步骤研究任务的智能体,旨在帮助用户进行深入、复杂的信息查询与分析,最终形成一份专业水准的综合报告。为实现这一点,OpenAI针对需要使用浏览器和Python工具的现实任务进行训练,采用的强化学习方法与其首个推理模型o1相同。
这样的能力使得原本需要人类数小时才能完成的研究任务,缩短至三十分钟左右,目前Pro用户现已可用。使用Deep Research非常简单,只需在ChatGPT界面选择“Deep Research”模式,输入研究需求,甚至可以上传参考资料。整个研究过程会实时显示在侧边栏,研究完成后用户会收到通知。
尽管Deep Research展现出强大的功能,但OpenAI也承认其仍存在一些局限性,如信息准确性和报告格式的瑕疵。随着使用量的增加,OpenAI计划不断优化模型,力求解决这些问题。未来的更新中,Deep Research还将支持更多图表和可视化内容的展示,以进一步提升清晰度并提供更多背景信息。OpenAI首席执行官Sam Altman曾表示在人工智能领域,“最重要的进步领域将围绕推理能力展开”,在OpenAI看来,Deep Research功能朝着其开发AGI的宏大目标迈出了重要一步。
虽然英伟达的A100、H100等性能出色,但价格高昂,加之庞大的需求,芯片也就成为了一项巨大的支出,这也促使厂商自研芯片降低成本,减少对英伟达的依赖。最新消息显示,OpenAI正积极推进完成自家首款自研人工智能芯片,并将采用台积电3nm制程工艺,计划2026年实现大规模生产。
目前,OpenAI的内部设计芯片团队有40人,由谷歌的前工程师Richard Ho带领。此外,OpenAI在设计芯片上或将与博通合作。这不仅是对芯片设计的一次实战检验,更是OpenAI向大规模自主芯片生产迈出的关键一步。OpenAI自研的芯片,初期在AI模型的运行中将扮演有限的角色,但同样也具备用于训练AI模型的能力,未来可能用于大模型的训练,如果进展顺利也计划研发性能更强的芯片。
评论