戴上 DIY 的智能手环，你看如何？ ADI参考电路合集等技术资料精选一起来了解太阳诱电高可靠性元件吧更新的安森美储能、电动汽车技术看这里>>

我要投稿 | 手机版

首页　资讯　商机　下载　拆解　高校　招聘　杂志　会展　 EETV　百科　问答　电路图　工程师手册　 Datasheet　 100例　活动中心　 E周刊阅读　样片申请

EEPW首页 >> 主题列表 >> 大语言模型

大语言模型文章最新资讯

AI 颠覆者 DeepSeek 的下一代模型因 Nvidia GPU 对中国出口限制而延迟——AI GPU 短缺阻碍开发

（图片来源：英伟达）DeepSeek 凭借其今年的 R1 AI 模型吸引了大量关注，但似乎下一代 R2 模型的开发因中国 Nvidia H20 处理器的短缺而停滞，据信息报道。DeepSeek 本身尚未评论其 R2 模型的发布时间。DeepSeek 使用由其投资者 High-Flyer Capital Management 获得的包含 50,000 个 Hopper GPU 的集群——其中包括 30,000 个 H20、10,000 个 H800 和 10,000 个 H100——
关键字： DeepSeek AI 大语言模型 GPU 英伟达

特朗普的 AI 顾问：中国在芯片设计方面最多落后美国两年

根据彭博社，白宫加密货币和人工智能负责人大卫·萨克斯表示，中国在半导体设计方面最多落后美国两年，并且越来越擅长规避美国的出口管制。萨克斯警告说，美国应该关注华为迅速缩小与全球竞争对手的差距，并引用了 DeepSeek 最近突破的人工智能模型作为证据，表明中国尽管受到限制，但仍在不断进步。正如彭博社补充的那样，他指出在 DeepSeek 推出之前，人们普遍认为中国落后了好几年——但 DeepSeek 的崛起表明，现在差距可能只有几个月。他还批评了拜登政府的人工智能扩散规则——特朗普政府上个月已撤销该规则——
关键字： AI 智能计算大语言模型

越来越多的员工在使用人工智能，但企业仍然难以使其变得有用

GenAI 在工作场所的使用正在飞速发展。盖洛普和 Salesforce AI 研究发布了两份新报告，描绘了组织及其员工适应这一技术转变时日益增长的热情和持续的挑战。这些研究共同揭示了一个核心主题：虽然 AI 比以往任何时候都更广泛地被接受，但其在承诺与实际表现之间的差距仍然是企业和员工共同面临的一个重大障碍。盖洛普最新的研究发现，过去两年中，美国员工使用 AI 的频率几乎翻了一番。2023 年，只有 21%的工人报告称每年至少使用几次 AI；到 2025 年，这一数字飙升至 40%。频繁使用——定义为每
关键字： AI 智能计算大语言模型

分析发现，“推理”人工智能模型的改进可能会很快放缓

非营利性人工智能研究机构Epoch AI的一项分析表明，人工智能行业可能无法通过推理人工智能模型获得巨大的性能提升。根据报告的调查结果，在一年内，推理模型的进展可能会放缓。近几个月来，OpenAI的o3等推理模型在人工智能基准上取得了重大收益，特别是衡量数学和编程技能的基准。这些模型可以将更多的计算应用于问题，这可以提高其性能，但缺点是它们比传统模型需要更长的时间来完成任务。推理模型是通过首先在大量数据上训练常规模型，然后应用一种称为强化学习的技术来开发的，这有效地为模型提供了对其难题解决方案的“反馈”。
关键字： AI 智能计算大语言模型

Arm平台成功适配阿里开源模型Qwen3

近日，阿里巴巴开源了新一代通义千问模型Qwen3，Arm成为首批适配该模型的计算平台厂商。双方的合作不仅推动了AI技术在端侧设备上的应用，还为开发者提供了更高效的解决方案。据官方消息，Arm面向AI框架开发者的开源计算内核KleidiAI已与阿里巴巴的轻量级深度学习框架MNN深度集成。得益于此，Qwen3系列中的三款模型（Qwen3-0.6B、Qwen3-1.7B及Qwen3-4B）能够在搭载Arm架构CPU的移动设备上无缝运行，展现出卓越的端侧AI推理能力。作为阿里巴巴最新发布的混合推理模型，Qwen3
关键字：阿里巴巴 Arm AI 大语言模型

DeepSeek大胆披露：理论利润率高达545%！

3月1日消息，今日，DeepSeek正式在知乎平台开设了其官方账号，并发布了一篇名为《DeepSeek-V3/R1推理系统概览》的技术文章。在这篇文章中，DeepSeek首次向公众详细公布了其模型推理系统的优化细节，同时披露了成本利润率的关键信息。据文章介绍，DeepSeek在推算成本时，假定GPU租赁成本为2美金/小时，据此计算出总成本为87,072美金/天。而在收入方面，如果所有tokens都按照DeepSeek R1的定价进行计算，那么理论上一天的总收入可以达到562,027美金。基于这些数据，De
关键字： DeepSeek AI 大语言模型人工智能

美银：DeepSeek可能加速中国车企自动驾驶技术研发

快科技2月17日消息，据报道，美银证券的分析师在一份研究报告中写道，DeepSeek可能会加速中国汽车生产商自动驾驶技术的开发。他们表示，DeepSeek的开发逻辑与自动驾驶有一定相似之处，可能对未来自动驾驶技术的开发产生影响。DeepSeek的方法可以增强自动驾驶解决方案公司的多模态能力，帮助这些公司更好地理解道路场景，并在复杂的道路条件下提供更强大的性能。分析师指出，这在处理复杂场景时，所需的额外计算能力投入也减少了。一些大型汽车生产商已将DeepSeek纳入自身的自动驾驶模型，规模较小的公司未来也可
关键字： DeepSeek AI 大语言模型人工智能自动驾驶

谷歌 DeepMind 发布 WebLI-100B：千亿级数据集解锁 AI 视觉语言模型的文化多样性

2 月 14 日消息，科技媒体 marktechpost 昨日（2 月 13 日）发布博文，报道称谷歌 DeepMind 团队发布了 WebLI-100B 千亿级数据集，并通过增强文化多样性和多语言性，以及减少子组之间的性能差异来提高包容性。目前挑战注：机器通过学习大型数据集来连接图像和文本，数据越多，模型识别模式和提高准确性的能力就越强。视觉语言模型 (VLMs) 依赖这些数据集执行图像字幕和视觉问答等任务。视觉语言模型目前依赖于 Conceptual Captions 和 LAION 等大型数据集，包
关键字： AI 智能计算大语言模型

国产大模型 DeepSeek-V3 开源：6710 亿参数自研 MoE，性能和 GPT-4o 不分伯仲

12 月 27 日消息，“深度求索”官方公众号昨日（12 月 26 日）发布博文，宣布上线并同步开源 DeepSeek-V3 模型，用户可以登录官网 chat.deepseek.com，与最新版 V3 模型对话。援引博文介绍，DeepSeek-V3 是一个 6710 亿参数的专家混合（MoE，使用多个专家网络将问题空间划分为同质区域）模型，激活参数 370 亿，在 14.8 万亿 token 上进行了预训练。多项评测成绩超越 Qwen2.5-72B 和 Llama-3.1-405B 等开源模型，
关键字： DeepSeek-V3 AI 大语言模型人工智能

AI“军备竞赛”再提速！亚马逊(AMZN.US)推出全新芯片阵列和大语言模型

智通财经获悉，亚马逊(AMZN.US)正在扩大其人工智能产品阵容，推出了功能强大的新芯片阵列和大型语言模型，并称其可以与主要竞争对手竞争。这家总部位于西雅图的公司正在将数十万个Trainium2半导体组装成集群，这将使合作伙伴Anthropic更容易训练生成式人工智能和其他机器学习任务所需的大型语言模型。亚马逊表示，新阵列将使这家初创公司目前的处理能力提高五倍。亚马逊在其年度re:Invent大会上表示，云服务部门AWS于周二开始向客户提供最新芯片。另外，亚马逊首席执行官Andy Jassy介绍了一款名为
关键字： AI 亚马逊 AMZN.US 芯片阵列大语言模型

Gartner：中国大语言模型价格战推动人工智能加速上云

Gartner研究表明，随着时间的推移和价格的持续下降，以及云部署在敏捷性、创新速度和生态系统方面的优势，中国企业的人工智能（AI）部署将逐步从本地转向云端。Gartner预测，到2027年，中国的全部AI推理工作负载中，基于云的工作负载占比将从前的20%上升至80%。Gartner高级研究总监方琦表示：“多家中国生成式人工智能（GenAI）厂商，其大语言模型应用编程接口（API）的推理成本已经降低了90%以上，有力地推动了企业地GenAI采用。企业数据和分析（D&A）领导者应积极评估相关影响，并
关键字： Gartner 大语言模型价格战

加速基于 Arm Neoverse N2 的大语言模型推理

人工智能 (AI) 正在众多行业掀起浪潮，尤其是在大语言模型 (LLM) 问世后，AI 发展呈现井喷之势。LLM 模型不仅极大改变了我们与技术的交互方式，并且在自然语言理解和生成方面展现出了惊人的能力。虽然 GPU 在训练生成式 AI 模型方面发挥了重要作用，但在推理领域，除了 GPU 和加速器之外，还有其他可行的选择。长期以来，CPU 一直被用于传统的 AI 和机器学习 (ML) 用例，由于 CPU 能够处理广泛多样的任务且部署起来更加灵活，因此当企业和开发者寻求将 LLM 集成到产品和服务中时，CPU
关键字： Arm Neoverse 大语言模型

口袋 AI 设备 Rabbit R1 身陷负面漩涡：API 被曝漏洞，可暴露用户信息

IT之家 6 月 27 日消息，Rabbit R1 再次陷入舆论漩涡，继 App 被批评套壳安卓，主推的大动作模型 LAM 依赖 OpenAI 接口之外，其 API 被曝存在安全漏洞，有泄露用户数据的风险。Rabbit R1 亮相于今年 CES 大展，其定位为口袋 AI 设备，这款产品拥有 2.88 英寸触摸屏、一个可旋转摄像头和一个交互滚轮，搭载 Rabbit 自研操作系统。该设备最大的亮点在于内置“大型操作模型（Large Action Model，LAM）”，堪称“万能应用控制器”，无需使
关键字： Rabbit R1 AI 大语言模型

中国电信发布全球首个单体稠密万亿参数语义模型 Tele-FLM-1T

IT之家 6 月 19 日消息，中国电信人工智能研究院（TeleAI）和智源研究院联合发布全球首个单体稠密万亿参数语义模型 Tele-FLM-1T，该模型与百亿级的 52B 版本，千亿级的 102B 版本共同构成 Tele-FLM 系列模型。TeleAI 和智源研究院基于模型生长和损失预测等技术，Tele-FLM 系列模型仅使用了业界普通训练方案 9% 的算力资源，基于 112 台 A800 服务器，用 4 个月完成 3 个模型总计 2.3T tokens 的训练。模型训练全程做到了零调整零重试
关键字： LLM AI 大语言模型

ISEDA首发！大语言模型生成的代码到底好不好使

在大模型席卷一切、赋能百业的浪潮里，“码农”也没能独善其身。各种代码自动生成的大模型，似乎描绘了一个人人都能像资深工程师一样写代码的美好未来。但在这个理想成为现实之前，有一个不能回避的问题 — 这些自动生成的代码真的有效吗？大模型也会犯错，我们肯定不希望把看似正确的错误结果交给用户，所以需要一个能精确验证模型生成答案的考官。近期，芯华章提出了一种对大模型生成代码形式化评估的方法，称为FormalEval。它能自动化检査生成代码的质量，无需手动编写测试用例。经过测试，FormalEval
关键字： ISEDA 大语言模型代码生成芯华章

共22条 1/2 1 2 »

大语言模型介绍

您好，目前还没有人创建词条大语言模型!
欢迎您创建该词条，阐述对大语言模型的理解，并与今后在此搜索大语言模型的朋友们分享。创建词条

大语言模型专栏文章

如何使用PyTorch训练LLM

热门主题

树莓派 linux

关于我们 - 广告服务 - 企业会员服务 - 网站地图 - 联系我们 - 征稿 - 友情链接 - 手机EEPW
Copyright ©2000-2015 ELECTRONIC ENGINEERING & PRODUCT WORLD. All rights reserved.
《电子产品世界》杂志社版权所有北京东晓国际技术信息咨询有限公司

京ICP备12027778号-2 北京市公安局备案：1101082052 京公网安备11010802012473