不仅仅是我们:AI 模型也在与过度思考作斗争
大型语言模型 (LLM) 的最新进展极大地提高了它们通过提示答案进行推理的能力。但事实证明,随着他们的推理能力提高,他们越来越多地成为一个相关问题的受害者:分析瘫痪。
本文引用地址:https://www.eepw.com.cn/article/202503/467750.htm来自一个大型团队的最新预印本论文,其中包括来自加州大学伯克利分校的作者;苏黎世联邦理工学院;卡内基梅隆大学;和伊利诺伊大学厄巴纳香槟分校发现,具有推理能力的法学硕士容易过度思考。
换句话说,模型陷入了自己的头脑中。
想得太多是什么意思?
这篇关于过度思考的论文尚未经过同行评审,它将过度思考定义为“模型偏爱扩展的内部推理链而不是环境交互的现象”。
加州大学伯克利分校的研究学者、该论文的合著者亚历杭德罗·夸德隆 (Alejandro Cuadrón) 将决策这一非常人性化的问题进行了类比,而决策结果却没有确定性。
“当我们真的没有足够的信息时会发生什么?”“如果你问自己越来越多的问题,只是自言自语......在最好的情况下,我会意识到我需要更多信息。在最坏的情况下,我会得到错误的结果。
为了测试最新的 AI 模型如何处理这种情况,Cuadrón 和他的同事们让领先的推理 LLM(也称为大型推理模型,简称 LRM),例如 OpenAI 的 o1 和 DeepSeek-R1,在流行的软件工程基准测试中解决问题。模型必须使用 OpenHands 代理平台查找错误并设计解决方案。
Cuadrón 说,结果表明,模型的一般智能水平与其成功推理解决问题的能力之间存在联系。
结果如何虽然最好的推理模型总体表现良好,但发现推理模型过度思考的频率几乎是非推理模型的三倍。模型越是思考过度,它解决的问题就越少。平均而言,推理模型在过度思考方面每增加一个单位的成功率就会降低 7.9%。
基于参数相对较少的 LLM 的推理模型,例如阿里巴巴的 QwQ-32B(有 320 亿个参数),特别容易过度思考。QwQ、DeepSeek-R1 32B 和 Sky-T1-R 的过度思考得分最高,它们在解决任务方面并不比非推理模型更成功。
Cuadrón 说,这表明模型的总体智能水平与其成功推理解决问题的能力之间存在联系。
“我认为模型大小是关键因素之一,因为模型大小导致了'智能性',可以这么说,”Cuadron 说。“为了避免过度思考,模型必须与环境交互并理解环境,并且必须了解其输出。”
想得太多是一个代价高昂的错误
从人类的角度来看,AI 过度思考是一个有趣的问题,因为它反映了我们经常挣扎的心理状态。但 LLM 当然是计算机系统,这意味着过度思考会产生不同的后果。
最明显的是计算成本增加。推理 LLM 本质上是促使自己对问题进行推理,这反过来又会产生更多的令牌,并使昂贵的硬件(例如 GPU 或张量处理单元)保持占用。理由越多,成本就越高。
Cuadrón 和他的同事发现,以高推理工作量运行 OpenAI 的 o1 可能成本高达 1,400 美元,而低推理配置则使成本降至 800 美元。尽管存在这一差距,但这些模型在软件工程基准测试中的表现几乎相同。OpenAI o1-high 解决了 29.1% 的问题,而 o1-low 解决了 27.3% 的问题。
研究人员还发现,多次运行 o1-low 并选择最佳输出的效果优于 o1-high,但事实证明更具成本效益。低推理模型的较低成本意味着与 o200-high 相比,该技术节省了 1 美元。
这些结果表明,优化推理模型的空间很大,而对问题进行更多推理并不总是最佳解决方案。
还有更多需要考虑
有趣的是,该论文发现,与其他测试的推理模型不同,DeepSeek-R1 671B 相对于 R1 所基于的非推理模型 DeepSeek-V3 671B 并没有过度思考。这使 R1 取得了健康的结果。它击败了 DeepSeek-V3,在所有测试的模型中达到了第三高的成功率,并在推理模型中获得了第二高的分数。
Cuadrón 推测,这一结果是由于 DeepSeek 如何训练模型。虽然大规模强化学习是其训练的关键,但该技术并未专门用于训练软件工程任务的模型。“这意味着,当模型面临软件工程任务时,它不会有太多的推理,而是更愿意与环境进行更多交互,”他说。
该论文明确指出,当 LRM 仅使用成功完成任务所需的推理时,它们的效率会更高。但是,究竟如何训练模型在各种任务中使用恰到好处的推理呢?
这仍有待解决。该论文的合著者希望他们可以通过将评估框架和数据集开源来帮助更广泛的研究界解决 LLM 中的过度思考问题。完整的数据集以及用于量化过度思考的方法可在 GitHub 上找到。
评论