AI聊天机器人能像医生一样推理吗？

作者：时间：2026-05-15 来源：

核心要点

医学计算最早目标之一，就是辅助临床推理—— 即诊断、制定治疗方案的决策过程。过去，临床决策支持系统多为专用规则引擎，人工编写症状、阈值、用药交互规则。如今 AI 能力提升，大语言模型自然成为临床推理新工具。

4 月 30 日《科学》发表研究：OpenAI 大语言模型（LLM）在真实急诊记录的多项临床推理任务中，表现优于人类医生。

这项研究正值争议期：部分研究显示 AI 诊断出色，另一些则发现编造引用、建议错误、评分结果不稳定。尽管不确定性仍在，面向医疗的 AI 产品已上市，如 OpenAI 今年推出临床版 ChatGPT、医疗版 ChatGPT。

研究使用 o1-preview 模型（已更新换代），作者建议：真实场景中，在关键节点让医生用 AI 辅助二次诊断。

纽约西奈山医学院医学影像研究专家Mickael Tordjman：“需更多前瞻性临床试验证据，新一代医疗专用 LLM 可能表现更好。”

《科学》论文作者虽看好 AI 医疗潜力，也强调局限性，担忧研究被误读。哈佛医学院 AI 研究专家Arjun Manrai：“AI不会取代医生。”

波士顿贝斯以色列医疗中心医学教育专家Adam Rodman：“成果很棒，但对滥用风险感到不安。”

医疗 AI 靠谱吗？

多项研究质疑 AI 医疗可信度：5 款主流聊天机器人回答开放性健康问题时，近半回复存在缺陷，编造信息、引用，且错误回答也极度自信。

哈佛医学院Arya Rao：“AI 已被日常使用，风险未量化、未管控。”

普通用户咨询、医生辅助是完全不同场景：医生能更好判断信息价值、识别错误，但AI 幻觉极难识破 ——Rodman：“对错都一样自信，需建立低错工作流。”

研究对比 2 名医生、2 款 LLM 在急诊不同阶段的诊断表现。

评估标准无共识

4 月 13 日《美国医学会杂志》（JAMA）研究：Rao 测试 21 款 LLM，最终诊断准确率高，但鉴别诊断评分极低—— 只因评估标准不同。

鉴别诊断需列出所有可能病因：LLM 答对 6/7 种病因，可算 86% 合格，也可判定完全失败。行业尚无统一评分标准。

Tordjman：“评估方法仍在探索，无完美方案。”

真实世界测试

《科学》研究用多组模拟病例（类似医学难题），指令含冗余 / 关键信息，测试 AI 诊断能力。

Rodman：“研究证明真实场景有效，76 例真实急诊显示：最终诊断准确率 AI 达 82%，两位医生分别 79%、70%。”

LLM 问世不足十年，迭代速度远超医学研究周期，监管、责任划分仍空白。Manrai：“关键不是‘AI vs 医生’，而是人机如何协同。”

哈佛 Rao：“AI 发展迅猛，谨慎、评估、创新并重，负责任创新才是正道。”

新闻中心