新闻中心

EEPW首页 > 智能计算 > 设计应用 > AI聊天机器人能像医生一样推理吗?

AI聊天机器人能像医生一样推理吗?

作者: 时间:2026-05-15 来源: 收藏

核心要点

  • Open 大语言模型(LLM)在真实急诊病例的临床任务中表现超越医生。

  • 研究界对 临床的评估标准尚无共识,结果解读差异巨大。

  • 存在编造信息、幻觉等风险,但人机协同是未来方向。

医学计算最早目标之一,就是辅助临床—— 即诊断、制定治疗方案的决策过程。过去,临床决策支持系统多为专用规则引擎,人工编写症状、阈值、用药交互规则。如今 AI 能力提升,大语言模型自然成为临床推理新工具。

4 月 30 日《科学》发表研究:OpenAI 大语言模型(LLM)在真实急诊记录的多项临床推理任务中,表现优于人类医生。

这项研究正值争议期:部分研究显示 AI 诊断出色,另一些则发现编造引用、建议错误、评分结果不稳定。尽管不确定性仍在,面向医疗的 AI 产品已上市,如 OpenAI 今年推出临床版 ChatGPT、医疗版 ChatGPT。

研究使用 o1-preview 模型(已更新换代),作者建议:真实场景中,在关键节点让医生用 AI 辅助二次诊断。

纽约西奈山医学院医学影像研究专家Mickael Tordjman:“需更多前瞻性临床试验证据,新一代医疗专用 LLM 可能表现更好。”

《科学》论文作者虽看好 AI 医疗潜力,也强调局限性,担忧研究被误读。哈佛医学院 AI 研究专家Arjun Manrai:“AI不会取代医生。”

波士顿贝斯以色列医疗中心医学教育专家Adam Rodman:“成果很棒,但对滥用风险感到不安。”

医疗 AI 靠谱吗?

多项研究质疑 AI 医疗可信度:5 款主流回答开放性健康问题时,近半回复存在缺陷,编造信息、引用,且错误回答也极度自信。

哈佛医学院Arya Rao:“AI 已被日常使用,风险未量化、未管控。”

普通用户咨询、医生辅助是完全不同场景:医生能更好判断信息价值、识别错误,但AI 幻觉极难识破 ——Rodman:“对错都一样自信,需建立低错工作流。”

研究对比 2 名医生、2 款 LLM 在急诊不同阶段的诊断表现。

评估标准无共识

4 月 13 日《美国医学会杂志》(JAMA)研究:Rao 测试 21 款 LLM,最终诊断准确率高,但鉴别诊断评分极低—— 只因评估标准不同。

鉴别诊断需列出所有可能病因:LLM 答对 6/7 种病因,可算 86% 合格,也可判定完全失败。行业尚无统一评分标准。

Tordjman:“评估方法仍在探索,无完美方案。”

真实世界测试

《科学》研究用多组模拟病例(类似医学难题),指令含冗余 / 关键信息,测试 AI 诊断能力。

Rodman:“研究证明真实场景有效,76 例真实急诊显示:最终诊断准确率 AI 达 82%,两位医生分别 79%、70%。”

LLM 问世不足十年,迭代速度远超医学研究周期,监管、责任划分仍空白。Manrai:“关键不是‘AI vs 医生’,而是人机如何协同。”

哈佛 Rao:“AI 发展迅猛,谨慎、评估、创新并重,负责任创新才是正道。”



评论


相关推荐

技术专区

关闭