AI聊天机器人能像医生一样推理吗?
核心要点
医学计算最早目标之一,就是辅助临床推理—— 即诊断、制定治疗方案的决策过程。过去,临床决策支持系统多为专用规则引擎,人工编写症状、阈值、用药交互规则。如今 AI 能力提升,大语言模型自然成为临床推理新工具。
4 月 30 日《科学》发表研究:OpenAI 大语言模型(LLM)在真实急诊记录的多项临床推理任务中,表现优于人类医生。
这项研究正值争议期:部分研究显示 AI 诊断出色,另一些则发现编造引用、建议错误、评分结果不稳定。尽管不确定性仍在,面向医疗的 AI 产品已上市,如 OpenAI 今年推出临床版 ChatGPT、医疗版 ChatGPT。
研究使用 o1-preview 模型(已更新换代),作者建议:真实场景中,在关键节点让医生用 AI 辅助二次诊断。
纽约西奈山医学院医学影像研究专家Mickael Tordjman:“需更多前瞻性临床试验证据,新一代医疗专用 LLM 可能表现更好。”
《科学》论文作者虽看好 AI 医疗潜力,也强调局限性,担忧研究被误读。哈佛医学院 AI 研究专家Arjun Manrai:“AI不会取代医生。”
波士顿贝斯以色列医疗中心医学教育专家Adam Rodman:“成果很棒,但对滥用风险感到不安。”
医疗 AI 靠谱吗?
多项研究质疑 AI 医疗可信度:5 款主流聊天机器人回答开放性健康问题时,近半回复存在缺陷,编造信息、引用,且错误回答也极度自信。
哈佛医学院Arya Rao:“AI 已被日常使用,风险未量化、未管控。”
普通用户咨询、医生辅助是完全不同场景:医生能更好判断信息价值、识别错误,但AI 幻觉极难识破 ——Rodman:“对错都一样自信,需建立低错工作流。”
研究对比 2 名医生、2 款 LLM 在急诊不同阶段的诊断表现。
评估标准无共识
4 月 13 日《美国医学会杂志》(JAMA)研究:Rao 测试 21 款 LLM,最终诊断准确率高,但鉴别诊断评分极低—— 只因评估标准不同。
鉴别诊断需列出所有可能病因:LLM 答对 6/7 种病因,可算 86% 合格,也可判定完全失败。行业尚无统一评分标准。
Tordjman:“评估方法仍在探索,无完美方案。”
真实世界测试
《科学》研究用多组模拟病例(类似医学难题),指令含冗余 / 关键信息,测试 AI 诊断能力。
Rodman:“研究证明真实场景有效,76 例真实急诊显示:最终诊断准确率 AI 达 82%,两位医生分别 79%、70%。”
LLM 问世不足十年,迭代速度远超医学研究周期,监管、责任划分仍空白。Manrai:“关键不是‘AI vs 医生’,而是人机如何协同。”
哈佛 Rao:“AI 发展迅猛,谨慎、评估、创新并重,负责任创新才是正道。”















评论