2025-07-01 14:00来源:会员发布
在奥地利维也纳举行的欧洲呼吸学会(ERS)大会上,最新研究表明,聊天机器人ChatGPT在处理囊性纤维化、哮喘及胸部感染等复杂呼吸道疾病案例时,表现优于实习医生[1]。
研究还发现,谷歌的聊天机器人巴德在某些方面的表现超越了受训医生,而微软的必应聊天机器人则与受训医生的表现相当。
研究结果显示,这些大型语言模型(LLMs)能够帮助实习医生、护士和全科医生更迅速地对患者进行分类,从而减轻医疗服务的负担。
这项研究由爱丁堡皇家儿童和青少年医院的儿科肺病学顾问、英国爱丁堡大学名誉高级临床讲师Manjith Narayanan博士进行。他表示:“像ChatGPT这样的语言模型在过去一年半中逐渐崭露头角,似乎能够理解自然语言,并提供类似人类对话的回应。”他提到,这些工具在医学领域有多种潜在应用,进行这项研究的目的是评估法学硕士在实际临床中的帮助。
为此,Narayanan博士使用了儿科呼吸医学中常见的临床场景,这些场景由六位儿科呼吸医学专家提供,涵盖囊性纤维化、哮喘、睡眠呼吸障碍、呼吸困难和胸部感染等主题。这些情况均没有明确的诊断,也没有公开的证据、指南或专家共识指向具体的诊断或治疗方案。
10名在儿科临床经验不足4个月的实习医生被给予一个小时的时间,使用互联网(而非聊天机器人)以200到400个单词的描述性答案来解决每个场景。同时,这些场景也被呈现给三款聊天机器人。
所有回答由六位儿科呼吸专家根据正确性、全面性、有用性、合理性和一致性进行评分。他们还被要求判断每个回答是由人类还是聊天机器人生成,并为每个回答打分(满分9分)。
ChatGPT 3.5版提供的解决方案平均得分为7分(满分9分),被认为更接近人类的回答。巴德的平均得分为6分(满分9分),在“条理清晰”方面超过了实习医生,但在其他方面与实习医生的表现相当。必应的平均得分为4分(满分9分),与实习医生的总体得分一致。专家们认为必应和巴德的回答并非人类所作。
Narayanan博士表示:“据我们所知,这是首次在反映真实临床实践的情况下对法学硕士和实习医生进行测试。我们通过允许实习医生完全访问互联网上的资源,模拟他们在现实生活中的工作。这将注意力从记忆测试转移开,而记忆测试对LLM来说是一个明显的优势。因此,这项研究展示了法学硕士的另一种使用方式,以及我们距离常规临床应用的距离。”
“我们尚未直接测试法学硕士在面对患者时的作用,但它可以被分诊护士、实习医生和初级保健医生使用,他们通常是首个接触患者的人。”
研究人员没有发现明显的“幻觉”(即虚构信息)的例子。Narayanan博士补充道:“尽管在我们的研究中没有观察到法学硕士产生幻觉的实例,但我们需要意识到这种可能性,并采取相应的缓解措施。”必应、巴德和实习医生偶尔会给出被认为与上下文无关的答案。
Narayanan博士及其同事们目前计划在更有经验的医生中测试聊天机器人,并研究更新、更高级的法学硕士。
希拉里·平诺克(Hilary Pinnock)是ERS教育委员会主席,也是英国爱丁堡大学初级保健呼吸医学教授,她并未参与这项研究。她表示:“这是一项引人注目的研究。看到像ChatGPT这样广泛使用的人工智能工具如何为复杂的儿童呼吸道疾病案例提供解决方案,令人鼓舞,但也可能有些令人担忧。它无疑为人工智能支持医疗的美好新世界指明了方向。”
然而,正如研究人员所指出的,在我们开始在常规临床实践中使用人工智能之前,必须确保它不会通过“幻觉”提供虚假信息,或因其训练数据未能公平代表我们所服务的人群而产生错误。正如研究人员所证明的,人工智能有望成为一种新的工作方式,但在将这项技术应用于日常护理之前,我们需要对临床准确性和安全性进行广泛测试,务实评估组织效率,并探索其社会影响。”