GPT-4作为医疗聊天机器人的优势与潜在风险

人工智能(AI)在医学中的应用领域随着技术的更迭不同增长和扩展,例如医学影像分析、药、物相互作用检测、高危患者的识别以及医疗记录编码。除了这几种高频用途之外,医疗AI聊天机器人的发展和应用也逐渐收到科技、临床工作者的广泛关注。而由由美国开放人工智能研究中心(OpenAI)研发的大型语言模型ChatGPT应用AI深度学习海量、多类型数据,训练处理自然语言文本能力,能够像人类一样理解、交流问题,并自动生成流畅、准确的回答。而通过更多的医学专业数据训练,未来它有可能像医生一样为患者提供更全面和高质量的医学建议,那么,目前最新的版本GPT-4又将为医疗模式带来哪些改变呢?

2023年3月30日,新英格兰杂志(NEJM)编辑Jeffrey M. Drazen等人在最新一期杂志的“AI in Medicine”专刊中以Benefits, Limits, and Risks of GPT-4 as an AI Chatbot for Medicine” 为题,对当下正火的ChatGPT-4发表评论(Special Report),探讨了其作为医疗聊天机器人的优劣和风险,并对其在未来医疗研究和治疗过程中的应用进行展望。

01聊天机器人技术

聊天机器人通常由两个主要组件组成:包括通用AI系统和聊天界面。为了使用聊天机器人,人们首先要用简单的自然语言输入一个查询从而开始一个“会话”,然后聊天机器人将根据 输入内容以自然语言的方式给出“回应”,这个过程将贯穿整个会话过程,其整体效果非常像两个人之间的对话(如图1所示)。同时,AI系统跟踪正在对话上下文的能力有助于使对话更加流畅和准确。

目前使用的聊天机器人对输入的形式和措辞的选择非常敏感。虽然未来的人工智能系统可能对提示符中使用的精确语言更加稳健,但目前,需要谨慎地开发和测试提示信息以产生最佳结果。如果一个输入是一个具有确切答案的问题或请求,例如,互联网上具有文档信息,或者仅是简单的逻辑或数学计算,GPT-4产生的回答几乎总是正确的。然而,当用户输入没有单一正确答案的输入时,GPT-4可能无法准确地回答问题,但它并没有承认自己的局限。相反,它仍然以一种令人信服的方式进行陈述(即“一本正经的胡说八道”),以至于提出查询的人可能会相信它的真实性。这种错误在医疗场景中可能特别危险,影响相应的判断结果或临床决策。因此,尽管GPT-4能够具有一定的纠错机制,人为检查或验证GPT-4的输出结果是非常必要的。

02聊天机器人和医疗应用

Open AI在微软的支持下,一直在开发一系列日益强大的A I系统如GPT-4 的前身系统GPT-3.5,其中GPT -4是截至2023年3月公开发布的最先进的AI系统。在过去的6个月里,微软研究院与OpenAI一直在探索GP T-4 在医疗保健和医疗应用中的可能用途,以便更好地了解其基本功能、局限性以及对人类健康的风险。具体领域包括医疗信息记录、医学信息查询、诊断研究和医疗教育方面的应用 。

需要注意的是,GPT- 4并不是为特定任务而开发,比如读取图像或分析医疗记录。相反,它被开发为具有一般的认知技能,目标是帮助用户完成许多不同的任务。提示可以是问题的形式,但也可以是执行特定任务的指令,比如“请阅读并总结这篇医学研究文章”。此外,提示符不局限于英文,它们可以用许多不同的人类语言编写,并且可以包含电子表格、技术规范、研究论文和数学方程等数据输入 。

另外,GPT-4 并没有专门为医疗保健或医疗应用数据进行训练,因为它们的训练方案的目标一直是获得通用认知能力。因此,这些系统完全是在从互联网上的开放资源获得的数据上进行训练的,比如公开可用的医学文本、研究论文、卫生系统网站,以及公开可用的健康信息播客和视频。训练数据中并不包括任何私人限制的数据,例如在医疗机构的电子健康记录系统中发现的数据,或者仅存在于医学院或其他类似组织的专用网络上的医疗信息。因此,这些训练数据的容量和类型也对于AI系统在医疗应用中表现出能力程度的差异。

应用1:医疗信息记录

在第一个示例中,研究人员测试了GPT-4根据医患接触的记录编写医疗记录的能力 (图2)。在患者知情同意后,GPT-4程序通过接收提供者与患者之间的交互行为(即通过扬声器“输入”为其提供患者的声音),然后为患者的聊天记录生成“医疗记录”。根据信息,GPT-4除了可以提供医疗信息记录与注释之外,还可以提示有关就诊的问题、生成符合标准的实验室和处方订单、编写就诊后总结,并向临床医生和患者提供关键反馈。

然而,在部分内容中, GPT-4并没有具体提到营养不良或心脏并发症的迹象,虽然临床医生已经认识到这些迹象,但在医疗记录中没有关于这些问题的内容,而这些信息对于确定诊断结果是非常重要的。此外,人工智能系统能够建议对相关检测提供更多细节的需求,以及提出检测理由。这种机制和其他处理遗漏和错误的机制应该纳入未来GPT-4应用程序的临床部署之中。

2.医学百科全书

尽管GPT-4只接受了互联网上公开的信息训练,但当它得到美国执业医师资格考试(USMLE)的一系列测试问题时,它的正确率超过90%。图3显示了USMLE的一个典型问题,以及GPT-4的回应,其中GPT-4解释了其推理,引用了已知的医学事实,指出了因果关系,排除了其他提出的答案,并为其“意见”提供了令人信服的理由。

03医疗决策咨询

在GPT-4中编码的医学知识可用于咨询、诊断和教育中的各种任务。当提供典型的咨询问题(如关于病人最初情况的信息或实验室检测结果的摘要)时,GPT-4通常能够提供有用的回答,可能有助于卫生专业人员解决所关注的问题。由于该系统的交互性,用户可以通过询问后续问题或要求更简洁的回答来要求有关响应的更详细信息,以便更快地“切入重点”。这使得GPT-4不仅在临床环境中有用,而且在研究中也有用。GPT-4可以阅读医学研究材料,并对其进行有根据的讨论,如简要总结内容,提供技术分析,确定相关的先前工作,评估结论,并提出可能的后续研究问题。

研究人员期待以GPT-4为代表的聊天机器人,作为一项正在进行的工作继续发展。尽管GPT-4非常强大,但它也有不可忽略的局限性。正因为如此,人们应该如何评估GPT-4这样的工具的总体智能呢? 用户可以在多大程度上“信任”GPT-4,或者读者需要花时间验证它所写内容的真实性吗?  GPT-4能在多大程度上帮助完成上述应用?这些问题和其他问题无疑将成为医学界和非专业人士争论的主题

也许最重要的一点是,GPT-4本身并不是目的。它为新的可能性和新的风险打开了一扇门。研究人员推测GPT-4将很快被更强大和更有能力的人工智能系统所取代——一系列越来越强大和普遍智能的机器。就如同所有的工具一样,这些机器可以用来做好事,但也有可能造成伤害。如果谨慎使用,这些不断发展的工具有可能帮助卫生保健提供者提供尽可能最好的帮助。AI医疗聊天机器人将被医疗专业人员和患者广泛使用,而且频率会越来越高,并将为促进医疗保健和医学方法快速发展方面做出巨大贡献。

作者:Nino陈嘉鋆编辑人:💧Transparent来源:医药速览 2023-04-05

-- THE END --