【神麻人智】AI大语言模型在麻醉学中的临床知识和推理能力:一项针对ABA考试的比较研究
2024-10-18 古麻今醉网 古麻今醉网 发表于上海
通过分析模型在这项考试中的表现,我们可以更好地理解它们在高度专业化和多功能医疗场景中的潜在应用,从而深入洞察LLMs在医学领域的优势和局限性。
近年来,人工智能(AI)以机器学习、特别是深度学习的形式,在计算能力和大数据的推动下,得到显著发展。AI具有提高准确性和加快诊断的潜力,已被应用在许多医学领域,包括放射学、病理学和基因组学。例如,通过医学图像和视频早期筛查疾病例如癌症,预测疾病可能性,或基于患者基因图谱制订个体化治疗计划。此外,基于AI的大语言模型(LLMs)经过庞大文本语料库的训练,现在能够在几乎任何主题上流畅地生成高质量文本和软件编程语言,为医疗保健的转型提供了新的机会。但是LLMs在医学上的知识和推理能力如何?既往一项研究探讨了它们在一般医学知识任务中的潜力。在这里,我们评估它们在麻醉专科医学背景下的临床知识和推理能力。
大多数LLMs使用被称为转换器的神经网络架构,该架构包含用于处理输入序列的注意力机制。更确切地说,文本首先被细分为“词元(tokens)”小单位,例如表示单词、标点符号、词根、后缀等。注意力机制的工作原理是将模型的“注意力”引导到输入序列的不同词元上。这是通过为输入序列中的每个词元分配一个权重来实现的,该权重是基于输入序列本身内的元素之间以及与生成的元素之间的上下文关系计算出来的。然后,模型使用这些权重来确定每个词元对输出的影响程度。
LLMs具有生成性和自回归性——当有输入时,模型会根据输入序列和先前生成的输出序列中的上下文来评估输出中出现的下一个词元的概率。一旦生成词元,它就被反馈到输入中,该过程不断重复以响应给定的文本提示,逐步生成文本输出。LLMs强大的关键在于,它们可以在自我监督模式下从大量数据中进行训练。学习过程中的目标由文本数据本身提供,不需要外部标签,因为对于训练数据中的任何文本,目标都由下一个词元提供。这种方法在语言翻译和文本生成等任务中表现出了显著的有效性。在这里,我们考虑了目前最著名的LLMs,包括生成预训练转换器-3(GPT-3)、Bard和生成预训练转换器-4(GPT-4)。这些模型使用转换器的仅解码器架构,它们的主要区别在于所训练数据的大小和性质。GPT-3模型拥有1750亿个参数,并且已经被证明在多项任务中表现出色。而GPT-4模型将参数扩大到1万亿个,克服了GPT-3的许多局限性。这两个GPT版本都在庞大的文本语料库上进行了预训练,然后进行微调以执行特定任务。此外,使用人类反馈强化学习(RLHF)方法对模型进行了增强,该方法使用人类生成的反馈使模型与人类偏好保持一致,引导模型生成更准确和适当的响应。另一方面,Bard是谷歌开发的聊天机器人。截至2023年4月,Bard采用了具有1370亿个参数的对话应用语言模型(LaMDA),主要对公共对话数据和网络文本进行预训练,从而提高了交谈的理解和准确的对话风格响应。
这些系统或多或少能够通过图灵测试,在速度、流动性和以多种语言生成内容的能力远远超过人类,这引发了一个拟人化、定义不清的问题,即LLMs实际上能“理解”多少。许多研究表明,LLMs容易产生“幻觉”和错误,有时在推理、因果关系和常识理解方面遇到问题,尤其是在面对误导性提示或包含新概念或不熟悉概念的提示时。在这种情况下,模型可能会产生完全错误或荒谬的响应。然而,重要的是要承认,在大型领域中运行的复杂系统必然会偶尔出错,类似于人类视觉皮层中的视错觉。而且,LLMs一直在快速改进,因为增加模型中参数数量的努力减少了标杆研究中观察到的误差。此外,研究表明,仔细的提示可以帮助LLMs集中注意力、自我纠正和推理,从而进一步提高它们的能力。
为了评估LLMs理解医学数据的能力,研究人员最近评估了GPT-3回答美国医学执照考试(USMLE)问题的能力。研究结果表明,该模型在考试中表现出色,在医学推理方面表现出高度的准确性和流畅性。这些初步结果表明,LLMs有潜力改变医学教育和实践。虽然USMLE是公认的通用医学知识考试,但它可能无法完全涵盖医学专科在实践中面临的复杂情况。在这项工作中,我们旨在通过LLMs(GPT-3、Bard和GPT-4)在美国麻醉学委员会(ABA)考试中的表现,进一步评估LLMs的临床知识和推理能力。该考试包括三个部分:基础考试,高级考试和应用考试。基础考试评估麻醉学的基础知识,通常在毕业后的住院医师培训第二年(PGY-2)进行。高级考试更为全面,覆盖患者护理、药理学和医学知识等主题,在住院医师培训完成后的第一年进行。应用考试仅在通过前2次考试后进行,最后评估考生在麻醉实践中的临床能力,包括结构化口试(SOE)和实操结构化临床测试(OSCE)两部分。通过所有ABA考试需要广泛的麻醉学知识及培训,也是获得ABA认证所必需的。通过分析模型在这项考试中的表现,我们可以更好地理解它们在高度专业化和多功能医疗场景中的潜在应用,从而深入洞察LLMs在医学领域的优势和局限性。
方法
本研究未进行人体试验,因此,该研究被IRB豁免。ABA考试包括基础考试、高级考试和应用考试。对于基础考试,我们使用ABA网站上提供的全套样题,为60道多项选择题,并提供答案。高级考试是使用《麻醉回顾:1000个问题和答案,先掌握基础知识,再攻克高级内容》一书制订的。本书包括以下领域的14个章节:高级监护、疼痛、儿科麻醉、产科麻醉、心血管麻醉、胸部麻醉、耳鼻喉(ENT)麻醉、特殊适应症麻醉、骨科麻醉、创伤、门诊手术麻醉、老年医学、重症监护和伦理学。我们从每章随机选择5个问题,最终形成一份包含70道多项选择的试卷。使用ChatGPT plus用户界面和谷歌提供的用户界面,将基础考试和高级考试的多项选择题和可能的答案分别输入GPT-3、GPT-4和Bard。问题被单独输入,并记录了人工智能的答案。一些题目所包含的图像无法作为语言模型的输入内容,此时,我们用文字来描述这些图像。最终,将模型中选定的多项选择题结果与正确答案进行比较并评分。
对于应用考试,OSCE部分由于涉及实操超声站和实时监护仪解释等,超出了AI目前的能力,无法利用MMLs进行考试,所以我们只能探索SOE部分。而且,我们只在SOE中测试了GPT-4,因为GPT-3和Bard没有通过基础的和高级的多项选择题考试。对SOE考试,我们使用了在ABA网站上的样本题。我们选择了第一种长干式题型,其中包括术中(4个问题)和术后护理(6个问题)的子主题,然后是3个不相关的短干式题型。我们采用两种不同的方法实施SOE考试。第一种是向AI提供了完整的题干和患者信息,允许AI一次回答所有的问题。在第二种方法中,我们使用了一种交互式的方法来回答问题,更符合实际考试形式。考试由ABA考官管理,在考试的深度、广度、适应性和细节上做更多的尝试。特别是,我们关注这部分AI回答中的知识应用和决策判断,这一点可能更具挑战性,而不是对AI来说相对容易的医学知识和语言组织。我们还探索了一个不在ABA网站上的旧题库中的“grab-bag”主题,要求AI在简短但可能复杂的病史中做出医学判断。对于整个SOE考试,AI被指示假装自己是麻醉学专家,并作出简洁的回应。
对于SOE考试评分,2位作者对人工智能的反应与他们多年来与真实考生和学员的经验进行了比较。根据人类考生做出这种表现的情况下能否通过考试的判断标准来给AI的回答进行评定。作为进一步验证,AI答题结果与两外2名SOE考官共享,他们对答案来源一无所知,被要求评审“用于住院医师培训目的的模拟口试成绩单”,并提供他们的想法:该模拟考生的表现如何?如果这是真实考试,他们是否同意通过?
结果
在基础考试的评估中,GPT-3和Bard分别获得了58.3%和46.7%的分数,表明他们可能无法通过200道综合题的实际考试。相比之下,更高级的语言模型GPT-4的得分为78.3%,表明成功通过实际考试的可能性更大(表1)。
在高级考试中,GPT-3和Bard分别获得了50.0%和45.7%的分数,表明他们通过200道综合题实际考试的几率较低。然而,更复杂的语言模型GPT-4获得了80.0%的分数,超过其在基础考试中的表现,表明成功通过实际高级考试的可能性更高(表2)。如表2和图中所示,模型性能在不同子主题中有所不同。
SOE考试的交互结果见补充材料。虽然与“完整问答”格式的实际考试不一致,但两位评估者都认为回答的内容有一些明显的差距,但没有提出任何“失败”的严重关切。不出所料,这些回答组织得非常出色,医学知识含量也很高。此外,对题干信息的整合能力超出了实际考试的预期,而且血气分析非常准确。
在“互动”考试中,AI应答存在一些不足,并看到了一些短语和元素的重复,尽管后者也许可以通过额外的指令来限制。两位非盲评估者都认为回答是不够理想的,但如果这是发生在实际考试中,可能会给予通过。此外,如果对AI要求澄清或深入、改变场景、甚至要求AI在给出详细列表时优先考虑重要性,都会得到普遍合理的回应。
最常见的不足是优先级排序不当和选择不当。例如,AI没有关注颈动脉内膜切除术患者当前的神经和血管状态,以理解新手术的紧迫性,而是关注麻醉药和用药史。另一个例子是AI最初坚持认为,即使是左侧全肺切除术,左侧双腔管也是首选。在应答中,关于优化单肺通气的氧合存在混淆。然而,就像ABA考官在实际考试中所做的那样,进一步讨论这些令人不满的回答时,AI最终都适当地修改了其最初有缺陷的答案。
在测试过程中,我们开始怀疑AI是否只是为了回应任何微妙的建议而改变优先级,因此我们故意对CEA患者优先级较低的病史(肾功能)采用相同的提问格式。有趣的是,在这种情况下,AI正确描述了该系统的重要性,但选择不修改之前的回答(我们认为这是恰当的)。这表明存在一些决策功能,而不仅仅是对用户输入的提示做出反应。
盲法评估者认为,评估SOE考试很复杂。真实的考生在考试压力和速度下经常犯错,考官经常给他们机会纠正这些错误。在这个案例中,所犯的错误是中等程度的,通常可以通过进一步的询问来纠正。他们还观察到,这些回答过于冗长和重复,在考试时限下可能会带来挑战。然而,尽管存在这些局限性,两名盲法评估者都表示,虽然表现并不完美,但考生最终通过考试是合理的。
讨论
ABA笔试的通过门槛每年都有所不同;然而,分数超过75%通常意味着合格。因此,只有GPT-4同时通过了基础考试和高级考试。这一发现进一步证实了增强模型大小可以提升任务表现的假设。随着未来的语言模型变得越来越庞大和复杂,用类似的考试问题来评估它们时,预计其准确率可能接近100%水平。虽然GPT-3和Bard无法通过多项选择题考试,但观察他们在不同主题中的表现仍然很有趣。对于高级考试样本,我们从14个不同的主题中随机选择了题目,模型在各个主题中显示出不同的表现。值得注意的是,所有模型在胸部麻醉和疼痛管理类别中都获得了满分,而在产科、骨科、创伤和门诊手术中得分最低(图)。鉴于模型的训练数据主要来自互联网,这表明特定主题的准确信息的可用性与模型的性能之间存在相关性。此外,这些发现提示在某些麻醉亚专业中可以优先考虑AI整合。
应用考试SOE结果可能比多项选择题考试的表现更有趣。虽然只有GPT-4在这个级别进行了测试,但评估者认为,与通过笔试的麻醉科住院医师医生相比,AI反应和表现“中等”。当评估者被告知这些回答是由AI模型生成时,他们评论说,这些回答非常简洁、信息丰富,并且与问题中提供的患者背景病史相匹配。对新资料的应答调整令人信服,对考虑后续问题时对之前陈述的纠正也是如此。例如,在具体询问GPT-4关于左肺门切除术中使用左侧支气管插管的问题后,GPT-4“意识到”左侧置管有问题,然后表示将修改之前的回答。它对单肺通气中氧合的混淆和CEA患者的神经病史也做了同样的处理。
关于当前患者的信息整合也很好,GPT-4始终将特定患者的详细信息整合到其提供的回答和“决策”描述中。例如,在对出血的应答过程中,GPT-4明确表示,它将“管理可用的2个单位,同时要求额外单位的血。”LLMs的反应似乎通过风险评估来表达判断,在针对开胸手术患者与胆囊切除术患者拔管标准的差异时,它指出:“在ASA1级胆囊切除术患者中,这些具体问题可能没有那么重要,因为他们通常没有明显的疾病史,并且接受侵入性较小的手术。”
如上所述,我们在测试过程中发现的唯一真正的初始“缺陷”是被要求缩小长列表时信息的优先排序(公平地说,LLMs在被要求重新考虑时后续进行了修改),以及整合到初始回答中的信息差。基于这些 AI 模型在现阶段的已知局限性,似乎合理的是,模型局限性在综合性考试中更可能发生,但这样说也是不确定的,总体而言,AI在复制应用程序和呈现判断方面的“综合”功能肯定优于我们遇到的至少一部分人类考生。此外,随着这些模型在训练数据、样本和范围上的不断扩大,没有理由相信性能将不会得到提高。
从GPT-4自身的角度来解释结果,回答的上下文总是准确的——LLMs似乎总是表现出试图回答问题的意图,展示了该系统令人印象深刻的自然语言处理。据说,“错误”似乎来自于整合到应答中的信息“盲点”。当盲点被追问并使LLMs专注于它时,随后的应答就会有所改善。这个关于LLMs应答的观察结果与人工智能界的许多发现相一致,这些发表表明LLMs具有思维链(逐步)推理和自我批评的能力,使其在被追问时能够产生更准确的输出。
就目前而言,AI在这一过程中的表现令人印象深刻,让我们不禁质疑,作为训练有素的临床医生,我们真的不该使用这些AI系统来帮助我们避免在关键事件中可能发生的一些常见的认知错误吗?我们在医院代码中都有一个代码负责人,通常还有一个专门的记录员来记录事件。向AI咨询有差异的优先干预措施中的遗漏项目,来提醒人们,也许是一项好的投资。
尽管GPT-4在ABA实践考试中表现出色,但一个可能的问题是,LLMs的输出并不总是一致的,因为相同的提示可能会引起不同的应答。这是因为LLMs是一种概率生成模型,它通过迭代和自回归采样,从训练数据中学习到的词元的分布来生成输出。
众所周知,当前的LLMs 可能会出错,例如,当面临误导性提示或包含新概念或不熟悉概念的提示时。在这种情况下,模型可能会产生完全错误或荒谬的应答。此外,我们观察到,当遇到纯文本内容的问题时,语言模型表现出更高的准确性。然而,当面临包含数值计算或涉及数字的问题时,它们的准确性会显著下降。这可以归因于这些语言模型主要是在基于文本的数据上训练的,在数值计算和传达这些计算的语言结构方面缺乏专门的训练。为了提高LLMs在解决数值计算问题时的准确性,在模型的预训练或微调过程中,必须包含一个含有数值数据的专门训练数据集。或者,通过使用改进的提示技术,如思维链,已经证明可以获得更准确的结果。在这种技术中,模型被指示“一步一步地思考”以得出最终答案。
此外,LLMs容易受到对抗性攻击,如数据中毒和输入干扰。对手可能会故意制造这些攻击,要么在训练时的训练数据中引入虚假信息,要么在输出时的提示中引入模糊或误导性的上下文。解决这些问题并开发有弹性的防御机制是一个正在进行的研究领域,特别是在考虑将人工智能整合到临床医学中时尤其重要。
GPT-4通过ABA考试的能力对医学教育也有积极和消极的影响。一方面,它证明了LLMs作为医学教育、提高教学质量和考试准备的有效工具的潜力。另一方面,存在过度依赖这些模型的风险,可能会削弱批判性思维和解决问题的能力。此外,必须指出,即使有像 GPT-4 这样的先进模型,在口头测试的问题中,有时也无法提供准确的答案,需要进一步追问和补充信息才能得出正确的答案。这突显了仅依赖模型输出的风险,因为它可能并不总是完全可靠的,并可能导致错误信息的传播。为了解决这些问题,教育工作者可以在医学教育中采取多方面的方法。他们可以设计任务,鼓励学生进行批判性思维和数值分析,培养加深对主题的理解。此外,更加重视面对面的讨论和临床经验交流可以帮助学生提高他们的分析技能和决策能力。
结论
本研究通过评估LLMs在ABA考试中的表现,评价了这些模型特别是GPT-4在麻醉学中的临床知识和推理能力。我们的研究结果强调了模型大小和任务准确性之间的关系,并根据不同主题的不同表现,提出了麻醉亚专业内的AI集成的潜在领域。然而,必须指出,通过考试的LLMs并不等于具备行医能力,因为它们仍处于早期发展阶段,需要进行重大改进才能融入医疗实践。未来的研究应解决在临床环境中部署AI的局限性,以及在法律、伦理和社会方面的影响。此外,研究人员应该探索用AI驱动的见解来增强人类决策过程的方法,以最大限度地发挥这些技术在医学中的优势。
原文链接
Angel M C , Rinehart J B , Cannesson M P ,et al.Clinical Knowledge and Reasoning Abilities of AI Large Language Models in Anesthesiology: A Comparative Study on the American Board of Anesthesiology Examination[J].Anesthesia & Analgesia, 2024, 139(2):349-356.
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
#麻醉学# #AI大语言模型#
39